Questa pagina documenta il plugin Jersey ean-image-sourcing e la pipeline che esegue.
POST /webrobot/api/ean-image-sourcing/{country}/upload(CSV upload)POST /webrobot/api/ean-image-sourcing/{country}/executePOST /webrobot/api/ean-image-sourcing/{country}/schedulePOST /webrobot/api/ean-image-sourcing/{country}/query(query del dataset)POST /webrobot/api/ean-image-sourcing/{country}/images(immagini, opzionale base64)GET /webrobot/api/ean-image-sourcing/{country}/statusGET /webrobot/api/ean-image-sourcing/info
Tipicamente:
load_csvsearchEnginevisitiextractimageSimilarity
Provider richiesti (auto-discovery se non passati esplicitamente):
GOOGLE_SEARCH→GOOGLE_SEARCH_API_KEY,GOOGLE_SEARCH_ENGINE_IDTOGETHERAI→TOGETHERAI_API_KEYSTEEL_DEV→STEEL_DEV_API_KEY
Modalità:
- nel body puoi passare
cloudCredentialIds(lista) ocloudCredentialId(legacy) - se non presenti, il plugin cerca credenziali abilitate per provider (prima org-specific, poi global, poi prima disponibile)
- in fase di submit Spark, le credenziali vengono iniettate come env su driver/executor
- se i campi sono cifrati, puoi passare
X-Encryption-Keynegli header del plugin
Il plugin EAN è spesso usato per costruire dataset vision+text (catalog enrichment) che poi vengono consumati in fase di training/fit.
Non esiste un endpoint “download file” dedicato nel plugin; per scaricare dati usa:
POST /webrobot/api/ean-image-sourcing/{country}/query
È il metodo consigliato per estrarre subset filtrati (es. lista EAN, colonne arricchite, top-N).
Usa:
POST /webrobot/api/ean-image-sourcing/{country}/images
Campi chiave:
eans: lista EANlimit: max immagini per EANincludeBase64:trueper includere base64 (utile per training/fit senza fetch esterno)
Esempio (1 immagine migliore con base64 per EAN):
curl -X POST "${WEBROBOT_BASE_URL}/webrobot/api/ean-image-sourcing/italy/images" \
-H "Content-Type: application/json" \
-d '{
"eans": ["5901234123457", "5901234123458"],
"includeBase64": true,
"limit": 1
}'Se serve il dataset completo come file, usa gli endpoint generici:
GET /webrobot/api/datasets(lista dataset)GET /webrobot/api/datasets/{datasetId}(contienestoragePath/filePath/format)
Poi scarica da MinIO/S3 con le credenziali di infrastruttura.