English version | Versione italiana
Αυτός ο οδηγός εξηγεί πώς να δημιουργήσετε pipeline ETL χρησιμοποιώντας YAML και πώς να τις εκτελέσετε μέσω API.
Το WebRobot είναι μια υποδομή δεδομένων native Spark, API-first για την κατασκευή agentic pipeline ETL και προϊόντων δεδομένων. Αυτό το συστατικό ETL παρέχει επεκτάσιμη επεξεργασία δεδομένων, έξυπνη εξαγωγή δεδομένων από το web και επεκτάσιμη διαχείριση pipeline.
fetch: # προαιρετικό
url: "https://example.com"
traces: # προαιρετικό (ενέργειες browser)
- { action: "wait", params: { seconds: 1 } }
pipeline: # υποχρεωτικό
- stage: join
args: [ "a.product-link", "LeftOuter" ]
- stage: extract
args:
- { selector: "h1", method: "text", as: "title" }Δεν υπάρχει endpoint /webrobot/api/pipelines.
Η pipeline YAML αποθηκεύεται στον Agent (pipelineYaml) και εκτελείται δημιουργώντας ένα Job που δείχνει σε αυτόν τον Agent.
curl -X POST https://api.webrobot.eu/api/webrobot/api/agents \
-H "X-API-Key: your-api-key" \
-H "Content-Type: application/json" \
-d '{
"name": "my-agent",
"categoryId": "1",
"pipelineYaml": "pipeline:\n - stage: join\n args: [\"a.product-link\"]\n - stage: extract\n args:\n - { selector: \"h1\", method: \"text\", as: \"title\" }",
"enabled": true
}'curl -X POST https://api.webrobot.eu/api/webrobot/api/projects/id/your-project-id/jobs \
-H "X-API-Key: your-api-key" \
-H "Content-Type: application/json" \
-d '{ "name": "my-job", "agentId": "123" }'curl -X POST https://api.webrobot.eu/api/webrobot/api/projects/id/your-project-id/jobs/your-job-id/execute \
-H "X-API-Key: your-api-key" \
-H "Content-Type: application/json" \
-d '{ "parameters": { "limit": 100 } }'