Responsabilitati:
- Implementarea și optimizarea pipeline-urilor de date în medii big data și real-time analytics;
- Integrarea AI generativ în DataOps, pentru a automatiza generarea de cod SQL, documentație tehnică, testare automată și optimizarea performanței pipeline-urilor de date;
- Dezvoltarea și întreținerea platformei AI, asigurând integrarea big data, data pipelines, model pipelines, AI governance și data governance;
- Automatizarea gestionării metadatelor și a catalogării datelor cu ajutorul AI generativ și Open metadata;
- Monitorizarea și rezolvarea problemelor pe pipeline urile de date, oferind suport echipelor de Machine Learning Engineering pentru îmbunătățirea workflow-urilor Airflow;
- Implementarea și gestionarea infrastructurii de big data folosind tehnologii precum Hadoop, Doris, Open Metadata, Kafka și Spark;
- Dezvoltarea și gestionarea fluxurilor CI/CD pentru modelele AI și pipeline-urile de date, utilizând MLflow și AI generativ pentru automatizarea documentației și testării codului;
- Optimizarea procesului de livrare a modelelor AI prin integrarea cu GenAI pentru generarea automată a specificațiilor tehnice și verificarea calității codului;
- Colaborarea cu echipele IT, DevOps și AI Engineering pentru a asigura integrarea modelelor și a infrastructurii DataOps în arhitectura IT generala;
- Implementarea strategiilor de data & AI governance pentru a îmbunătăți transparența, calitatea și guvernanța modelelor AI.
Cunostinte/Competente necesare:
- Programare: Python, SQL, Spark si Bash scripting (Linux);
- Orchestrare pipeline-uri: Apache Airflow;
- Big Data & Storage: Hadoop, Doris, PostgreSQL;
- Real-Time Processing: Kafka, Spark Streaming
- Cloud & AI Platform: AWS, Databricks
- Data & AI Governance: Open Metadata, Mlflow;
- DevOps & CI/CD pentru DataOps: Git, Docker, Kubernetes
Experiente anterioare cheie/critice necesare pentru indeplinirea jobului:
- Experiență în implementarea pipeline-urilor de date în medii big data, real-time analytics și cloud;
- Cunoștințe avansate despre strategiile DataOps, inclusiv CI/CD și AI governance;
- Experiență cu tehnologii big data și real-time analytics: Hadoop, Doris, Kafka, Spark, AWS, Databricks;
- Experiență în gestionarea și monitorizarea modelelor AI cu MLflow și Open Metadata;
- Experiență în utilizarea bazelor de date relaționale și NoSQL (PostgreSQL, etc);
- Experiență în optimizarea workflow-urilor Apache Airflow și implementarea CI/CD pentru pipeline-uri AI
Studii si certificari necesare:
- studii superioare profil tehnic (automatica & calculatoare, electronica, informatica matematica, fizica), economice (cibernetica)