I. 🎯 Scopul Postului
Dezvoltarea, implementarea și optimizarea soluțiilor complexe de Data Warehouse (DWH) și Data Lakehouse folosind platforma Databricks (inclusiv Delta Lake, Unity Catalog și Spark) pentru a asigura o fundație de date scalabilă, performantă și guvernată pentru analiză, raportare și Machine Learning.
II. 📝 Responsabilități Principale
A. Dezvoltare și Arhitectură Databricks
Proiectare și Implementare Avansată: Proiectarea și implementarea de pipeline-uri de date ETL/ELT robuste, scalabile și de înaltă performanță utilizând PySpark/Scala și Databricks SQL pe platforma Databricks.
Delta Lake: Expertiză în implementarea și optimizarea arhitecturii Medallion (Bronze, Silver, Gold) folosind Delta Lake pentru a asigura calitatea, coerența și istoricitatea datelor.
Lakehouse Platform: Implementarea eficientă a arhitecturii Lakehouse pe Databricks, combinând cele mai bune practici din DWH și Data Lake.
Optimizarea Performanței: Optimizarea clusterelor Databricks, a operațiunilor Spark și a tabelelor Delta (ex: Z-ordering, Compaction, Tuning Queries) pentru a reduce latența și costurile de calcul.
Streamare: Proiectarea și implementarea de soluții de procesare a datelor în timp real/cvasireal (streaming) folosind Spark Structured Streaming și Delta Live Tables (DLT).
B. Guvernanță și Securitate
Unity Catalog: Implementarea și administrarea Unity Catalog pentru guvernanța centralizată a datelor, securitate fină (row/column-level security) și lineage de date.
Calitatea Datelor (Data Quality): Definirea și implementarea standardelor și a regulilor de calitate a datelor (ex: folosind DLT sau Great Expectations) pentru a menține integritatea datelor.
C. Operațiuni și Colaborare
Orchestrare: Dezvoltarea și gestionarea fluxurilor de lucru (workflows) complexe folosind Databricks Workflows (Jobs) sau instrumente externe (ex: Azure Data Factory, Airflow) pentru automatizarea pipeline-urilor.
DevOps/CI/CD: Integrarea pipeline-urilor Databricks în procese de CI/CD folosind instrumente precum Git, Databricks Repos și Bundles.
Colaborare: Lucrul îndeaproape cu Data Scientists, Analisti și Arhitecți pentru a înțelege cerințele de business și pentru a oferi soluții tehnice optime.
Mentorat: Oferirea de îndrumare tehnică (mentorship) dezvoltatorilor juniori și promovarea celor mai bune practici.