Au sein de l’équipe Data, vous prenez en charge la conception, l’industrialisation et l’optimisation de pipelines de données sur un environnement Big Data (Hadoop/HDFS, Hive, Spark). Vous garantissez la qualité, la traçabilité et la disponibilité des datasets qui alimentent la BI (Power BI) et les besoins analytiques des métiers.
Responsabilités clés
Ingestion & Modélisation
- Intégrer des données depuis plusieurs SGBD (PostgreSQL, SQL Server, MySQL, IBM DB2) et fichiers via Sqoop/ETL.
- Structurer les zones bronze/silver/gold et définir les schémas (Hive).
Traitements distribués
- Développer et optimiser des jobs Spark / PySpark (partitionnement, broadcast, cache, bucketing).
- Écrire des transformations SQL/HiveQL performantes et maintenables.
Orchestration & Production
- Concevoir et maintenir des DAGs Airflow (scheduling, retry, SLA, alerting).
- Industrialiser via GitLab (CI/CD), scripts Shell et bonnes pratiques DevOps Data.
Qualité & Gouvernance
- Mettre en place des contrôles (complétude, unicité, référentiels), tests unitaires/data tests et documentation (catalogue, dictionnaires).
- Assurer la traçabilité (lineage) et la gestion des incidents (RCAs, runbooks).
Valorisation & BI
- Publier des datasets “analytics-ready” et optimiser l’alimentation Power BI (vues matérialisées, agrégations).
- Contribuer au calcul et à la fiabilisation des KPI.