Critères de l'offre
Métiers :
- Data Engineer (H/F)
Expérience min :
- 3 à 10 ans
Diplômes :
- Bac+5
Compétences :
- Anglais
- Cloud
- Python
- SQL
- Kubernetes
- + 3 compétences
Lieux :
- Haute-Garonne (31)
Conditions :
- Stage
- Temps Plein
Description du poste
Description du poste
Intitulé du poste
Stage - Data Engineer F/H
Métier
Systèmes d'informations - Développement
Présentation du contexte
Les PNR (Personal Name Records) sont au cœur de l'activité d'une compagnie aérienne : chaque PNR regroupe toutes les données liées à un passager (itinéraires, réservations, paiements, statuts, mises à jour).
Si les données PNR étaient jusqu'alors stockées et traitées dans un Data Warehouse on-premise, nous sommes en cours de refonte de ce Data Warehouse on-premise sur Google Cloud Platform (GCP).
Avec la migration vers GCP, de nouveaux enjeux d'observabilité apparaissent :
- Suivre finement les coûts BigQuery (FinOps), en particulier le coût par requête, par job, par pipeline ou par source de données.
- Garantir la bonne réception des événements PNR issus des flux Kafka, afin d'assurer la complétude et la fiabilité du Data Warehouse.
Le stage proposé s'inscrit dans cette démarche : concevoir une solution complète de monitoring et d'observabilité permettant à l'équipe Data d'avoir une vision claire sur la santé du système, la qualité des flux entrants et la maîtrise des coûts.
Description de la mission
Nous recherchons un(e) stagiaire aura pour accompagner l'équipe de data engineering PNR afin de :
• Concevoir et mettre en place un dispositif de suivi des performances, des coûts et de la complétude des flux PNR dans l'environnement GCP.
• Développer un tableau de bord Power BI centralisant ces informations de manière claire et visuelle.
L'objectif final est de fournir à l'équipe et aux responsables métiers un outil de pilotage en temps réel de l'activité du Data Warehouse GCP.
Les missions principales sont les suivantes :
• Identifier les indicateurs clés :
- coûts BigQuery (par requête, dataset, job, utilisateur, pipeline),
- volumétrie et latence des événements Kafka reçus,
- erreurs ou ruptures de flux,
- taux de complétude et fréquence de rafraîchissement des données.
• Collecter les données de logs et de métriques GCP (Cloud Logging, Cloud Monitoring, BigQuery INFORMATION_SCHEMA, etc.).
• Centraliser ces informations dans un dataset de monitoring dans BigQuery.
• Concevoir un tableau de bord Power BI pour la visualisation et le pilotage.
• Documenter la solution, automatiser les rapports et proposer des mécanismes d'alerte (détection d'anomalies, dérives de coûts, flux interrompus).
Environnement technique
• Cloud : Google Cloud Platform (BigQuery, Cloud Logging, Cloud Monitoring, Dataflow, Pub/Sub, éventuellement Dataform)
• Streaming : Kafka (events)
• BI & Visualisation : Power BI (connecteur BigQuery)
• Langages : SQL, Python (optionnel)
• Outils : Git, Terraform (optionnel)
Profil recherché
Vous êtes en dernière année d'une Formation Bac+5 en Data Engineer, Statistiques, Informatique, Mathématiques ou équivalent.
Vous maîtrisez des outils d'analyse et de visualisation (SQL, Power BI, Spotfire).
Vous avez d'excellentes capacités analytiques et vous faites preuve de rigueur, d'autonomie, d'esprit d'équipe.
Vous avez la capacité à gérer plusieurs projets simultanément.
Vous communiquez avec aisance des analyses complexes à des interlocuteurs non techniques.
Vous avez le sens du détail et l'exigence dans la qualité des livrables.
Type de contrat
Convention de stage
Type d'horaires
Administratif
Statut apprenti
Stagiaire
Profil candidat
Niveau d'études min. requis
Bac + 5 et plus
Langue
- Français (5 - Bilingue / C2)
- Anglais (4 - Confirmé / C1)
Localisation du poste
Localisation du poste
France, Occitanie, Haute Garonne (31)
Site
Recommandé pour vous



