Data Engineer / Scientist (H/F) AGENCE NATIONALE DE SANTE PUBLIQUE
Saint-Maurice (94)CDI
Hier sur le WebSoyez parmi les premiers à postuler
Critères de l'offre
Métiers :
- Data Engineer (H/F)
Expérience min :
- 3 à 5 ans
Secteur :
- Fonction publique
Diplômes :
- Bac+5
- + 1 diplôme
Compétences :
- SAS
- Kubernetes
- Python
- PostgreSQL
- Gitlab
Lieux :
- Saint-Maurice (94)
Conditions :
- CDI
- Temps Plein
Description du poste
Sous l'autorité du responsable de l'unité « Appui et méthodes pour les études et investigations dans le domaine de la surveillance » (AMETIS) et en lien étroit avec la personne en charge du pilotage de l'activité Data Science & Data Ingénierie de la direction, il/elle aura pour mission d'assurer la gestion, le traitement et la restitution des données.
Activités :
- Concevoir, développer et maintenir des systèmes de gestion de données et des pipelines automatisés couvrant l'ensemble du cycle de traitement et de restitution des données.
- Nettoyer, structurer et préparer des données, en garantissant leur qualité, leur fiabilité, leur traçabilité et leur conformité aux exigences réglementaires.
- Explorer et proposer des solutions technologiques pour faire progresser la qualité et la fiabilité des données.
- Identifier les possibilités d'acquisition et d'intégration de nouvelles sources de données pour enrichir les connaissances au service de la santé des populations.
- Définir, implémenter et interpréter des indicateurs de surveillance adaptés aux enjeux métiers.
- Concevoir, développer et optimiser des méthodes statistiques et d'apprentissage automatique et profond pour la construction d'indicateurs épidémiologiques, la détection de signaux et la modélisation prédictive.
- Développer des outils de monitoring et de restitution (API, tableaux de bord interactifs, rapports automatisés) pour répondre aux besoins opérationnels et stratégiques de l'agence.
- Identifier et intégrer de nouvelles sources de données, ainsi que des approches technologiques émergentes (IA, traitement distribué, etc.) pour enrichir les analyses et renforcer la réactivité en situation de crise.
- Travailler en étroite interaction avec des épidémiologistes, biostatisticiens et ingénieurs pour traduire les besoins métiers en solutions techniques robustes.
- Rédiger des notes méthodologiques, contribuer à la valorisation des résultats (bulletins, rapports d'études et articles scientifiques) et former les équipes à l'utilisation des outils développés.
Ce poste s'inscrit dans un environnement technique évolutif et collaboratif, mobilisant des outils de développement modernes et des langages adaptés à la science des données. À terme, il bénéficiera d'une infrastructure de calcul performante, actuellement en cours de déploiement. La personne recrutée évoluera au sein d'une équipe pluridisciplinaire, en interaction étroite avec des épidémiologistes, data scientistes, biostatisticiens, ingénieurs, ainsi que les membres de la Direction des Systèmes d'Information (DSI) et le RSSI (Référent sécurité des systèmes d'information).
Les principaux outils et technologies mobilisés incluent :
- Langages de programmation : Python / R / SAS ;
- Rapports automatisés : Rmarkdown / Quarto ;
- Environnement collaboratif : GitLab (versioning, intégration continue, gestion des issues) ;
- Automatisation et orchestration : Apache Airflow (déploiement, supervision des workflows), Docker ;
- Formats et bases de données : PostgreSQL, fichiers Parquet, CSV ...
- Environnements de développement : VS Code, R Studio, IA Mistral ;
- Traitement intensif : Apache Spark via serveurs sécurisés de calcul haute performance (en cours de construction).
La personne recrutée pourra être amenée à représenter Santé publique France dans des instances nationales et internationales, lors d'échanges scientifiques ou institutionnels. Elle encadrera également des stagiaires de niveau Master 2, des internes de santé publique et des doctorants sur des thématiques liées à l'ingénierie et à la science des données. Enfin, elle participera à la continuité d'activité par le biais de permanences hebdomadaires et d'astreintes de week-end, et pourra être sollicitée pour contribuer à toute activité relevant des missions de l'Agence, notamment en situation d'urgence ou de crise.
Activités :
- Concevoir, développer et maintenir des systèmes de gestion de données et des pipelines automatisés couvrant l'ensemble du cycle de traitement et de restitution des données.
- Nettoyer, structurer et préparer des données, en garantissant leur qualité, leur fiabilité, leur traçabilité et leur conformité aux exigences réglementaires.
- Explorer et proposer des solutions technologiques pour faire progresser la qualité et la fiabilité des données.
- Identifier les possibilités d'acquisition et d'intégration de nouvelles sources de données pour enrichir les connaissances au service de la santé des populations.
- Définir, implémenter et interpréter des indicateurs de surveillance adaptés aux enjeux métiers.
- Concevoir, développer et optimiser des méthodes statistiques et d'apprentissage automatique et profond pour la construction d'indicateurs épidémiologiques, la détection de signaux et la modélisation prédictive.
- Développer des outils de monitoring et de restitution (API, tableaux de bord interactifs, rapports automatisés) pour répondre aux besoins opérationnels et stratégiques de l'agence.
- Identifier et intégrer de nouvelles sources de données, ainsi que des approches technologiques émergentes (IA, traitement distribué, etc.) pour enrichir les analyses et renforcer la réactivité en situation de crise.
- Travailler en étroite interaction avec des épidémiologistes, biostatisticiens et ingénieurs pour traduire les besoins métiers en solutions techniques robustes.
- Rédiger des notes méthodologiques, contribuer à la valorisation des résultats (bulletins, rapports d'études et articles scientifiques) et former les équipes à l'utilisation des outils développés.
Ce poste s'inscrit dans un environnement technique évolutif et collaboratif, mobilisant des outils de développement modernes et des langages adaptés à la science des données. À terme, il bénéficiera d'une infrastructure de calcul performante, actuellement en cours de déploiement. La personne recrutée évoluera au sein d'une équipe pluridisciplinaire, en interaction étroite avec des épidémiologistes, data scientistes, biostatisticiens, ingénieurs, ainsi que les membres de la Direction des Systèmes d'Information (DSI) et le RSSI (Référent sécurité des systèmes d'information).
Les principaux outils et technologies mobilisés incluent :
- Langages de programmation : Python / R / SAS ;
- Rapports automatisés : Rmarkdown / Quarto ;
- Environnement collaboratif : GitLab (versioning, intégration continue, gestion des issues) ;
- Automatisation et orchestration : Apache Airflow (déploiement, supervision des workflows), Docker ;
- Formats et bases de données : PostgreSQL, fichiers Parquet, CSV ...
- Environnements de développement : VS Code, R Studio, IA Mistral ;
- Traitement intensif : Apache Spark via serveurs sécurisés de calcul haute performance (en cours de construction).
La personne recrutée pourra être amenée à représenter Santé publique France dans des instances nationales et internationales, lors d'échanges scientifiques ou institutionnels. Elle encadrera également des stagiaires de niveau Master 2, des internes de santé publique et des doctorants sur des thématiques liées à l'ingénierie et à la science des données. Enfin, elle participera à la continuité d'activité par le biais de permanences hebdomadaires et d'astreintes de week-end, et pourra être sollicitée pour contribuer à toute activité relevant des missions de l'Agence, notamment en situation d'urgence ou de crise.
Salaire et avantages
Annuel de 34617.0 Euros à 69765.0 Euros sur 12.0 mois
Référence : 204JCST
Recommandé pour vous

Marly-le-Roi (78)CDI Il y a 22 jours

La Défense (92)CDI Il y a 13 jours

Paris (75)CDI Il y a 14 jours