Critères de l'offre
Métiers :
- DevOps (H/F)
- + 1 métier
Expérience min :
- 3 à 5 ans
Secteur :
- Fonction publique
Compétences :
- Amélioration continue
- Kibana
Lieux :
- Le Kremlin-Bicêtre (94)
Conditions :
- CDI
- Temps Plein
Description du poste
Notre opérateur ambitionne de devenir un acteur clé du Cloud ministériel, avec pour objectif de construire une pile cloud sûre, performante et résiliente, opérée sur l'ensemble du territoire national. À terme, cette infrastructure constituera la fondation d'un véritable opérateur cloud ministériel à l'état de l'art, capable de servir l'ensemble du numérique de défense.
Vous opérez la stack d'observabilité de la plateforme dans son intégralité - métriques, logs, traces, alerting, audit - et vous en êtes le référent technique auprès des autres équipes SRE (compute, stockage, réseau).
Missions :
•Déploiement, exploitation et passage à l'échelle de la pile d'observabilité (métriques via Prometheus et logs) ;
•Logs : mise en œuvre et exploitation du pipeline de logs (de la collecte à la rétention) ;
•Tracing : intégration OpenTelemetry sur les composants plateforme ; déploiement et exploitation d'un backend de traçage distribué ;
•Alerting et SLA : conception des règles d'alerte, routage, réduction du bruit ; formalisation et instrumentation des SLO avec les équipes SRE ;
•Appui transverse : rôle d'expert observabilité auprès des équipes compute, stockage et réseau - conventions d'instrumentation, revue des dashboards, accompagnement sur les incidents complexes ;
•Reproductibilité : déploiements déploiements déterministes, versionnés, auditables via IaC et GitOps ;
•Pilotage : RETEX instrumentés, amélioration continue de la couverture d'observabilité.
Date de début : 31/12/2025
Description du profil
Nous cherchons un SRE senior (5-10 ans d'expérience) avec une forte dominante observabilité, capable de concevoir et d'opérer la stack de supervision d'une plateforme critique multi-tenant, et de jouer un rôle d'expert transverse auprès d'autres équipes.
Vous possédez de l'expérience professionnelle :
•Exploitation en production d'une plateforme d'hébergement à grande échelle, en mode SRE : gestion d'incidents, astreintes, pilotage par SLO/SLI ;
•Maîtrise opérationnelle d'une solution de supervision (e.g., Prometheus/Grafana) ou d'au moins une solution de gestion de logs en production (e.g., ELK) ;
•Expérience de la conception et du maintien de règles d'alerte en production - réduction du bruit, routage, post-mortem ;
•Culture SRE : automatisation, RETEX instrumentés et amélioration continue.
Vous êtes :
•Rigoureux : Capacité à concevoir et maintenir des infrastructures critiques avec une attention méticuleuse aux détails, particulièrement dans les aspects de sécurité et de reproductibilité.
•Innovant : Capacité à proposer des solutions techniques avancées et à implémenter des bonnes pratiques
•Ancré dans une culture d'analyse factuelle et d'amélioration continue.
Salaire et avantages
L'entreprise : Ministère des Armées
Recommandé pour vous


