Critères de l'offre
Métiers :
- Cloud Architect (H/F)
Expérience min :
- 3 à 20 ans
Secteur :
- Fonction publique
Diplômes :
- Doctorat
- + 1 diplôme
Lieux :
- Le Kremlin-Bicêtre (94)
Conditions :
- CDI
- Temps Plein
Description du poste
En tant que Lead SRE Stockage, vous concevez, déployez et opérez l'infrastructure de stockage distribuée. Vos missions incluent :
•Déployer et opérer le stockage bloc et objet au niveau régional puis étendre vers le multi-régions ; contribuer aux choix technologiques (e.g., Ceph ou alternatives) ;
•Garantir l'isolation multi-tenant, la résilience et les performances du stockage distribué ;
•Concevoir et opérer une architecture multi-régions résiliente face aux contraintes réseau (bande passante limitée, latence, coupures) en tenant compte du théorème CAP ;
•Mettre en œuvre les procédures de backup, restauration et de PRA ;
•Déployer et opérer la stack d'observabilité sur vos périmètres ;
•Conduire l'exploitation par les SLO, error budgets et RETEX ;
•Participer à la gestion d'incidents (niveau N3/N4) et aux astreintes ;
•Équipe : encadrer techniquement les ingénieurs stockage ; contribuer au recrutement et à la montée en compétences.
Date de début : 31/12/2025
Description du profil
Nous cherchons un expert stockage distribué : soit 10+ ans d'expérience en production, soit doctorat en systèmes distribués/stockage avec expérience significative en production de solutions à grande échelle.
Vous possédez de l'expérience professionnelle :
•Exploitation SRE de solutions de stockage distribué à grande échelle (Ceph, Longhorn, stack S3 ou équivalent) : déploiement, exploitation, optimisation ;
•Dimensionnement de plateforme de stockage (IOPS, bande passante, latence) et arbitrages performance/coût/résilience ;
•Observabilité avancée de stockage distribué avec alertes et métrologie ;
•Tests de résilience et chaos engineering appliqué au stockage : perte de disques, partitions réseau, corruption de données ;
•Gestion d'incidents en production (niveau N3/N4) et participation aux astreintes ;
•Expérience de la culture SRE : pilotage par SLO/SLI, RETEX, amélioration continue.
Vous disposez également des compétences techniques suivantes :
•Expertise avancée sur au moins une solution de stockage distribuée bloc ou objet ;
•Maîtrise de Linux avancé (optimisation performances, tuning kernel) et des couches réseau sous-jacentes ;
•Maîtrise d'au moins un langage de programmation (Go, Python) et d'infrastructure-as-code (Terraform, Ansible) ;
•Maîtrise d'une stack d'observabilité (Prometheus, Grafana, Loki) et des outils/méthodes de métrologie ;
•Compréhension des fondamentaux théoriques : réplication, erasure coding, consensus distribué, cohérence sans consensus, théorème CAP ;
•Capacité à concevoir des architectures résilientes face aux contraintes réseau (bande passante limitée, latence élevée, coupures) ;
•Très bonne connaissance sécurité : multi-tenant, chiffrement at-rest/in-transit, gestion des secrets, capacité à dialoguer avec une chaîne SSI.
Vous êtes :
•Rigoureux : Capacité à concevoir et maintenir des infrastructures critiques avec une attention méticuleuse aux détails, particulièrement dans les aspects de sécurité et de reproductibilité ;
•Innovant : Capacité à proposer des solutions techniques avancées et à implémenter des bonnes pratiques ;
•Ancré dans une culture d'analyse factuelle et d'amélioration continue ;
Atouts appréciés :
•Expérience d'environnements multi-sites / multi-régions ;
•Expérience avec des environnements avec de fortes exigences de disponibilité ;
•Connaissance de SecNumCloud et IGI 1300 ;
•Contributions open source
Salaire et avantages
L'entreprise : Ministère des Armées
Recommandé pour vous


