Nuevo
Descripcion del puesto
Future Secure AI est une start‑up innovante qui conçoit des IA Co‑Workers capables d’automatiser les tâches opérationnelles au sein d’environnements d’entreprise complexes. Nos solutions sont déjà déployées à grande échelle dans des secteurs variés (finance, santé, industrie) et doivent répondre à des exigences de disponibilité, de performance et de sécurité très strictes. Pour soutenir cette ambition, nous recherchons un(e) **Site Reliability Engineer (SRE)** passionné(e) par l’infrastructure cloud, l’automatisation et la résilience des systèmes.
### Vos missions principales
- **Conception & exploitation d’infrastructures** : Concevoir, déployer et maintenir une plateforme de production fiable, hautement disponible et évolutive, basée sur Kubernetes.
- **Automatisation** : Développer et gérer l’infrastructure as code avec Terraform, créer des chartes Helm pour les déploiements IA, et mettre en place des pipelines CI/CD robustes.
- **Fiabilité & observabilité** : Définir, suivre et améliorer les indicateurs de fiabilité (SLI, SLO, SLA). Implémenter des solutions de monitoring, logging et alerting (Prometheus, Grafana, Loki, OpenTelemetry) afin d’assurer une visibilité totale sur les workloads IA.
- **Gestion des incidents** : Participer aux rotations d’astreinte, répondre aux incidents en temps réel, conduire les analyses de causes racines (RCA) et rédiger des post‑mortems pour transformer chaque incident en opportunité d’amélioration.
- **Optimisation opérationnelle** : Réduire la charge manuelle grâce à l’automatisation des tâches récurrentes (auto‑scaling, auto‑healing, patching).
- **Sécurité & conformité** : Collaborer avec les équipes sécurité pour appliquer les meilleures pratiques (IAM, réseau zero‑trust, scans de vulnérabilités) et garantir la conformité aux standards industriels.
- **Collaboration inter‑équipes** : Travailler en étroite synergie avec les équipes produit, IA, data‑science et développement afin d’intégrer la fiabilité dès la conception (Shift‑Left).
### Profil recherché
- Minimum 5 ans d’expérience en ingénierie de fiabilité ou DevOps, idéalement dans un contexte IA/ML ou de services à forte charge.
- Maîtrise de Kubernetes (gestion de clusters, operators, networking) et de l’infrastructure as code (Terraform, CloudFormation).
- Expertise en automatisation de déploiements avec Helm, ArgoCD ou Flux.
- Solides compétences en observabilité (Prometheus, Grafana, Loki, Jaeger) et en gestion d’incidents (on‑call, RCA).
- Expérience avec les principaux fournisseurs cloud (AWS, GCP ou Azure) et les services associés (EKS, GKE, AKS, IAM, VPC, S3, CloudWatch).
- Connaissances en scripting (Bash, Python, Go) et en CI/CD (GitLab CI, GitHub Actions, Jenkins).
- Esprit analytique, capacité à travailler sous pression et à communiquer clairement avec des équipes pluridisciplinaires.
- Anglais professionnel requis ; le français est un plus.
### Ce que nous offrons
- **Environnement stimulant** : Rejoindre une équipe technique de haut niveau, travailler sur des projets IA de pointe à fort impact business.
- **Culture d’innovation** : Liberté d’expérimenter, hackathons internes, budget formation dédié.
- **Flexibilité** : Mode de travail hybride (2 à 3 jours au bureau, le reste en remote) avec des bureaux modernes à Casablanca.
- **Rémunération attractive** : Package compétitif, bonus lié aux performances et aux objectifs de fiabilité.
- **Avantages** : Assurance santé, tickets restaurant, programme de bien‑être, congés supplémentaires pour formation.
- **Évolution de carrière** : Possibilités d’évolution vers Lead SRE, Architecture Cloud ou Management d’équipes techniques.
Vous êtes prêt(e) à relever le défi de garantir la fiabilité des IA qui transforment les entreprises ? Envoyez votre candidature dès maintenant et participez à la construction du futur de l’automatisation intelligente.