Haldorix, un studio de startup, se spécialise dans la création de solutions AI pour l’industrie, le retail et la logistique. En tant qu’Ingénieur MLOps Edge AI, vous jouerez un rôle central dans la conception, le déploiement et la maintenance de systèmes d’inférence en temps réel sur le terrain. Vous serez responsable de l’architecture hybride cloud/edge, de l’optimisation des modèles, de la mise en place de pipelines CI/CD, de la gestion des serveurs Edge et de la conformité réglementaire.
Architecture & Infrastructure
Vous concevrez une architecture hybride combinant le cloud et l’edge pour l’analyse vidéo en temps réel. Vous définirez les spécifications matérielles (Jetson Orin, RTX A2000, Intel NUC) et assurerez la communication fiable entre les serveurs Edge et le cloud. Vous mettrez en place des solutions de gestion de flotte Edge (K3s/MicroK8s) et orchestrerez les déploiements via ArgoCD/Flux.
Optimisation des Modèles
Vous convertirez et optimiserez les modèles de deep learning (YOLOv8, Stable Diffusion, BERT) pour les GPU embarqués en utilisant ONNX Runtime et TensorRT. Vous appliquerez des techniques de quantification (INT8, FP16) et de pruning pour réduire la latence et la mémoire. Vous assurerez la compatibilité avec les environnements NVIDIA Jetson et autres matériels embarqués.
Pipeline MLOps
Vous construirez et maintiendrez une pipeline CI/CD adaptée à l’edge, incluant la conteneurisation des modèles, le contrôle de version, les mises à jour OTA et la surveillance proactive. Vous intégrerez des outils DevOps (Docker, Ansible, Git) pour automatiser les déploiements et garantir la traçabilité.
Orchestration & Déploiement
Vous déploierez et gérerez des serveurs Edge via K3s/MicroK8s, en utilisant des outils d’orchestration comme KubeEdge ou AWS IoT Greengrass. Vous mettrez en place des déploiements déclaratifs et une gestion centralisée pour assurer la scalabilité et la résilience.
Sécurité & Conformité
Vous appliquerez des mesures de sécurité complètes, y compris l’encryption TLS/mTLS, l’anonymisation des données et la conformité GDPR. Vous veillerez à la localisation des données et à la protection des flux d’information.
Monitoring & Fiabilité
Vous configurerez des tableaux de bord Prometheus, Grafana et Loki pour surveiller les performances d’inférence, l’utilisation GPU et la disponibilité (>99 %). Vous analysera les métriques pour optimiser les ressources et garantir la fiabilité.
Intégration LLM
Vous soutiendrez le déploiement d’un serveur LLM central (Claude, GPT‑4 ou open‑source) pour alimenter des interfaces RAG et des chatbots en temps réel. Vous intégrerez des pipelines de données et des modèles de génération de texte adaptés aux besoins industriels.
Opérations sur le Terrain
Vous effectuerez des installations sur site, des validations et des sessions de dépannage avec les équipes clients. Vous formerez les techniciens locaux et maintiendrez une documentation à jour pour assurer la reproductibilité et la scalabilité.
Votre Profil
Vous avez entre 3 et 5 ans d’expérience dans le déploiement de modèles AI en production, avec une expertise avérée en MLOps, edge computing et GPU embarqués. Vous maîtrisez TensorRT, ONNX Runtime, quantification et pruning. Vous êtes à l’aise avec Python (PyTorch, TensorFlow, FastAPI), Docker, CI/CD, Ansible, Kubernetes/K3s, networking, Linux, Prometheus, Grafana et GPU profiling. Vous avez une excellente capacité de documentation et de dépannage. Vous avez une bonne connaissance de la conformité GDPR et de l’anonymisation des données.
Compétences Additionnelles
Vous avez une expérience avec NVIDIA Jetson, Fleet Management Systems (AWS IoT Greengrass, KubeEdge, Balena), Stable Diffusion, LLM pipelines (RAG, Pinecone, Weaviate, ChromaDB), vision industrielle, IoT ou systèmes temps réel. Vous comprenez les exigences de conformité GDPR et l’anonymisation des données pour les systèmes AI sur site.
Avantages
Vous rejoindrez un studio de startup qui évolue rapidement, travaillerez sur des systèmes Edge AI de pointe déployés sur des sites industriels, et collaborerez avec une équipe agile et experte. Vous gagnerez une expérience pratique en optimisation d’inférence, benchmarking GPU et orchestration à grande échelle.
Processus de Recrutement
Le processus comprend un entretien AI Jobzyn (25–45 min), un entretien technique (1 h) avec le Lead Developer ou Technical Architect, un test pratique (2–3 h) simulant un cas de déploiement MLOps réel, et un entretien final avec l’équipe NITRA et les partenaires Haldorix.