Nouveau
Remote
Description du poste
En tant qu'Ingénieur(e) de Tâches SwarmBench chez **Crossing Hurdles**, vous jouerez un rôle clé dans la conception, la mise en œuvre et l’évaluation de benchmarks multi‑agents destinés à mesurer les performances de modèles d’intelligence artificielle avancés. Vous serez responsable de la création de scénarios de recherche complexes, de la curation de jeux de données réels (articles académiques, études de cas, rapports techniques) et de la génération de sorties structurées au format JSON, garantissant la précision, la vérifiabilité et la traçabilité des réponses.
### Principales missions
- **Curation de données** : Sélectionner, nettoyer et organiser de larges collections de documents scientifiques et techniques afin de constituer des jeux de données de référence pour les évaluations IA.
- **Conception de questions de recherche** : Élaborer des requêtes nécessitant un raisonnement inter‑documentaire, incluant des liens logiques, des comparaisons et des synthèses d’informations provenant de sources multiples.
- **Production de sorties JSON** : Créer des structures de vérité terrain (ground‑truth) détaillées, incluant des réponses précises, des références bibliographiques et des métadonnées, au format JSON conforme aux schémas définis.
- **Développement de prompts de juge LLM** : Rédiger des prompts permettant à des modèles de langage de juger la qualité des réponses selon des critères d’exactitude, de complétude et de pertinence factuelle.
- **Décomposition de tâches** : Concevoir des stratégies de répartition des travaux de recherche entre plusieurs agents parallèles, optimiser la charge de travail et assurer la cohérence des résultats agrégés.
- **Analyse et validation** : Examiner les sorties des modèles, identifier les écarts, corriger les erreurs et enrichir les jeux de données afin d’améliorer continuellement le benchmark.
- **Intégration technique** : Travailler avec des cadres agentiques (ex. LangChain, AutoGPT) et des pipelines d’évaluation (SWE‑bench, Terminal‑bench, etc.) dans un environnement Linux, en utilisant Git, Docker et les bonnes pratiques de CI/CD.
### Profil recherché
- **Expérience solide** en recherche académique ou industrielle dans un domaine scientifique (physique, biologie, informatique, ingénierie, etc.).
- Excellentes compétences en lecture critique, synthèse d’informations et rédaction technique.
- Maîtrise du **JSON** et capacité à concevoir des schémas de données complexes.
- **Programmation Python** avancée, notamment pour le traitement de texte, le scraping de données et l’automatisation de pipelines.
- Familiarité avec les benchmarks IA (SWE‑bench, Terminal‑bench) et les environnements de test multi‑agents.
- Bonne connaissance des outils **Linux/terminal**, **Git**, **Docker** et des workflows de développement collaboratif.
- Rigueur, sens du détail et capacité à produire des livrables de haute qualité, vérifiables et reproductibles.
### Ce que nous offrons
- Un contrat à durée déterminée (CDD) de courte durée, avec possibilité d’extension selon les besoins du projet.
- Un environnement de travail **remote** entièrement équipé (accès aux serveurs de calcul, licences logicielles, etc.).
- La chance de contribuer à des projets de pointe dans le domaine de l’évaluation IA, aux côtés d’une équipe multidisciplinaire et passionnée.
- Une rémunération compétitive, adaptée au marché marocain.
Si vous êtes motivé(e) par les défis de la recherche IA, que vous aimez transformer des données brutes en connaissances structurées et que vous avez le goût du travail collaboratif à distance, rejoignez **Crossing Hurdles** et participez à façonner les standards de demain pour les systèmes multi‑agents.