
IA et cybersécurité : SentinelLABS alerte sur les limites des benchmarks LLM pour les équipes SOC
Paris, le 26 janvier 2026 – SentinelLABS, la division de recherche de SentinelOne, publie la première partie d’une étude consacrée à l’évaluation des modèles de langage (LLM) dans les opérations de cybersécurité. Le constat est sans appel : les benchmarks utilisés actuellement ne reflètent ni la réalité du travail des analystes de sécurité ni les compétences réellement mobilisées par les équipes SOC. Ils ne permettent pas, par ailleurs, d’évaluer l’impact opérationnel concret de l’IA sur la détection et la réponse aux incidents
L’analyse de plusieurs benchmarks de référence en cybersécurité, notamment ceux proposés par Microsoft et Meta, révèle qu’ils reposent principalement sur des tâches isolées ou des questionnaires statiques. Des approches très éloignées des workflows réels des analystes alors que les opérations SOC sont par nature continues, collaboratives et soumises à des environnements changeants. Résultat : même les modèles les plus performants en codage ou en mathématiques échouent souvent lorsqu’il s’agit de mener des investigations multi-étapes, y compris dans des environnements pourtant simplifiés et contrôlés. Dans les faits, ils n’apportent aux opérations de sécurité que des bénéfices directs limités.
Le rapport souligne également que les LLM actuels sont très souvent utilisés pour évaluer d’autres LLM, parfois issus du même fournisseur. Cette pratique crée des boucles fermées, plus faciles à biaiser et difficilement objectivables, qui fragilisent la crédibilité des résultats.
À mesure que les éditeurs encouragent l’automatisation du SOC par l’IA, ces benchmarks deviennent un critère clé pour juger de la maturité des solutions. Or, dans leur forme actuelle, ils ne permettent pas d’anticiper si un modèle contribuera réellement à améliorer la détection, la réponse aux incidents ou la réduction du risque métier.
Enfin, les indicateurs réellement pertinents (temps de détection, temps de confinement, capacité à prioriser les incidents et à réduire l’exposition globale) sont absents des benchmarks actuels. SentinelLABS appelle ainsi à l’émergence d’une nouvelle génération d’évaluations fondées sur des environnements dynamiques, intégrant la complexité des infrastructures hybrides, l’évolution des attaques et la nécessité d’une chaine de décision progressive. Sans ce cadre méthodologique, il devient difficile d’évaluer objectivement la capacité réelle de ces systèmes à opérer dans des environnements critiques.
Plus d’infos ICI
À propos de SentinelOne
SentinelOne est la première plateforme de cybersécurité autonome alimentée par l'IA. Basée sur le premier datalake unifié, SentinelOne permet à ses clients de fonctionner en toute sécurité en créant des systèmes intelligents, pilotés par les données, qui pensent par eux-mêmes, restent à la pointe de la technicité et des risques, et évoluent en toute autonomie. Des entreprises de premier plan, notamment des entreprises Fortune 10, Fortune 500 et Global 2000, ainsi que des gouvernements, font confiance à SentinelOne pour assurer la sécurité de demain. Pour en savoir plus, rendez-vous sur sentinelone.com
Contact Presse
Caroline Pain/Sandra Laberenne
[email protected] / [email protected]
06.50.42.07.67/ 06.43.19.13.88