L'étude non publiée du NIST sur les risques liés à l'IA reste en suspens en raison de changements administratifs

Bitget App

Trade smarter

Bitget

Actualités

MPOST2025/08/08 03:20

Par:MPOST

En bref Un exercice de red teaming mené par le NIST au CAMLIS a évalué les vulnérabilités des systèmes d'IA avancés, en évaluant les risques tels que la désinformation, les fuites de données et la manipulation émotionnelle.

Les Institut National des Standards et de la technologie Le NIST a publié un rapport sur la sécurité des modèles d'IA avancés vers la fin de l'administration Biden, mais ce document n'a pas été publié après la transition vers l'administration Trump. Bien que conçu pour aider les organisations à évaluer leurs systèmes d'IA, ce rapport figurait parmi plusieurs documents du NIST sur l'IA dont la publication n'a pas été autorisée en raison de conflits potentiels avec les orientations politiques de la nouvelle administration.

Avant son entrée en fonction, le président Donald Trump avait annoncé son intention de révoquer les décrets de l'ère Biden relatifs à l'IA. Depuis cette transition, l'administration a détourné l'attention des experts de domaines tels que les biais algorithmiques et l'équité en IA. Le Plan d'action pour l'IA, publié en juillet, appelle spécifiquement à la révision du Cadre de gestion des risques liés à l'IA du NIST, recommandant la suppression des références à la désinformation, à la diversité, à l'équité et à l'inclusion (DEI) et au changement climatique.

Parallèlement, le Plan d'action pour l'IA comprend une proposition qui rejoint les objectifs du rapport non publié. Il demande à plusieurs agences fédérales, dont le NIST, d'organiser un hackathon coordonné sur l'IA afin de tester la transparence, la fonctionnalité, le contrôle des utilisateurs et les vulnérabilités potentielles des systèmes d'IA.

L'exercice Red Teaming mené par le NIST explore les risques liés aux systèmes d'IA à l'aide du cadre ARIA lors de la conférence CAMLIS

L'exercice de red-teaming a été mené dans le cadre du programme « Évaluation des risques et des impacts de l'IA » (ARIA) du NIST, en partenariat avec Humane Intelligence, une entreprise spécialisée dans l'évaluation des systèmes d'IA. Cette initiative s'est déroulée lors de la Conférence sur l'apprentissage automatique appliqué à la sécurité de l'information (CAMLIS), où les participants ont exploré les vulnérabilités de diverses technologies d'IA avancées.

Le rapport CAMLIS Red Teaming documente l'évaluation de divers outils d'IA, y compris Meta Llama, un modèle de langage étendu (LLM) open source ; Anote, une plateforme de développement et d'amélioration de modèles d'IA ; un système de sécurité de Robust Intelligence, depuis acquis par Cisco ; et la plateforme de génération d'avatars IA de Synthesia. Des représentants de chaque organisation ont contribué aux activités de red teaming.

Les participants ont utilisé le référentiel NIST AI 600-1 pour analyser les outils en question. Ce référentiel met en évidence de multiples risques, tels que la possibilité pour l'IA de produire de fausses informations ou de représenter des menaces pour la cybersécurité, de divulguer des données privées ou sensibles, ou encore d'entretenir une dépendance émotionnelle entre les utilisateurs et les systèmes d'IA.

Un rapport inédit sur l'IA Red Teaming révèle des vulnérabilités de modèles, suscite des inquiétudes quant à la répression politique et des informations manquantes sur la recherche

L'équipe de recherche a identifié plusieurs méthodes permettant de contourner les protections prévues par les outils évalués, ce qui a donné lieu à des résultats tels que la désinformation, la divulgation d'informations privées et l'aide à l'élaboration de stratégies de cyberattaque. Selon le rapport, certains aspects du cadre du NIST se sont révélés plus pertinents que d'autres. Il a également noté que certaines catégories de risques manquaient de clarté pour une utilisation pratique.

Des personnes connaissant bien l'initiative de red-teaming ont indiqué que les résultats de l'exercice auraient pu apporter des éclairages précieux à la communauté de recherche et développement en IA. Alice Qian Zhang, doctorante à l'Université Carnegie Mellon, a souligné que la publication du rapport aurait pu contribuer à clarifier le fonctionnement du cadre de gestion des risques du NIST en situation de test réel. Elle a également souligné que l'interaction directe avec les développeurs des outils lors de l'évaluation avait enrichi l'expérience.

Un autre contributeur, qui a choisi de rester anonyme, a indiqué que l'exercice a révélé des techniques d'incitation spécifiques - utilisant des langues telles que le russe, le gujarati, le marathi et le télougou - qui ont été particulièrement efficaces pour susciter des résultats interdits à partir de modèles comme Llama, y compris des instructions relatives à l'adhésion à des groupes extrémistes. Cet individu a suggéré que la décision de ne pas publier le rapport pourrait refléter un abandon plus large des domaines perçus comme liés à la diversité, à l'équité et à l'inclusion à l'approche de la nouvelle administration.

Certains participants ont émis l'hypothèse que l'omission du rapport pourrait également s'expliquer par une attention accrue du gouvernement aux risques majeurs – comme l'utilisation potentielle de systèmes d'IA pour le développement d'armes de destruction massive – et par un effort parallèle visant à renforcer les liens avec les grandes entreprises technologiques. Un participant de l'équipe rouge a fait remarquer, sous couvert d'anonymat, que des considérations politiques avaient probablement joué un rôle dans la non-publication du rapport et que l'exercice contenait des informations d'une pertinence scientifique constante.

Avertissement : le contenu de cet article reflète uniquement le point de vue de l'auteur et ne représente en aucun cas la plateforme. Cet article n'est pas destiné à servir de référence pour prendre des décisions d'investissement.

PoolX : Bloquez vos actifs pour gagner de nouveaux tokens

Jusqu'à 12% d'APR. Gagnez plus d'airdrops en bloquant davantage.

Bloquez maintenant !