El estudio inédito del NIST sobre los riesgos de la IA permanece archivado en medio de un cambio administrativo.

Bitget App

Trading Inteligente

Bitget

Novedades

MPOST2025/08/09 21:15

Por:MPOST

En Resumen Un ejercicio de equipo rojo dirigido por el NIST en CAMLIS evaluó las vulnerabilidades en los sistemas de IA avanzados y evaluó riesgos como la desinformación, las filtraciones de datos y la manipulación emocional.

Tu Instituto Nacional de Estándares y Tecnología (NIST) completó un informe sobre la seguridad de los modelos avanzados de inteligencia artificial cerca del final de la administración de Joe Biden, pero el documento no se publicó después de la transición a la administración de Donald Trump.

En octubre del año pasado, una conferencia sobre seguridad informática en Arlington, Virginia, reunió a un grupo de investigadores de IA que participaron en un ejercicio pionero de "equipo rojo" destinado a probar rigurosamente un modelo de lenguaje de vanguardia y otros sistemas de IA. En dos días, estos equipos descubrieron 139 métodos nuevos para provocar el mal funcionamiento de los sistemas, como la generación de información falsa o la exposición de datos sensibles. Fundamentalmente, sus hallazgos también revelaron deficiencias en una norma reciente del gobierno estadounidense destinada a orientar a las empresas en la evaluación de la seguridad de los sistemas de IA.

Aunque el informe fue diseñado para ayudar a las organizaciones a evaluar sus sistemas de IA, se encontraba entre varios documentos de IA escritos por el NIST cuya publicación no se permitió debido a posibles conflictos con la dirección política de la nueva administración.

Antes de asumir el cargo, el presidente Donald Trump manifestó su intención de revocar las órdenes ejecutivas de la era Biden relacionadas con la IA. Desde la transición, la administración ha desviado la atención de los expertos de áreas como el sesgo algorítmico y la imparcialidad en la IA. El Plan de Acción de IA, publicado en julio, exige específicamente la revisión del Marco de Gestión de Riesgos de IA del NIST, recomendando la eliminación de las referencias a la desinformación, la Diversidad, la Equidad y la Inclusión (DEI) y el cambio climático.

Al mismo tiempo, el Plan de Acción de IA incluye una propuesta similar a los objetivos del informe inédito. Instruye a varias agencias federales, incluido el NIST, a organizar un hackatón de IA coordinado para evaluar la transparencia, la funcionalidad, el control del usuario y las posibles vulnerabilidades de seguridad de los sistemas de IA.

El ejercicio Red Teaming liderado por el NIST investiga los riesgos de los sistemas de IA utilizando el marco ARIA en la conferencia CAMLIS.

El ejercicio de formación de equipos rojos se llevó a cabo en el marco del programa de Evaluación de Riesgos e Impactos de la IA (ARIA) del NIST, en colaboración con Humane Intelligence, empresa especializada en la evaluación de sistemas de IA. Esta iniciativa se llevó a cabo durante la Conferencia sobre Aprendizaje Automático Aplicado a la Seguridad de la Información (CAMLIS), donde los participantes exploraron las vulnerabilidades de diversas tecnologías avanzadas de IA.

El informe Red Teaming de CAMLIS documenta la evaluación de varias herramientas de IA, incluida la de Meta Llama, un modelo de lenguaje grande (LLM) de código abierto; Anote, una plataforma para desarrollar y refinar modelos de IA; un sistema de seguridad de Robust Intelligence, adquirido posteriormente por CISCO; y la plataforma de generación de avatares de IA de Synthesia. Representantes de cada organización contribuyeron a las actividades de red-teaming.

Los participantes utilizaron el marco NIST AI 600-1 para analizar las herramientas en cuestión. Este marco describe múltiples áreas de riesgo, como la posibilidad de que la IA genere información falsa o amenazas de ciberseguridad, divulgue datos privados o sensibles, o fomente la dependencia emocional entre los usuarios y los sistemas de IA.

Un informe inédito sobre el trabajo en equipo de IA revela vulnerabilidades en los modelos y genera inquietudes sobre la represión política y la falta de información de investigación.

El equipo de investigación encontró varios métodos para eludir las salvaguardas previstas de las herramientas evaluadas, lo que generó resultados como desinformación, exposición de información privada y asistencia para la formulación de estrategias de ciberataque. Según el informe, algunos aspectos del marco del NIST resultaron más aplicables que otros. También se observó que ciertas categorías de riesgo carecían de la claridad necesaria para su uso práctico.

Personas familiarizadas con la iniciativa de equipos rojos expresaron que los hallazgos del ejercicio podrían haber aportado información valiosa a la comunidad de investigación y desarrollo de IA en general. Una participante, Alice Qian Zhang, candidata a doctorado en la Universidad Carnegie Mellon, señaló que compartir el informe públicamente podría haber ayudado a aclarar cómo funciona el marco de riesgos del NIST al aplicarse en entornos de prueba reales. También destacó que la interacción directa con los desarrolladores de las herramientas durante la evaluación aportó valor a la experiencia.

Otro colaborador, que prefirió permanecer anónimo, indicó que el ejercicio reveló técnicas de estímulo específicas (utilizando idiomas como el ruso, el gujarati, el maratí y el telugu) que fueron particularmente exitosas para obtener resultados prohibidos de modelos como Llama, incluyendo instrucciones relacionadas con la adhesión a grupos extremistas. Esta persona sugirió que la decisión de no publicar el informe podría reflejar un cambio más amplio en el enfoque de áreas percibidas como vinculadas a la diversidad, la equidad y la inclusión, antes del gobierno entrante.

Algunos participantes especularon que la omisión del informe también podría deberse a una mayor atención gubernamental a los riesgos de alto riesgo, como el posible uso de sistemas de IA en el desarrollo de armas de destrucción masiva, y a un esfuerzo paralelo por fortalecer los vínculos con las principales empresas tecnológicas. Un participante del equipo rojo comentó anónimamente que consideraciones políticas probablemente influyeron en la retención del informe y que el ejercicio contenía información de relevancia científica continua.

Descargo de responsabilidad: El contenido de este artículo refleja únicamente la opinión del autor y no representa en modo alguno a la plataforma. Este artículo no se pretende servir de referencia para tomar decisiones de inversión.

PoolX: Bloquea y gana nuevos tokens.

APR de hasta 12%. Gana más airdrop bloqueando más.

¡Bloquea ahora!