OpenAI publie la surveillance CoT pour prévenir les comportements malveillants dans les grands modèles
OpenAI a publié ses dernières recherches, indiquant que l'utilisation de la surveillance CoT (Chain of Thought) peut empêcher les grands modèles de débiter des absurdités, de cacher de véritables intentions et d'autres comportements malveillants. C'est également l'un des outils efficaces pour superviser les supermodèles. OpenAI a utilisé le modèle de pointe nouvellement publié o3-mini comme sujet à surveiller, avec un modèle GPT-4o plus faible agissant comme moniteur. L'environnement de test consistait en des tâches de codage, nécessitant que l'IA implémente des fonctions dans des bibliothèques de code pour réussir des tests unitaires. Les résultats ont montré que les moniteurs CoT ont excellé dans la détection du comportement systématique de "piratage de récompense", avec un taux de rappel aussi élevé que 95%, dépassant largement les 60% de la simple surveillance du comportement.
Avertissement : le contenu de cet article reflète uniquement le point de vue de l'auteur et ne représente en aucun cas la plateforme. Cet article n'est pas destiné à servir de référence pour prendre des décisions d'investissement.
Vous pourriez également aimer

GAIN officiel : enquête en cours sur le problème d'émission anormale
Données : 10 adresses ont reçu un total de 210 000 ETH en 6 heures, d'une valeur d'environ 863 millions de dollars.