Sakana AI Memperkenalkan Agen Peningkatan Diri yang Meningkatkan Performa Hingga 50% di SWE-Bench

Bitget App

Trading lebih cerdas

MPOST2025/06/04 08:32

Oleh:MPOST

Singkatnya Sakana AI meluncurkan Darwin Gödel Machine, agen peningkatan mandiri yang meningkatkan kinerja hingga 50.0% pada SWE-bench dan hingga 30.7% pada Polyglot.

Perusahaan AI Jepang Sakana AI memperkenalkan Darwin Gödel Machine (DGM), agen yang dapat memodifikasi dirinya sendiri dan mampu mengubah kodenya sendiri. Dengan mengambil inspirasi dari prinsip evolusi, sistem ini mempertahankan garis keturunan varian agen yang terus berkembang, sehingga memungkinkan eksplorasi berkelanjutan dalam berbagai desain agen yang dapat meningkatkan dirinya sendiri.

Sementara sistem agen saat ini biasanya statis dan tidak berubah setelah penerapan, DGM menekankan peningkatan diri secara berkelanjutan sebagai faktor penting untuk memajukan kemampuan AI. Mesin ini dirancang untuk mendukung sistem AI yang dapat mempelajari dan mengembangkan kemampuannya dari waktu ke waktu, mirip dengan pengembangan manusia.

Percobaan kami menunjukkan bahwa Darwin Gödel Machine dapat terus meningkatkan kemampuannya dengan memodifikasi basis kodenya sendiri. Di SWE-bench, DGM secara otomatis meningkatkan kinerjanya dari 20% menjadi 50%.

Gambar di sini menunjukkan kemajuan kinerja selama iterasi, dan juga ringkasan… foto.twitter.com/RjxapMTQN3
— Sakana AI (@SakanaAILabs) 30 Mei 2025

DGM merupakan kemajuan penting menuju sistem AI yang mampu mengidentifikasi dan membangun tonggak pembelajaran mereka sendiri secara mandiri untuk terus berinovasi. Sistem ini memperluas arsipnya dengan memilih agen dari koleksi yang ada dan menggunakan model dasar untuk menghasilkan varian baru yang lebih baik dari agen tersebut. Proses eksplorasi terbuka ini menciptakan pohon yang terus berkembang dari agen yang beragam dan berkualitas tinggi, yang memungkinkan eksplorasi simultan dari beberapa jalur dalam ruang pencarian.

Hasil empiris menunjukkan bahwa DGM meningkatkan kemampuan pengkodeannya dari waktu ke waktu—menyempurnakan alat seperti penyuntingan kode, manajemen konteks panjang, dan mekanisme tinjauan sejawat—yang menghasilkan peningkatan kinerja pada tolok ukur seperti SWE-bench (dari 20.0% menjadi 50.0%) dan Polyglot (dari 14.2% menjadi 30.7%). Sistem ini secara konsisten mengungguli model dasar yang tidak memiliki kemampuan perbaikan mandiri atau eksplorasi terbuka.

Perlu dicatat, evolusi menuju agen yang paling efektif terkadang melibatkan perantara agen yang berkinerja lebih buruk daripada pendahulunya tetapi tetap dipertahankan dalam garis keturunan, yang menggambarkan keuntungan dari strategi pencarian terbuka. Pendekatan ini mempertahankan arsip beragam agen perantara yang berguna daripada hanya berfokus pada percabangan dari agen dengan kinerja tertinggi, yang menunjukkan bahwa kemajuan tidak selalu mengikuti jalur linier.

Penelitian lebih lanjut menunjukkan bahwa peningkatan kinerja agen yang ditemukan oleh DGM dapat digeneralisasikan ke berbagai model fondasi, seperti transfer dari Claude ke o3-mini, dan ke berbagai bahasa pemrograman dan domain tugas, termasuk Python, Rust, C++, Go, dan lainnya.

Sakana AI: Mengembangkan Sistem AI yang Terinspirasi Oleh Alam dan Kecerdasan Kolektif

Sakana AI adalah perusahaan riset AI yang berpusat di Tokyo yang berfokus pada pengembangan sistem AI yang terinspirasi oleh proses alami. Pendekatan perusahaan ini melibatkan pengintegrasian beberapa model otonom yang lebih kecil untuk membentuk kecerdasan kolektif, mirip dengan cara kerja sekumpulan ikan. Metode ini berbeda dari model AI skala besar tradisional dengan memprioritaskan kemampuan beradaptasi, efisiensi sumber daya, dan keberlanjutan jangka panjang.

Di antara proyek penelitian Sakana AI adalah teknik “Evolutionary Model Merge”, yang menerapkan algoritma evolusi untuk menggabungkan model AI yang ada. Proses ini menghasilkan model baru dengan kemampuan yang ditargetkan sambil meminimalkan kebutuhan daya komputasi yang besar. Selain itu, Sakana AI telah mengembangkan “ Ilmuwan AI ,” sebuah sistem yang dirancang untuk mengotomatiskan penelitian ilmiah dengan memungkinkan model dasar untuk secara mandiri melakukan investigasi dan proses penemuan.

Disclaimer: Konten pada artikel ini hanya merefleksikan opini penulis dan tidak mewakili platform ini dengan kapasitas apa pun. Artikel ini tidak dimaksudkan sebagai referensi untuk membuat keputusan investasi.

PoolX: Raih Token Baru

APR hingga 12%. Selalu aktif, selalu dapat airdrop.

Kunci sekarang!

Kamu mungkin juga menyukai

CoreWeave, NVIDIA, dan IBM Menyerahkan Hasil MLPerf yang Memecahkan Rekor Menggunakan Chip Super NVIDIA GB200 Grace Blackwell

Singkatnya CoreWeave, bekerja sama dengan NVIDIA dan IBM, menyelesaikan penyerahan Pelatihan MLPerf v5.0 terbesar yang pernah ada menggunakan 2,496 GPU NVIDIA Blackwell pada platform cloud yang dioptimalkan untuk AI.

MPOST•2025/06/05 22:24

CoreWeave, NVIDIA, dan IBM Menyerahkan Hasil MLPerf yang Memecahkan Rekor Menggunakan Chip Super NVIDIA GB200 Grace Blackwell

Anthropic Meluncurkan Claude Code untuk Pelanggan Pro dan Max, Mengintegrasikan Alat Pengodean AI Canggih ke dalam Lingkungan Terminal

Singkatnya Anthropic telah menyediakan Claude Code untuk pelanggan paket Pro dan Max, menawarkan terminal terintegrasi dan alat berbasis web untuk pengembangan perangkat lunak yang kompleks, analisis data, dan manajemen alur kerja.

MPOST•2025/06/05 22:24

Anthropic Meluncurkan Claude Code untuk Pelanggan Pro dan Max, Mengintegrasikan Alat Pengodean AI Canggih ke dalam Lingkungan Terminal

Apex Fusion Luncurkan Infrastruktur Lintas Rantai Terdesentralisasi, Memperkenalkan Reaktor dan Jembatan Skyline

Singkatnya Apex Fusion telah meluncurkan kerangka kerja penjembatan lintas rantai yang terdesentralisasi dan modular yang menampilkan Reactor dan Skyline untuk memungkinkan transfer aset yang aman, terukur, dan tanpa kepercayaan di seluruh jaringan blockchain yang beragam.

MPOST•2025/06/05 22:24

Apex Fusion Luncurkan Infrastruktur Lintas Rantai Terdesentralisasi, Memperkenalkan Reaktor dan Jembatan Skyline

Penambang bitcoin solo memenangkan hadiah blok senilai $330K setelah menyewa daya hash untuk mengalahkan peluang besar, kata pengembang CKpool

Ringkasan Singkat Seorang penambang bitcoin tunggal menggunakan perangkat lunak penambangan solo CKpool untuk menambang blok 899826 dengan total hadiah sekitar $330,000. Admin pool, Con Kolivas, mengatakan bahwa penambang ini mungkin menyewa daya komputasi untuk meningkatkan peluang mereka mendapatkan subsidi blok total dan biaya transaksi.

The Block•2025/06/05 18:01