Bitget App
Giao dịch thông minh hơn
Mua CryptoThị trườngGiao dịchFuturesBots‌EarnSao chép
Sakana AI giới thiệu tác nhân tự cải thiện giúp tăng hiệu suất lên tới 50% trên SWE-Bench

Sakana AI giới thiệu tác nhân tự cải thiện giúp tăng hiệu suất lên tới 50% trên SWE-Bench

MPOSTMPOST2025/06/03 19:24
Theo:MPOST

Tóm lại Sakana AI đã ra mắt Darwin Gödel Machine, một tác nhân tự cải thiện có thể tăng hiệu suất lên tới 50.0% trên SWE-bench và lên tới 30.7% trên Polyglot.

Công ty AI Nhật Bản Sakana trí tuệ nhân tạo giới thiệu Máy Darwin Gödel (DGM), một tác nhân tự sửa đổi có khả năng thay đổi mã của chính nó. Lấy cảm hứng từ các nguyên lý tiến hóa, hệ thống duy trì dòng dõi ngày càng tăng của các biến thể tác nhân, cho phép khám phá liên tục trong phạm vi rộng lớn các thiết kế tác nhân tự cải thiện.

Trong khi các hệ thống tác nhân hiện tại thường tĩnh và không thay đổi sau khi triển khai, DGM nhấn mạnh việc tự cải thiện liên tục là yếu tố quan trọng để nâng cao khả năng AI. Máy được thiết kế để hỗ trợ các hệ thống AI có thể học và phát triển khả năng của chúng theo thời gian, tương tự như sự phát triển của con người.

Các thí nghiệm của chúng tôi chứng minh rằng Máy Darwin Gödel có thể liên tục tự cải thiện bằng cách sửa đổi cơ sở mã của chính nó. Trên SWE-bench, DGM tự động cải thiện hiệu suất của nó từ 20% đến 50%.

Hình ảnh ở đây cho thấy tiến trình thực hiện qua các lần lặp lại và cũng là bản tóm tắt về… pic.twitter.com/RjxapMTQN3

– Sakana AI (@SakanaAILabs) 30 Tháng Năm, 2025

DGM đại diện cho một bước tiến đáng chú ý hướng tới các hệ thống AI có khả năng tự động xác định và xây dựng dựa trên các mốc học tập của riêng chúng để liên tục đổi mới. Hệ thống mở rộng kho lưu trữ của mình bằng cách chọn một tác nhân từ bộ sưu tập hiện có và sử dụng một mô hình nền tảng để tạo ra một biến thể mới, được cải tiến của tác nhân đó. Quá trình khám phá mở này tạo ra một cây phát triển gồm các tác nhân đa dạng, chất lượng cao, cho phép khám phá đồng thời nhiều con đường trong không gian tìm kiếm. 

Kết quả thực nghiệm chứng minh rằng DGM tăng cường khả năng mã hóa theo thời gian—cải thiện các công cụ như chỉnh sửa mã, quản lý ngữ cảnh dài và cơ chế đánh giá ngang hàng—dẫn đến hiệu suất tăng lên trên các chuẩn mực như SWE-bench (từ 20.0% lên 50.0%) và Polyglot (từ 14.2% lên 30.7%). Hệ thống này luôn vượt trội hơn các mô hình cơ sở thiếu khả năng tự cải thiện hoặc khả năng khám phá mở.

Đáng chú ý là quá trình tiến hóa hướng tới tác nhân hiệu quả nhất đôi khi liên quan đến trung gian đại lý có hiệu suất kém hơn so với những người tiền nhiệm của chúng nhưng vẫn được giữ lại trong dòng dõi, minh họa cho những lợi thế của chiến lược tìm kiếm mở. Cách tiếp cận này bảo tồn một kho lưu trữ đa dạng các tác nhân trung gian hữu ích thay vì chỉ tập trung vào việc phân nhánh từ tác nhân có hiệu suất cao nhất, chứng minh rằng tiến trình không phải lúc nào cũng theo một con đường tuyến tính.

Nghiên cứu cũng chỉ ra rằng hiệu suất được cải thiện của các tác nhân do DGM phát hiện có thể được khái quát hóa trên nhiều mô hình nền tảng khác nhau, chẳng hạn như chuyển từ Claude sang o3-mini và trên nhiều ngôn ngữ lập trình và miền tác vụ khác nhau, bao gồm Python, Rust, C++, Go và các ngôn ngữ khác.

Sakana AI: Phát triển hệ thống AI lấy cảm hứng từ thiên nhiên và trí tuệ tập thể

Sakana AI là một công ty nghiên cứu AI có trụ sở tại Tokyo, tập trung vào việc phát triển các hệ thống AI lấy cảm hứng từ các quá trình tự nhiên. Phương pháp tiếp cận của công ty bao gồm việc tích hợp nhiều mô hình tự chủ nhỏ hơn để tạo thành trí tuệ tập thể, tương tự như cách một đàn cá hoạt động. Phương pháp này khác với các mô hình AI quy mô lớn truyền thống ở chỗ ưu tiên khả năng thích ứng, hiệu quả tài nguyên và tính bền vững lâu dài.

Trong số các dự án nghiên cứu của Sakana AI có kỹ thuật “Hợp nhất mô hình tiến hóa”, áp dụng các thuật toán tiến hóa để kết hợp các mô hình AI hiện có. Quá trình này tạo ra các mô hình mới với các khả năng được nhắm mục tiêu trong khi giảm thiểu nhu cầu về sức mạnh tính toán mở rộng. Ngoài ra, Sakana AI đã phát triển “ Nhà khoa học AI ”, một hệ thống được thiết kế để tự động hóa nghiên cứu khoa học bằng cách cho phép các mô hình nền tảng thực hiện các quá trình điều tra và khám phá một cách độc lập.

0

Tuyên bố miễn trừ trách nhiệm: Mọi thông tin trong bài viết đều thể hiện quan điểm của tác giả và không liên quan đến nền tảng. Bài viết này không nhằm mục đích tham khảo để đưa ra quyết định đầu tư.

PoolX: Khóa để nhận token mới.
APR lên đến 12%. Luôn hoạt động, luôn nhận airdrop.
Khóa ngay!