OpenAI mở mã nguồn PaperBench để định hình lại việc đánh giá tác nhân AI hàng đầu

BlockBeats2025/04/02 23:34

Theo:BlockBeats

Tin tức BlockBeats, vào ngày 3 tháng 4, theo tin tức cộng đồng mở AIGC, vào lúc 1 giờ sáng nay, OpenAI đã mở mã nguồn một chuẩn mực đánh giá AI Agent mới - PaperBench. Tiêu chuẩn này chủ yếu kiểm tra khả năng tìm kiếm, tích hợp và thực thi của tác nhân thông minh và yêu cầu sao chép các bài báo hàng đầu từ Hội nghị quốc tế về máy học năm 2024, bao gồm khả năng hiểu nội dung của bài báo, viết mã và thực hiện thí nghiệm.

Theo dữ liệu thử nghiệm do OpenAI công bố, các tác nhân thông minh được tạo ra bởi các mô hình lớn nổi tiếng hiện không thể đánh bại được các tiến sĩ hàng đầu về học máy. Nhưng nó rất hữu ích trong việc hỗ trợ học tập và hiểu nội dung nghiên cứu khoa học.

Tuyên bố miễn trừ trách nhiệm: Mọi thông tin trong bài viết đều thể hiện quan điểm của tác giả và không liên quan đến nền tảng. Bài viết này không nhằm mục đích tham khảo để đưa ra quyết định đầu tư.

PoolX: Khóa để nhận token mới.

APR lên đến 12%. Luôn hoạt động, luôn nhận airdrop.

Khóa ngay!