Meta giới thiệu DINOv3: Mô hình thị giác tự giám sát tiên tiến cho khả năng phân tích hình ảnh có độ chính xác cao và khả năng mở rộng

Bitget App

Giao dịch thông minh hơn

MPOST2025/08/16 04:35

Theo:MPOST

Tóm lại DINOv3 là mô hình thị giác máy tính tự giám sát tiên tiến có xương sống đông lạnh duy nhất cung cấp các tính năng hình ảnh có độ phân giải cao và vượt trội hơn các giải pháp chuyên biệt trên nhiều tác vụ dự đoán dày đặc đã được thiết lập.

Bộ phận nghiên cứu của công ty công nghệ Meta, nơi phát triển công nghệ AI và thực tế tăng cường, Mục tiêu AI đã giới thiệu DINOv3, một mô hình thị giác máy tính tổng quát, tiên tiến, được đào tạo bằng phương pháp học tự giám sát (SSL) để tạo ra các đặc điểm hình ảnh chất lượng cao. Lần đầu tiên, một xương sống thị giác đông lạnh duy nhất vượt trội hơn các mô hình chuyên biệt trong nhiều tác vụ dự đoán mật độ đã được thiết lập, bao gồm phát hiện đối tượng và phân đoạn ngữ nghĩa.

DINOv3 đạt được hiệu suất này thông qua các phương pháp SSL tiên tiến, loại bỏ nhu cầu về dữ liệu được gắn nhãn, giảm thời gian đào tạo và yêu cầu tài nguyên, đồng thời cho phép mô hình mở rộng lên 1.7 tỷ hình ảnh và 7 tỷ tham số. Phương pháp không gắn nhãn này giúp mô hình phù hợp với các ứng dụng có chú thích hạn chế, tốn kém hoặc không khả dụng. Ví dụ, các xương sống DINOv3 được đào tạo trước trên ảnh vệ tinh đã cho thấy kết quả mạnh mẽ trong các tác vụ hạ nguồn như ước tính chiều cao tán cây.

Mô hình này dự kiến sẽ cải thiện các ứng dụng hiện tại và cho phép triển khai các ứng dụng mới trong nhiều lĩnh vực như chăm sóc sức khỏe, giám sát môi trường, xe tự hành, bán lẻ và sản xuất, mang lại độ chính xác và hiệu quả cao hơn trong việc hiểu hình ảnh trên quy mô lớn.

DINOv3 đang được phát hành với một bộ xương sống nguồn mở đầy đủ theo giấy phép thương mại, bao gồm một xương sống tập trung vào vệ tinh được đào tạo trên hình ảnh MAXAR. Một tập hợp con các đầu đánh giá hạ nguồn cũng đang được chia sẻ để cho phép các nhà nghiên cứu tái tạo và mở rộng kết quả. Các sổ tay mẫu và tài liệu chi tiết được cung cấp để giúp cộng đồng bắt đầu làm việc với DINOv3 ngay lập tức.

Giới thiệu DINOv3: một mô hình thị giác máy tính tiên tiến được đào tạo bằng phương pháp học tự giám sát (SSL) cho phép tạo ra các đặc điểm hình ảnh mạnh mẽ, độ phân giải cao. Lần đầu tiên, một hệ thống xương sống thị giác đông lạnh duy nhất vượt trội hơn các giải pháp chuyên biệt trên nhiều hệ thống dày đặc lâu đời… pic.twitter.com/nwS3zFCaaN
— AI tại Meta (@AIatMeta) Tháng Tám 14, 2025

DINOv3: Mở khóa các ứng dụng có tác động cao thông qua học tập tự giám sát

Theo Mục tiêu AI DINOv3 đại diện cho một bước tiến đáng chú ý trong lĩnh vực học tự giám sát (SSL), lần đầu tiên cho thấy các mô hình SSL có thể vượt trội hơn các mô hình được giám sát yếu trên một tập hợp tác vụ rộng. Trong khi các phiên bản DINO trước đó đã đạt được kết quả mạnh mẽ trong các tác vụ dự đoán mật độ cao như phân đoạn và ước tính độ sâu đơn sắc, DINOv3 được xây dựng trên nền tảng này và đạt được hiệu suất thậm chí còn cao hơn.

DINOv3 cải tiến thuật toán DINO ban đầu bằng cách loại bỏ nhu cầu nhập siêu dữ liệu, sử dụng ít tính toán huấn luyện hơn so với các phương pháp trước đây, đồng thời vẫn tạo ra các mô hình nền tảng thị giác hiệu suất cao. Những cải tiến trong DINOv3 cho phép đạt được kết quả tiên tiến nhất cho các tác vụ hạ nguồn như phát hiện đối tượng, ngay cả khi trọng số mô hình vẫn bị đóng băng, loại bỏ nhu cầu tinh chỉnh từng tác vụ cụ thể và cho phép ứng dụng linh hoạt và hiệu quả hơn.

Vì phương pháp DINO không bị ràng buộc với bất kỳ loại hình ảnh cụ thể nào, nên nó có thể được áp dụng trên nhiều lĩnh vực khác nhau, nơi việc gắn nhãn tốn kém hoặc không thực tế. Các phiên bản trước đó, như DINOv2, đã tận dụng một lượng lớn dữ liệu chưa được gắn nhãn cho các ứng dụng y tế, bao gồm mô học, nội soi và hình ảnh. Đối với ảnh vệ tinh và ảnh hàng không, nơi khối lượng dữ liệu và độ phức tạp khiến việc gắn nhãn thủ công trở nên bất khả thi, DINOv3 cho phép đào tạo một mô hình xương sống duy nhất có thể áp dụng trên nhiều nguồn vệ tinh, hỗ trợ các trường hợp sử dụng rộng rãi hơn trong giám sát môi trường, quy hoạch đô thị và ứng phó thảm họa.

DINOv3 đã và đang chứng minh được tác động thực tế. Viện Tài nguyên Thế giới (WRI) sử dụng mô hình này để theo dõi nạn phá rừng và định hướng các nỗ lực phục hồi, cho phép các nhóm địa phương bảo vệ hệ sinh thái tốt hơn. Bằng cách phân tích hình ảnh vệ tinh để phát hiện tình trạng mất cây và thay đổi mục đích sử dụng đất, DINOv3 cải thiện độ chính xác của việc xác minh tài chính khí hậu, giảm chi phí giao dịch và đẩy nhanh việc cấp vốn cho các dự án nhỏ tại địa phương. Trong một trường hợp, việc sử dụng DINOv3 được đào tạo trên hình ảnh vệ tinh và ảnh hàng không đã giảm sai số trung bình khi đo chiều cao tán cây tại một khu vực ở Kenya từ 4.1 mét xuống còn 1.2 mét, cho phép WRI mở rộng quy mô hỗ trợ cho hàng nghìn nông dân và các sáng kiến bảo tồn hiệu quả hơn.

Tuyên bố miễn trừ trách nhiệm: Mọi thông tin trong bài viết đều thể hiện quan điểm của tác giả và không liên quan đến nền tảng. Bài viết này không nhằm mục đích tham khảo để đưa ra quyết định đầu tư.

PoolX: Khóa để nhận token mới.

APR lên đến 12%. Luôn hoạt động, luôn nhận airdrop.

Khóa ngay!