OpenAI phát hành các cập nhật cho suy luận thời gian thực trên âm thanh, hình ảnh và văn bản

Bitget App

Giao dịch thông minh hơn

Bitget2024/10/02 14:17

Hiển thị bản gốc

Theo Cointelegraph, OpenAI đã thực hiện bốn cập nhật cho các mô hình của mình vào tháng 10 để giúp các mô hình AI của họ thực hiện hội thoại tốt hơn và cải thiện khả năng nhận diện hình ảnh. Cập nhật lớn đầu tiên là API thời gian thực cho phép các nhà phát triển tạo ứng dụng giọng nói do AI tạo ra chỉ bằng một lời nhắc, cho phép các cuộc hội thoại tự nhiên tương tự như các mẫu giọng nói tiên tiến của ChatGPT. Trước đây, các nhà phát triển phải "kết hợp" nhiều mô hình để tạo ra những trải nghiệm này. Đầu vào âm thanh thường cần được tải lên và xử lý hoàn toàn trước khi nhận được phản hồi, điều này có nghĩa là các ứng dụng thời gian thực như các cuộc hội thoại giọng nói có độ trễ cao. Với khả năng phát trực tuyến của API thời gian thực, các nhà phát triển hiện có thể thực hiện các tương tác tức thì, tự nhiên, giống như một trợ lý giọng nói. Chạy trên GPT-4, sẽ được phát hành vào tháng 5 năm 2024, API cho phép suy luận thời gian thực trên âm thanh, hình ảnh và văn bản. Một cập nhật khác bao gồm các công cụ tinh chỉnh cho các nhà phát triển cho phép họ cải thiện các phản hồi AI được tạo ra từ đầu vào hình ảnh và văn bản. Công cụ tinh chỉnh dựa trên hình ảnh cho phép AI hiểu hình ảnh tốt hơn, dẫn đến cải thiện tìm kiếm hình ảnh và phát hiện đối tượng. Quá trình này bao gồm phản hồi từ con người cung cấp các ví dụ về phản hồi tốt và xấu để đào tạo. Ngoài các cập nhật về giọng nói và hình ảnh, OpenAI đã giới thiệu "mô hình chưng cất" và "bộ nhớ đệm gợi ý," cho phép các mô hình nhỏ hơn học từ các mô hình lớn hơn và giảm chi phí và thời gian phát triển bằng cách tái sử dụng văn bản đã xử lý. OpenAI dự kiến doanh thu sẽ tăng lên 11,6 tỷ USD vào năm tới, tăng từ dự kiến 3,7 tỷ USD vào năm 2024, theo Reuters.

Tuyên bố miễn trừ trách nhiệm: Mọi thông tin trong bài viết đều thể hiện quan điểm của tác giả và không liên quan đến nền tảng. Bài viết này không nhằm mục đích tham khảo để đưa ra quyết định đầu tư.

PoolX: Khóa để nhận token mới.

APR lên đến 12%. Luôn hoạt động, luôn nhận airdrop.

Khóa ngay!