OpenAI Meluncurkan GPT-Model Ucapan-ke-Ucapan Realtime dengan Dukungan Multimodal dan Kemampuan Percakapan Tingkat Lanjut
Singkatnya OpenAI merilis model ucapan-ke-ucapan gpt-realtime dengan dukungan multimodal, keterampilan percakapan tingkat lanjut, dan kinerja penalaran audio yang kuat.
Organisasi penelitian kecerdasan buatan OpenAI mengumumkan ketersediaan umum API Realtime-nya, yang kini disempurnakan dengan fitur-fitur yang memungkinkan pengembang dan perusahaan membangun agen suara yang tangguh dan siap produksi. API ini mendukung server MCP jarak jauh, input gambar, dan panggilan telepon melalui Session Initiation Protocol (SIP), memungkinkan aplikasi suara yang lebih mumpuni dan peka konteks.
Bersamaan dengan API, OpenAI gpt-realtime telah merilis model ucapan-ke-ucapan tercanggihnya, yang dirancang untuk meningkatkan kemampuan mengikuti instruksi, pemanggilan fungsi, dan ucapan yang terdengar alami. Model ini dapat menginterpretasi perintah yang kompleks, beralih bahasa di tengah kalimat, mereproduksi urutan alfanumerik secara akurat, dan menangkap isyarat non-verbal. Dua suara baru, Cedar dan Marin, juga tersedia, menawarkan intonasi yang lebih ekspresif dan mirip manusia. Suara yang ada telah diperbarui untuk menggabungkan peningkatan ini.
API Realtime memproses audio secara langsung melalui satu model, mengurangi latensi dan mempertahankan nuansa, tidak seperti pipeline tradisional yang menggabungkan model ucapan-ke-teks dan teks-ke-ucapan secara terpisah. gpt-realtime telah dilatih melalui kolaborasi dengan pengguna untuk unggul dalam aplikasi dunia nyata seperti dukungan pelanggan, bantuan pribadi, dan pendidikan. Evaluasi benchmark menunjukkan peningkatan substansial dalam penalaran, kepatuhan instruksi, dan akurasi pemanggilan fungsi dibandingkan dengan model sebelumnya.
Pembaruan tambahan mencakup pemanggilan fungsi asinkron, yang memungkinkan operasi yang berjalan lama tanpa mengganggu percakapan yang sedang berlangsung, yang selanjutnya mendukung pengalaman suara yang lancar dan siap produksi.
OpenAI Memperluas API Realtime dengan Dukungan MCP, Input Gambar, Integrasi SIP, dan Kontrol Penghematan Biaya untuk Agen Suara
OpenAI API Realtime kini mencakup fitur-fitur baru yang dirancang untuk menyederhanakan integrasi dan memperluas kapabilitas agen suara yang siap produksi. Pengembang dapat mengaktifkan dukungan MCP jarak jauh dengan menautkan sesi ke URL server MCP, yang memungkinkan API mengelola panggilan alat secara otomatis dan mengakses fungsi tambahan tanpa pengaturan manual.
Model gpt-realtime kini mendukung input gambar, memungkinkan sistem untuk menggabungkan foto, tangkapan layar, dan visual lainnya bersama audio atau teks. Hal ini memungkinkan pengguna untuk mengajukan pertanyaan spesifik konteks tentang apa yang mereka lihat, sementara pengembang tetap memegang kendali atas gambar mana yang dibagikan dan kapan.
Peningkatan tambahan mencakup dukungan Session Initiation Protocol (SIP) untuk menghubungkan aplikasi ke jaringan telepon dan sistem PBX, serta perintah yang dapat digunakan kembali yang memungkinkan pengembang menyimpan dan menyebarkan instruksi, alat, dan contoh pesan yang telah dikonfigurasikan sebelumnya di beberapa sesi.
API Realtime dan model gpt-realtime yang tersedia secara umum kini dapat diakses oleh semua developer, dengan harga yang lebih rendah 20% dibandingkan gpt-4o-realtime-preview sebelumnya. Kontrol baru untuk konteks percakapan memungkinkan pengelolaan token yang lebih cerdas, sehingga mengurangi biaya untuk sesi yang berjalan lama. Dokumentasi, Playground untuk pengujian, dan panduan prompting API Realtime tersedia untuk membantu developer dalam mengadopsi fitur-fitur ini.
Disclaimer: Konten pada artikel ini hanya merefleksikan opini penulis dan tidak mewakili platform ini dengan kapasitas apa pun. Artikel ini tidak dimaksudkan sebagai referensi untuk membuat keputusan investasi.
Kamu mungkin juga menyukai
Pasangan perdagangan margin spot baru - BARD/USDT
Pasangan perdagangan margin spot baru - FLOCK/USDT
0GUSDT sekarang diluncurkan untuk perdagangan futures pra pasar.
Pasangan perdagangan margin spot baru - SKY/USDT, ALGO/USDT, MERL/USDT
Berita trending
LainnyaHarga kripto
Lainnya








