Meta AIがオムニリンガルASRを発表、1,600以上の言語で自動音声認識を進化させる
簡単に言えば Meta AI は、1,600 以上の言語の音声認識機能を提供する Omnilingual ASR システムを立ち上げ、十分にサービスが提供されていない 350 の言語のオープンソース モデルとコーパスをリリースしました。
AIと拡張現実を専門とするテクノロジー企業Metaの研究部門。 メタAI Meta Omnilingual自動音声認識(ASR)システムのリリースを発表しました。
このモデルスイートは、1,600以上の言語の自動音声認識を実現し、前例のない規模で高品質なパフォーマンスを実現します。さらに、Meta AIは、7億のパラメータを持つ自己教師型大規模多言語音声表現モデルであるOmnilingual wav2vec 2.0をオープンソース化しました。これは、様々な下流の音声タスクをサポートするように設計されています。
同組織はこれらのツールに加え、世界中の協力者と共同で開発された、サービスが行き届いていない 350 言語の音声を文字起こしして収集した、オムニリンガル ASR コーパスもリリースしています。
自動音声認識は近年進歩し、広く話されている多くの言語においてほぼ完璧な精度を達成しています。しかしながら、既存のAIアーキテクチャは膨大なデータと計算負荷を必要とするため、リソースの少ない言語への対応は依然として困難です。Omnilingual ASRシステムは、wav2vec 2.0音声エンコーダを70億パラメータに拡張することでこの限界に対処し、未転写の生の音声から豊富な多言語表現を作成します。デコーダには2つのバリエーションがあり、これらの表現を文字トークンにマッピングします。1つはコネクショニスト時間分類(CTC)を使用し、もう1つは大規模言語モデルに類似したトランスフォーマーベースのアプローチを使用します。
この LLM にヒントを得た ASR アプローチは、1,600 を超える言語で最先端のパフォーマンスを実現し、その 78% で文字エラー率が 10 未満であり、新しい言語を追加するためのより柔軟な方法を導入しています。
専門家による微調整を必要とする従来のシステムとは異なり、Omnilingual ASRは、音声とテキストのペアをわずか数例用意するだけで、これまでサポートされていなかった言語を組み込むことができるため、膨大なデータ、専門知識、あるいはハイエンドのコンピューティング能力を必要とせずに文字起こしが可能になります。ゼロショットの結果はまだ完全に学習されたシステムに匹敵するものではありませんが、この手法は、十分にサービスが提供されていない言語をデジタルエコシステムに取り込むためのスケーラブルな方法を提供します。
Meta AI、全言語対応ASRスイートとコーパスで音声認識を進化させる
研究部門は、あらゆる言語の音声技術を進歩させるために設計された包括的なモデルスイートとデータセットをリリースしました。FAIRのこれまでの研究に基づき、Omnilingual ASRには、低消費電力デバイス向けの軽量300Mモデルから、多様なアプリケーションで高精度を実現する7Bモデルまで、2つのデコーダーバリアントが含まれています。汎用的なwav2vec 2.0音声基盤モデルも複数のサイズで提供されており、ASRだけでなく、幅広い音声関連タスクを可能にします。すべてのモデルはApache 2.0ライセンスの下で提供され、データセットはCC-BYの下で利用可能であるため、研究者、開発者、言語支持者は、PyTorchエコシステム内のFAIRのオープンソースfairseq2フレームワークを使用して、音声ソリューションを適応および拡張できます。
Omnilingual ASRは、公開データセットとコミュニティから提供された音声録音を組み合わせた、これまでに構築された中で最大規模かつ最も言語的に多様なASRコーパスの一つに基づいて学習されています。デジタルプレゼンスが限られている言語をサポートするため、 メタAI 遠隔地や文書化が不十分な地域のネイティブスピーカーを募集し、報酬を支払うために現地組織と提携し、これまでで最大の超低リソース自発的ASRデータセットであるオムニリンガルASRコーパスを作成しました。言語技術パートナープログラムを通じて、Mozilla FoundationのCommon VoiceやLanfrica/NaijaVoicesとのパートナーシップなど、世界中の言語学者、研究者、言語コミュニティが協力しました。これらの取り組みにより、深い言語的洞察と文化的文脈が得られ、技術が地域のニーズを満たすと同時に、世界中の多様な言語コミュニティのエンパワーメントを実現しました。
免責事項:本記事の内容はあくまでも筆者の意見を反映したものであり、いかなる立場においても当プラットフォームを代表するものではありません。また、本記事は投資判断の参考となることを目的としたものではありません。
こちらもいかがですか?
DTCCがBitwiseのChainlink ETFを上場する際のChainlink(LINK)の価格見通し

AI 主導のフィッシング詐欺と隠れた暗号通貨エクスプロイトが Web3 セキュリティを揺るがす

リップル価格予測:XRPは価格動向が悪いにもかかわらず2.70ドルを狙う

ソラナは需要が高まる中、200ドルを狙っている。予測の確認

