Cerebras Systems は火曜日、開発者向けの AI 推論ソリューションを発表しました。同社の主張によれば、これは Nvidia の製品よりも 20 倍高速な、はるかに高速な推論ソリューションです。
Cerebras は、AI アプリケーションを実行するための大型チップへのアクセスを提供する予定で、同社によれば、これも Nvidia GPU よりも安価です。業界標準の Nvidia GPU は、ChatGPT などの大規模な言語モデルを実行するために、クラウド サービス プロバイダーを通じてアクセスされることがよくあります。多くの中小企業にとって、アクセスを得るのは通常容易ではなく、費用もかかります。
Cerebras は、新しいチップが GPU を超えるパフォーマンスを実現できると主張しています
AI 推論は、すでにトレーニングされた AI モデルを操作して、チャットボットからの回答やさまざまなタスクの解決などの出力を取得するプロセスです。推論サービスは、ユーザーの利便性を高めるための日常的な操作に依存しているため、今日の AI アプリケーションのバックボーンとなっています。
Cerebras 氏によると、推論はクラウド コンピューティングにおけるすべての AI 関連ワークロードの 40% を占めており、AI 業界で最も急速に成長している分野であると述べています。 Cerebras の CEO である Andrew Feldman 氏は、同社の特大チップは GPU よりも優れたパフォーマンスを実現すると述べました。 GPUではこのレベルを達成することはできない、と同氏は述べた。フェルドマン氏はロイターのインタビューで語った。
彼が追加した、
「私たちは最高の精度でそれを行い、最低価格で提供しています。」出典: ロイター 。
同CEOは、既存のAI推論サービスはすべての顧客にとって満足できるものではないと述べた。同氏はサンフランシスコの別の記者団に対し、同社はより高速でコスト効率の高いソリューションに「あらゆる種類の関心を寄せている」と語った。
これまで、Nvidia はゴールドスタンダード チップと Compute Unified Device Architecture (CUDA) プログラミング環境で AI コンピューティング市場を独占してきました。これにより、Nvidia は膨大なツールを提供することで、開発者を自社のエコシステム内に閉じ込めることができました。
Cerbras チップは Nvidia H100 GPU の 7000 倍のメモリを搭載
Cerebras は、同社の高速推論サービスが AI 業界の転換点になると述べた。同社の新しいチップはディナープレートほどの大きさで、「Wafer Scale Engine」と呼ばれる。毎秒 1000 個のトークンを処理でき、これはブロードバンド インターネットの導入に匹敵すると同社は述べています。
同社によれば、新しいチップはさまざまな AI モデルに対して異なる量の出力を提供します。 Llama 3.1 8B の場合、新しいチップは 1 秒あたり 1800 個のトークンを処理できますが、Llama 3.1 70B の場合、1 秒あたり 450 個のトークンを処理できます。
Cerebras は推論サービスを 100 万トークンあたり 10 セントで提供していますが、これは GPU ベースの推論サービスよりも安価です。業界の通念によれば、通常、代替アプローチではパフォーマンスの精度が犠牲になるが、同社の主張によれば、Cerebras の新しいチップは精度を維持できるという。
Cerebras は、AI 推論製品をさまざまな形で提供すると述べた。同社はクラウドと開発者キーを介した推論サービスを導入する予定だ。同社は、データセンターの顧客や独自のシステムを運用したい顧客にも新しいチップを販売する予定だ。
新しい Wafer Scale Engine チップには、独自の統合冷却モジュールと電力供給モジュールがあり、CS-3 と呼ばれる Cerebras データセンター システムの一部として提供されます。 レポート によると、Cerebras CS-3 システムは同社の推論サービスのバックボーンです。
このシステムは、Nvidia H100 GPU の 7000 倍のメモリ容量を誇ります。これにより、多くのチップメーカーが対処しようとしているメモリ帯域幅の根本的な問題も解決されます。
サーブラスは上場企業化にも取り組んでいる。そのために同社は今月、証券取引委員会(SEC)にdent目論見書を提出した。