OpenAIのエンジニアは、AIモデルの推論コストを半分以上削減する方法を発見し、AI業界の経済性を一変させつつある。
OpenAIのエンジニアは、AIモデルの推論コストを半分以上削減する方法を発見し、AI業界の経済性を一変させつつある。

関係者によると、OpenAIのエンジニアは今月初め、モデルの推論コストを50%以上削減できる一連の最適化手法を開発したことを同僚に伝えた。この詳細はこれまで公表されていない。
「これは推論効率における段階的変化であり、AIを大規模に提供する際の最大のコストに直接挑戦するものだ」と、非公開情報であることを理由に匿名を条件に語った関係者は述べている。
このブレークスルーは、大規模言語モデルの運用コストを高騰させる計算上のボトルネックを標的としている。トレーニング済みモデルから応答を生成するプロセスである推論は、AIサービスプロバイダーにとって運用コストの大部分を占め、コストは利用量に直接比例して拡大する。関係者によると、OpenAIの新技術は、クエリごとに必要な計算量を削減するため、複数の新しいアプローチを組み合わせているが、具体的な手法や本番環境への展開スケジュールは明らかにされていない。The Informationが最初に報じた。
この効率改善により、OpenAIのクラウドコンピューティングコストは年間で数億ドル削減される可能性があり、API価格の引き下げが可能になり、競合他社(Anthropic、Google、およびほぼゼロコストで対抗モデルをリリースする中国のラボを含む)に対しても、同水準の経済性を要求できるようになる可能性がある。OpenAIの最も高性能なモデルは現在、100万入力トークンあたり数ドルのコストがかかり、この価格帯が大量利用アプリケーションの採用を制限している。
今回の進展は、AI業界にとって極めて重要な時期に実現した。推論コストは、企業による広範な導入に対する最大の障壁として浮上しており、多くの企業がAIアプリケーションを導入する際の最大の懸念事項としてコストを挙げている。50%の削減は、OpenAIの最も高性能なモデルを実行する際のトークンあたりのコストを、同社の小型製品と同等の経済性に近づけ、リアルタイムのカスタマーサービスから大規模な文書処理に至るまで、AIが経済的に viable となるユースケースの範囲を拡大する。
OpenAIにとって、このタイミングは戦略的である。同社は現在、大規模なインフラ構築の真っ最中であり、データセンターの容量とカスタムシリコンに数十億ドルを投じている。今月初め、OpenAIとBroadcomは、データセンターコンピューティングにおけるNvidiaの支配に対抗するために設計された、カスタムAI推論チップ「Jalapeno」を発表した。カスタムハードウェアとソフトウェアレベルの最適化の組み合わせにより、OpenAIは、現在70%以上の粗利益率を誇るNvidiaの汎用GPUに依存する競合他社に対して、構造的なコスト優位性を獲得できる可能性がある。NvidiaのH100およびB200チップは引き続き業界標準の推論用チップであるが、カスタムASICは、より優れた価格性能比を実現する手段として注目を集めている。
競争環境は急速に変化している。DeepSeekやAlibabaのQwenチームを含む中国のラボは、西側の製品に匹敵するモデルをはるかに低コストでリリースしており、OpenAIやAnthropicにプレミアム価格の正当性を求める圧力が強まっている。DeepSeekの最新モデルは、GPT-4クラスのモデルと同等のパフォーマンスを、推論コストが約10分の1で達成していると報じられている。一方、Googleは、自社のGeminiモデルの提供コストを引き下げるため、独自のカスタムテンソル処理ユニットに多額の投資を行っている。OpenAIの推論コストのブレークスルーは、これらの低コストの代替品との差を縮め、優れたパフォーマンスに基づいて高い価格を維持しながらも、競争力のある経済性を提供する可能性を秘めている。
また、この最適化手法は、OpenAIが支出に対する監視を強められている時期に登場した。同社はモデルのトレーニングとインフラに資金を投入するために急速に現金を消費しており、投資家はより明確な収益化への道筋を求めている。推論コストを半分に削減できれば、API収益の粗利益率が直接的に改善され、これは同社の財務健全性にとって重要な指標となる。
投資家にとって、その影響は両刃の剣である。推論コストの低下は、より多くのユースケースで経済的に viable となるため、AIの総アドレス可能市場を拡大する — これは業界全体にとってプラスである。しかし同時に、効率改善に追随できないAIモデルプロバイダーのマージンを圧迫する。AI推論ワークロードの大部分を支えるGPUを提供するNvidiaは、カスタムチップとソフトウェアの最適化によりクエリあたりの必要計算量が減少すれば、逆風に直面する可能性がある。最近3000億ドルと評価されたOpenAIのバリュエーションは、実証可能なユニットエコノミクスの改善によって裏付けられるだろう。OpenAIの最大の出資者でありクラウドパートナーであるMicrosoftは、Azure上で低コストのAIサービスが稼働することで恩恵を受け、企業顧客間でのCopilot製品の採用が加速する可能性がある。これらの手法は未公開であり、独立したベンチマークによる検証も受けていないため、市場はまだこの効率改善を価格に織り込んでいない。
本記事は情報提供のみを目的としており、投資助言を構成するものではありません。