主なポイント:
- Nvidiaは初の完全オープンな物理AI万能モデル「Cosmos 3」を発表
- 本モデルはビジョン、言語、行動を統合する混合トランスフォーマーアーキテクチャを採用
- ARK Investの試算では、物理AIは2040年までに24兆ドルの市場を創出する可能性
主なポイント:

NvidiaのCosmos 3は、同社のロボティクス向け基盤AIモデルへの参入を示し、視覚推論とマルチモーダル生成を組み合わせた製品である。
NvidiaのCosmos 3は、物理AI向けとして初の完全オープンな万能モデルであり、同社をGPUハードウェアの枠を超えて基盤モデル領域へと押し上げる。ワールドシミュレーションとロボティクス向けに混合トランスフォーマーアーキテクチャを採用している。
同社は6月1日の発表で、「Cosmos 3は、ビジョン、言語、行動を統合する革新的な混合トランスフォーマーアーキテクチャをベースに構築された、リーダーボードトップのオープンな物理AI基盤モデルである」と述べた。
本モデルはネイティブの視覚推論をサポートし、合成データ作成や物理AIポリシー開発向けに、テキスト、画像、動画、環境音、行動出力を生成する。Nvidiaはまた、320億パラメータのオープンな推論型ビジョン・言語・行動モデル「Alpamayo 2 Super」を、Omniverse、Cosmos、Metropolisの各プラットフォームにわたる一連のオープンソース物理AIエージェントスキルと併せてリリースした。
基盤モデルへの拡大は、2025会計年度に620億ドルの売上を計上したデータセンターGPU事業を超えて、Nvidiaが価値を獲得するための布石となる。自動運転車、倉庫ロボティクス、産業オートメーションを包含する物理AIは、新たなアドレス可能市場を意味する。Cosmosがロボティクス開発の標準プラットフォームとなれば、同社の35倍のフォワード・アーンングズ・マルチプルを正当化できる可能性がある。
Cosmos 3を支える混合トランスフォーマーアーキテクチャは、Nvidiaの従来のAIモデルからの技術的な転換点である。テキストを逐次的に処理する大規模言語モデルとは異なり、Cosmos 3は視覚、言語、行動のデータを同時に処理し、物理世界のインタラクションをシミュレートする。これは、実世界での試行錯誤を経ずにロボットや自律システムを訓練するために必要な機能である。
オープンソースによるリリース戦略は、Metaが言語モデル「Llama」ファミリーで取ったアプローチと類似しており、Cosmos 3をロボティクス研究開発の標準として位置づけることを目指す。モデルを無料で公開することで、Nvidiaは訓練と推論に自社ハードウェアを依存する開発者や企業のネットワークを構築し、GPU事業の周りにソフトウェア上の堀を築こうとしている。
競争上の利害は、Nvidiaの直接のチップライバルを超えて広がっている。Teslaは自動運転とヒューマノイドロボティクス向けに独自のAIモデルを開発しており、Google DeepMindはMuJoCoやGeminiプラットフォームを通じて物理世界シミュレーションに多額の投資を行っている。Amazonはロボティクス部門を通じて、倉庫オートメーションにおける潜在的な顧客であると同時に競合でもある。
投資家にとっての問いは、Cosmos 3がネットワーク採用をGPU需要に転換できるかどうかである。物理AIのトレーニング実行には毎回数千基のNvidia GPUが必要となる。単一のロボティクスモデルのトレーニングセッションでは、10,000~25,000基相当のH100 GPUを数週間にわたって消費する可能性がある。Cosmos 3が物理AI開発のデフォルトプラットフォームとなれば、現在の大規模言語モデル構築を超えた新たなデータセンター設備投資のサイクルを引き起こす可能性がある。
Nvidiaの株価は過去12カ月で140%上昇しており、Microsoft、Amazon、GoogleからのAIインフラ支出に牽引されている。Cosmos 3の発表は、データセンターGPUを超えたロボティクスと物理AIへのストーリーを拡大するものであり、ARK Investはこの市場が2040年までに世界の収益で24兆ドルに達すると試算している。
本記事は情報提供のみを目的としており、投資アドバイスを構成するものではない。