NVIDIA Cosmos Policyの論文、"Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning" の論文読みメモです。
はじめに
Physical AIが盛り上がってきましたね。
今回読んでいく論文はこちら:
[2601.16163] Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning
- 2026/01/22 公開
- By NVIDIA
- コード: GitHub - NVlabs/cosmos-policy: Cosmos Policy · GitHub
動画生成モデル/World ModelであるNVIDIA Cosmos PredictをファインチューニングしてPolicy Modelにしたところ、ロボットタスクのベンチマークでSOTA達成する高性能なものができました、という話です。
この論文を読みがてら、メモをまとめていきます。
※ 本記事で掲載する図は全て上記論文からの引用です。
The English translation of this post is here.
Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning
背景
動画生成モデルの時空間理解をロボット制御にうまく活かそう、というのがモチベーションになっている。
- 近年の動画生成モデル(Cosmos, Wan2.1等)は、物理法則に沿った時間的に一貫性のある動画を生成できるほど、世界がどう変化するかを学習している (World Model)
- 一方、ロボット制御で主流のVLA(Vision-Language-Action)モデルは、静止画+テキストで事前学習されており、時間的な物理ダイナミクスの理解が限定的
- 先行研究では動画モデルをロボットに活用する試みがあるが、以下の課題があった:
- 動画ファインチューニング → 行動モジュール学習、のように複数段階の学習が必要
- 行動拡散器や逆動力学モデルなど追加のアーキテクチャが必要
- 統合モデルを独自設計する場合は、事前学習済み動画モデルの恩恵を受けられない
- Cosmos Policyはこれらに対し、1回のファインチューニング・アーキテクチャ変更なしで動画モデルをロボットポリシーに変換する

方法
Latent Frame Injection
動画モデルは元々、画像列を潜在(Latent)空間でノイズ除去して生成する。
Cosmos Policyでは、この潜在フレーム列の中に画像ではないデータ(robot state, action chunk, state values))を潜在フレームとして直接注入する。 数値データを潜在フレームと同じ形状に正規化・複製して挿入することで、動画モデルの拡散学習の枠組みをそのまま利用している。

Policy, World Model, Value Functionの同時学習
1つのモデルで3つの機能を同時に学習する。
バッチの50%でPolicy学習p(a, s', V(s')|s)、25%でWorld Model学習p(s', V(s')|s, a)、25%でValue Function学習p(V(s')|s, a, s')を行う。
条件付けスキーム(どの潜在フレームを条件にし、どれを生成ターゲットにするか)を切り替えることで、同一のアーキテクチャ内で3つの異なる学習目標を実現する。

Model-Based Planning
Cosmos Policyは直接のpolicyとしても、planningありpolicyとしても使える。
Planning時はBest-of-Nサンプリングを用いる:
- PolicyからN個の行動候補を生成
- World Modelで各候補の状態を予測
- Value Functionで将来状態をスコアリング
- 最高スコアの行動を実行
ここで、デモデータだけでは成功例しかないため、将来状態の予測は苦手。 Policyのロールアウトデータ(成功・失敗含む、実際にpolicyを実行して得たデータ)でWorld ModelとValue Functionを追加学習し、予測精度を向上させる。
元のチェックポイントをpolicy model、追加学習後のチェックポイントをplanning modelとして二重で利用する。
- Policy model:デモデータで十分に学習された、高品質な行動生成を行う
- Planning model:成功・失敗両方を見た経験から、将来状態とvalueの予測を行う

結果
3つのベンチマークで評価を実施:
- LIBERO(シミュレーション):単腕ロボット、4つのタスクスイート、各50デモデータで学習
- RoboCasa(シミュレーション):24のキッチンタスク、各50デモデータで学習
- ALOHA(実機):双腕ロボット、4つのタスク、計185デモでもデータで学習
以下、それぞれの結果を順に見る。

↑LIBERO結果。
Cosmos Policyは4つのタスクスイート平均で98.5%の成功率を達成し、π0.5(96.9%)、CogVLA(97.4%)、OpenVLA-OFT(97.1%)などのVLAモデルを含む全手法を上回りSOTAを達成。 特にLIBERO-Longでは97.6%と、従来の最高値(95.4%)を大幅に更新した。

↑RoboCasa結果。
Cosmos Policyは平均67.1%の成功率でSOTAを達成。 他の上位手法(Video Policy, FLARE, GR00T-N1.5等)がタスクあたり300デモを使用しているのに対し、Cosmos Policyは今回わずか50デモデータの学習で上回っており、データ効率の高さが示された。

↑ALOHA結果。
Cosmos Policyは平均スコア93.8で全手法中最高。 4タスク中3タスクで最高スコアを記録し、特に「飴をボウルに入れる」「飴をジップロック袋に入れる」といった高精度・高多様性タスクでの優位性が顕著だった。

↑LIBEROでのablation結果。
補助損失(将来状態・valueの同時予測)を除去すると成功率が1.5ポイント低下し、事前学習済みモデルを使わずランダム初期化すると3.9ポイント低下、これら両コンポーネントの重要性が確認された。

↑高難易度のALOHAタスク2つにおけるplannningの効果の測定。
Model-Based Planning(V(s'))が平均12.5ポイントのスコア向上を達成し最高性能。 Model-Free Planning(Q(s,a): Stateの予測を行わない)は限られたロールアウトデータではQ関数の学習が難しく、Model-Basedに劣る結果となった。
おわりに
Cosmos Policy論文の簡単な要約メモでした。
物理法則を踏まえて動画を生成するWorld ModelのアウトプットをそのままロボットのActionにする、というのは、まさにAIが世界を理解し行動する、という時代の幕開けのようでワクワクしますね。
Physical IntelligenceのπモデルシリーズやOpenVLAなど、他の高性能モデルの仕組みも気になります。
以上!
[関連記事]