BioErrorLog Tech Blog

試行錯誤の記録

NVIDIA Cosmos Policyの仕組みを理解する | 論文: Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

NVIDIA Cosmos Policyの論文、"Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning" の論文読みメモです。

はじめに

Physical AIが盛り上がってきましたね。

今回読んでいく論文はこちら:

[2601.16163] Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

動画生成モデル/World ModelであるNVIDIA Cosmos PredictをファインチューニングしてPolicy Modelにしたところ、ロボットタスクのベンチマークでSOTA達成する高性能なものができました、という話です。

この論文を読みがてら、メモをまとめていきます。

※ 本記事で掲載する図は全て上記論文からの引用です。

The English translation of this post is here.

Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning

背景

動画生成モデルの時空間理解をロボット制御にうまく活かそう、というのがモチベーションになっている。

  • 近年の動画生成モデル(Cosmos, Wan2.1等)は、物理法則に沿った時間的に一貫性のある動画を生成できるほど、世界がどう変化するかを学習している (World Model)
  • 一方、ロボット制御で主流のVLA(Vision-Language-Action)モデルは、静止画+テキストで事前学習されており、時間的な物理ダイナミクスの理解が限定的
  • 先行研究では動画モデルをロボットに活用する試みがあるが、以下の課題があった:
    • 動画ファインチューニング → 行動モジュール学習、のように複数段階の学習が必要
    • 行動拡散器や逆動力学モデルなど追加のアーキテクチャが必要
    • 統合モデルを独自設計する場合は、事前学習済み動画モデルの恩恵を受けられない
  • Cosmos Policyはこれらに対し、1回のファインチューニング・アーキテクチャ変更なしで動画モデルをロボットポリシーに変換する

Cosmos Policyの全体像。現在の状態を入力し、行動チャンク・将来状態・価値を同時に出力する。元モデル(Cosmos Predict)からのアーキテクチャの変更はない。

方法

Latent Frame Injection

動画モデルは元々、画像列を潜在(Latent)空間でノイズ除去して生成する。

Cosmos Policyでは、この潜在フレーム列の中に画像ではないデータ(robot state, action chunk, state values))を潜在フレームとして直接注入する。 数値データを潜在フレームと同じ形状に正規化・複製して挿入することで、動画モデルの拡散学習の枠組みをそのまま利用している。

Latent Frame Injectionの仕組み。画像列をVAEでトークン化した後、ロボットステート・行動チャンク・状態価値といった追加モダリティを潜在フレームとして注入する。

Policy, World Model, Value Functionの同時学習

1つのモデルで3つの機能を同時に学習する。

バッチの50%でPolicy学習p(a, s', V(s')|s)、25%でWorld Model学習p(s', V(s')|s, a)、25%でValue Function学習p(V(s')|s, a, s')を行う。

条件付けスキーム(どの潜在フレームを条件にし、どれを生成ターゲットにするか)を切り替えることで、同一のアーキテクチャ内で3つの異なる学習目標を実現する。

Cosmos Policyのバッチ学習

Model-Based Planning

Cosmos Policyは直接のpolicyとしても、planningありpolicyとしても使える。

Planning時はBest-of-Nサンプリングを用いる:

  1. PolicyからN個の行動候補を生成
  2. World Modelで各候補の状態を予測
  3. Value Functionで将来状態をスコアリング
  4. 最高スコアの行動を実行

ここで、デモデータだけでは成功例しかないため、将来状態の予測は苦手。 Policyのロールアウトデータ(成功・失敗含む、実際にpolicyを実行して得たデータ)でWorld ModelとValue Functionを追加学習し、予測精度を向上させる。

元のチェックポイントをpolicy model、追加学習後のチェックポイントをplanning modelとして二重で利用する。

  • Policy model:デモデータで十分に学習された、高品質な行動生成を行う
  • Planning model:成功・失敗両方を見た経験から、将来状態とvalueの予測を行う

World ModelによるPrediction比較。ベースのCosmos Policyはデモデータのみで学習しているため、失敗状態(例:ジップロック袋の把持を失う)を正しく予測できない(上段)。ロールアウトデータでファインチューニング後は、実際の将来状態をより正確に予測でき、効果的な計画が可能になる(下段)。

結果

3つのベンチマークで評価を実施:

  • LIBERO(シミュレーション):単腕ロボット、4つのタスクスイート、各50デモデータで学習
  • RoboCasa(シミュレーション):24のキッチンタスク、各50デモデータで学習
  • ALOHA(実機):双腕ロボット、4つのタスク、計185デモでもデータで学習

以下、それぞれの結果を順に見る。

↑LIBERO結果。

Cosmos Policyは4つのタスクスイート平均で98.5%の成功率を達成し、π0.5(96.9%)、CogVLA(97.4%)、OpenVLA-OFT(97.1%)などのVLAモデルを含む全手法を上回りSOTAを達成。 特にLIBERO-Longでは97.6%と、従来の最高値(95.4%)を大幅に更新した。

↑RoboCasa結果。

Cosmos Policyは平均67.1%の成功率でSOTAを達成。 他の上位手法(Video Policy, FLARE, GR00T-N1.5等)がタスクあたり300デモを使用しているのに対し、Cosmos Policyは今回わずか50デモデータの学習で上回っており、データ効率の高さが示された。

↑ALOHA結果。

Cosmos Policyは平均スコア93.8で全手法中最高。 4タスク中3タスクで最高スコアを記録し、特に「飴をボウルに入れる」「飴をジップロック袋に入れる」といった高精度・高多様性タスクでの優位性が顕著だった。

↑LIBEROでのablation結果。

補助損失(将来状態・valueの同時予測)を除去すると成功率が1.5ポイント低下し、事前学習済みモデルを使わずランダム初期化すると3.9ポイント低下、これら両コンポーネントの重要性が確認された。

↑高難易度のALOHAタスク2つにおけるplannningの効果の測定。

Model-Based Planning(V(s'))が平均12.5ポイントのスコア向上を達成し最高性能。 Model-Free Planning(Q(s,a): Stateの予測を行わない)は限られたロールアウトデータではQ関数の学習が難しく、Model-Basedに劣る結果となった。

おわりに

Cosmos Policy論文の簡単な要約メモでした。

物理法則を踏まえて動画を生成するWorld ModelのアウトプットをそのままロボットのActionにする、というのは、まさにAIが世界を理解し行動する、という時代の幕開けのようでワクワクしますね。

Physical IntelligenceのπモデルシリーズやOpenVLAなど、他の高性能モデルの仕組みも気になります。

以上!

[関連記事]

www.bioerrorlog.work

www.bioerrorlog.work

参考