BioErrorLog Tech Blog

試行錯誤の記録

LLMと脳理論: Active Inferenceの違いと類似点

自由エネルギー原理のActive Inference (能動的推論)と、LLM (大規模言語モデル)の違いと類似点を、論文 "Predictive Minds: LLMs As Atypical Active Inference Agents" から整理します。

はじめに

ChatGPTをずっと使っていると、本当にこれらが便利だなと思う一方、生き物/人間との違いについて思いを馳せずにはおれません。 特に、脳神経科学の分野でホットな自由エネルギー原理/Active Inferenceとの関係性を想像すると、興奮します。

これらの関係性について書かれた論文を調べてみると、まだ数は少ないですがいくつか見つかりました。

今回はそうした論文の一つ、"Predictive Minds: LLMs As Atypical Active Inference Agents"から、Active InferenceとLLMの違いと類似点を学びます。

  • タイトル: Predictive Minds: LLMs As Atypical Active Inference Agents
  • 著者: Jan Kulveit, Clem von Stengel, Roman Leventov
  • URL: https://arxiv.org/abs/2311.10215

一言でまとめると

LLMとActive Inferenceの違いは、これまで論じられてきたほど大きくなく、質的な違いというよりも量的な違いとみなせる。 LLMにおいては、行動とその結果認知のループはほとんど閉じてない(あるいは余りに時間が遅く影響力も弱い)が、ここを改善することによってよりActive Inferenceエージェント時に振る舞うLLM、Active LLMが可能になる。

..という主張であるとざっくり捉えています。

論文メモ: Predictive Minds: LLMs As Atypical Active Inference Agents

以下、論文メモです。 個人的な理解で補足している箇所もあります。

詳しくは/正しくは原著を参照ください。

背景

LLMという概念はどう捉れられてきたか

LLMの内部では何が起きているのか、LLMは世界を"理解"しているのか、という問題については、これまであらゆる立場の主張がされてきた。

LLMは受動的な予測器にすぎず、統計的なオウムである、と言われることもあれば、世界を記述した言語から学習しているのだから、LLMの中には世界モデルが構築されてる、とされる説など、多様な論が提唱されてきた。

Active Inferenceと予測処理

Active Inferenceは、認知科学/脳神経科学に根ざす理論。

生き物や人間の脳などの生物学的システムは、外環境に対して行動しながら、常に内部モデルを更新する。 この行動と内部モデルの更新という二つのプロセスは、推論と実際の感覚入力の差を最小化する (自由エネルギーを最小化する) プロセスとして、両方とも説明することができる。

Active InferenceとLLM/Generative AIとは本質的に異なる、と考えられることが多いが、そうでもないんじゃ、という可能性を筆者らは提唱する。

Active inferenceとLLMの違いと類似点

特殊なActive inferenceシステムとしてのLLM

LLMはインターネットからテキストを取り込み、その内部モデルを構築している。 つまり、LLMの学習プロセスは、ある種LLMにとっての"知覚"と捉えることができる。

またLLMのハルシネーションも、Active Inferenceの視点から理解できる現象だ(※)。

※ ハルシネーション関連の議論は、いまいちパッと理解できなかったのでここでは割愛します。

LLMにおける行動とは何か

Active InferenceとLLMの違いが論じられるとき、その本質的な違いはLLMの受動性にある、と言われてきた。 つまり、LLMは外環境に対して行動を起こすことができないという点に、Active Inferenceとの根本的な違いがあるという話だ。

しかし筆者らは、この違いは質的な違いではなく量的な違いである、と主張する。

確かに、LLMは生き物やロボットのように物理的な行動を起こせるわけではないが、LLMの推論結果が最終的には外環境に影響を及ぼすという意味では、"行動"していると言えるのではないか。

ここで言う"外環境"とは、LLMにとっての知覚対象 - すなわちLLMの内部モデルを構成する学習データであるインターネットテキストのこと。 LLMの出力結果が例えばそのままインターネットに書き込まれたり、またLLMを利用する人間の行動を変化させたりして、最終的にインターネットデータに影響を及ぼす。

LLMによる出力トークンはいわば"micro-action"であり、その蓄積は最終的に世界に影響を及ぼし、ついにはLLMの知覚=学習データにも影響するようになる。

Active inferenceの行動-知覚ループを閉じる

生き物が常に行動-知覚のループを回しているのに比べて、LLMの行動-知覚ループは閉じているとは言えない (あるいはあまりに時間がかかりすぎる)。 LLMが知覚=再学習する頻度は年に一度か数回程度であり、その学習においても、LLM自身の行動結果のフィードバックを十分に得られるわけではない。

ではこの行動と知覚のギャップは、どうやって埋めることができるのか? 例えば以下のような考え方がある。

  • モデルの出力を次世代モデルの学習に使用する。データは調整したりフィルタリングしたりしない。
  • モデルとのやり取りデータをファインチューニングに使用する。
  • 連続的なオンライン学習。

いずれにせよ、モデルの開発者はこの行動-知覚ループのギャップを埋めることで、より自立した、適応力のあるエージェントとしてのLLMを実現できるだろう。

Active LLMの意味するところ

LLMにおける行動-認知ループが閉じられて、よりActive Inferenceエージェントとして振る舞うようになると、モデルの自己認識も向上すると考えられる。 モデルは自分自身に関するより多くの情報を認知し、外環境における自分の行動の結果を観察することで、自己認識が強化されていくだろう。

おわりに

以上、LLMとActive Inferenceの違いと類似点を論文"Predictive Minds: LLMs As Atypical Active Inference Agents"から見てきました。

では、いざこの論文の示唆に従って実装しようとなると、私にはまだまだLLMやActive Inferenceの根本的知識がないことに気が付きました。 一歩ずつやっていきます。

[関連記事]

www.bioerrorlog.work

www.bioerrorlog.work

www.bioerrorlog.work

参考

[2311.10215] Predictive Minds: LLMs As Atypical Active Inference Agents

https://twitter.com/jankulveit/status/1729896162826539352