BioErrorLog Tech Blog

試行錯誤の記録

Sakana.aiの進化的モデルマージを理解する | 論文メモ: Evolutionary Optimization of Model Merging Recipes

Sakana.aiの進化的モデルマージを記述した論文"Evolutionary Optimization of Model Merging Recipes" の論文要約メモです。

はじめに

今回まとめる論文はこちら:

arxiv.org

なお本記事で掲載する図は全て上記論文からの引用です。

ではやっていきます。

Evolutionary Optimization of Model Merging Recipes

概要

  • 背景
    • Model mergingはコスト効率の良いモデル構築手法として注目されている。
  • 課題
    • しかし、現在のModel mergingは人間の直感や経験、ドメイン知識に大きく依存した、いわば"黒魔術"である。
  • やったこと
    • 進化的アルゴリズムを用いてmodel mergingを行った。
    • PS: parameter space (重み)と、DFS: data flow space (レイヤー)の両方のアプローチを組み合わせた。
    • 日本語モデル-数学的推論モデルのマージと、日本語VLMモデルの2パターンで実験した。
  • 結果
    • Cross-domainでのモデルmerge(日本語モデル-数学的推論モデル)により、既存モデルより優れた性能のモデルを作成できた。
    • 日本の文化的文脈を含んだVLMタスクでも既存モデルを凌ぐ結果が出た。

手法

  • PS: parameter space/重みレベルのマージと、DFS: data flow space/レイヤーレベルのマージ、そしてその両者を掛け合わせたマージを行う。

進化的モデルマージの概要

結果

LLMタスク

Table 1: LLMモデルの性能比較

  • MGSM-JA: 日本語での数学能力を測定するベンチマーク
  • JP-LMEH: 日本語の汎用的な言語能力を測定するベンチマーク
  • Merge元のモデル
    • Model1: 日本語はできるが数学能力が低い
    • Model2, 3: 数学能力にたけるが日本語能力が低い -> MGSM-JAの結果は良くない
  • Merge後のモデル
    • 総じてmerge元よりも結果が良い
    • 特にModel4は異なるドメインのモデルをmergeして作ったわけだが、高い性能を発揮している
    • PS mergeの方がDFS mergeよりも効果が高い
    • PS mergeとDFS mergeの掛け合わせ(Model 6)でもさらに結果は良くなることもある(MGSM-JA)

VLMタスク

Table 3: VLMの性能評価

  • JA-VG-VQA-500: 日本語での汎用的なVQA(Visual Question Answering)性能を評価するベンチマーク
  • JA-VLM-Bench-In-the-Wild: 日本文化の文脈における複雑なVQA性能を評価するベンチマーク
  • 上記2つのベンチマークはともに今回筆者らが新たに作成したもの
  • Merge後モデルは、merge元のモデルよりも高い性能を示している

日本の文化的文脈を踏まえて画像認識タスクに対する出力例

おわりに/所感

以上、論文"Evolutionary Optimization of Model Merging Recipes"の要約メモでした。

以下は私の個人的なメモです。

[関連記事]

www.bioerrorlog.work

www.bioerrorlog.work

参考

[2403.13187] Evolutionary Optimization of Model Merging Recipes

Evolving New Foundation Models: Unleashing the Power of Automating Model Development

GitHub - SakanaAI/evolutionary-model-merge: Official repository of Evolutionary Optimization of Model Merging Recipes