GPT-2を理解する | 論文メモ: Language Models are Unsupervised Multitask Learners

背景
- これまで自然言語処理タスクは、教師あり学習によって解かれてきた
課題
- これまでの言語モデルは、教師あり学習によるいわば特定領域のみの狭い専門家だった
- 幅広い領域のジェネラリストな言語モデルを作ることはできていなかった
やったこと
- WebページのスクレイピングデータセットWebTextを作った
- 教師なし学習によるGPTモデルを構築した
  - WebTextを利用
  - ByteレベルをベースにしたBPEを利用
  - アーキテクチャは初代GPTベースに微改変
  - 最大モデル(1.5B)をGPT-2と呼ぶ
結果
- 文書理解タスクで、ラベルデータによる追加学習なしに既存モデルに匹敵する結果が出た
- 言語モデリングタスクでは、多くのデータセットでSOTA達成
- その他のタスクでもまあまあの結果だった
- モデルサイズが大きいほど結果がよかった

文字列をどうエンコーディングしてモデルへの入力とするか？

課題:

Unicode文字列をUTF-8のbyte列として扱う従来の方法は、単語レベルのタスクで性能が出ない
BPE: Byte Pair Encodingは、その名前に反してUnicodeのbyte列ではなくコードポイントに対して行われている
- Unicodeコードポイントに対してBPEする場合、必要な語彙は膨大になってしまう
- Byteレベルを対象にしたBPEなら、必要な語彙は少なく抑えられる(256個)
しかし、BPEを直接byteレベルに適用しても、最適化は上手くいかない
- 頻出単語と句読点の組み合わせが単語としてまとめられてしまったりする

で、どうしたのか:

これによって、byteレベルアプローチの汎用性を持たせたまま、単語レベルアプローチの性能を目指す。

初代GPTのアーキテクチャをベースにしながら少し変更:

また、複数サイズのモデルを作成。最大サイズのものをGPT-2と呼ぶ。

Conversation Question Answering (CoQA)でテスト。

55 F1スコアを達成
ベースラインの3/4に匹敵または上回る結果
- QAペアのラベルによる追加学習なしで
SOTAはBERTベースのモデルで、人間に近い89 F1スコア
- [1810.04805] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

タスクセット	GPT-2の結果
WMT-14 English-French	5 BLEU
WMT-14 French-English	11.5 BLEU

事実を回答するスタイルのタスクにどのくらい答えられるか？

データセット: Natural Questions
GPT-2の正答率: 4.1% (exact match評価)
- 最小モデルの結果(1%以下)に比べると良い結果なので、モデルサイズを上げていけば良くなるかもね
Retrievalを組み合わせた既存QAシステムは30-50%
- GPT-2の方がずっと低い結果

これらの結果は、本当にGPT-2のGeneralization/汎化能力によるものなのか？
学習データセットとテストデータセットが被っていて、Memorization/思い出しによって解いてるのではないか？ WebTextは雑多にWebページを大量に取ってきてるわけだし。。

の懸念について検証。

おわりに/所感

以上、論文"Language Models are Unsupervised Multitask Learners"の要約メモでした。

以下は私の個人的なメモです。

筆者たちは何を成し遂げようとしてるのか
- 教師なし学習/zero-shotによるモデルの汎用的な言語能力を示したい
アプローチの鍵となる要素は何か
- 高クオリティのwebスクレイピングデータWebTextの作成
- モデルサイズを大きくして、教師なし学習
- ByteレベルBPE
次に読みたい引用論文は何か
- BPE [1508.07909] Neural Machine Translation of Rare Words with Subword Units
- [1810.04805] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
所感
- 初代GPTがfine-tuningベースだったのに対して、GPT-2ではfine-tuningなしの教師なし学習での能力を示している。この後のscaling lowと合わせて、モデルをデカくすればまずは上手くいく、の世界に入っていったのがうかがえて面白い。