2022年末に登場し、一躍注目を集めたChatGPT。その中核を担っているのが、大規模言語モデル(LLM)である「GPT(Generative Pre-trained Transformer)」です。
この記事では、GPTの開発の歴史をたどりながら、なぜGPTが“あの分野”に強いのかを考察していきます。
歴史
モデル構造:Transformerのデコーダーアーキテクチャを採用し、12層、117M(1億1,700万)パラメータを持つ。
学習手法:大規模な未ラベルテキストコーパス(BooksCorpusなど)を用いた自己回帰型の事前学習(Pre-training)を実施。その後、タスク固有の微調整(Fine-tuning)を行う。
性能:12の自然言語処理タスク中9つで、従来の教師あり学習モデルを上回る性能を示した。
意義:事前学習と微調整の組み合わせが、自然言語処理タスクにおいて有効であることを示し、以降の研究の基盤を築いた。
訓練に使われたのは8枚のNvidia Quadro P600だったそうです。実行性能も9.6TFLOPSで、2020年に発売されたゲーム機であるps5(約10.3 TFLOPS)よりも低いのが驚きですよね。
モデル構造:GPT-1のアーキテクチャを踏襲しつつ、パラメータ数を一気に1.5B(15億)に拡大。
学習手法:Web上の大規模テキストデータ(約40GB)を用いた事前学習のみで、多様なタスクに対応可能なゼロショット学習能力を獲得。
性能:要約、翻訳、質問応答など、特定のタスクに特化しない汎用的な言語生成が可能となった。
社会的影響:悪用の懸念から、当初は完全公開が見送られ、段階的なリリース戦略が採用された。
たとえば、画像分類AIに「犬」や「猫」を何千枚も学習させて、「これは犬」「これは猫」って当てさせるのが通常の学習(教師あり学習)。
でも、「キリンの画像は一度も見せてないけど、『首が長くて斑点模様の動物』という説明だけでキリンを正しく分類できる」のがゼロショット学習なんだそうです。
40GBのデータで多用途に対応できる技術を作れるのはすごいですね。
モデル構造:175B(1,750億)パラメータを持つ、当時最大規模の自己回帰型言語モデル。
学習手法:大規模なインターネットテキストデータを用いた事前学習のみで、Few-shot LearningやZero-shot Learningが可能に。
性能:質問応答、要約、翻訳、コード生成など、多岐にわたるタスクで高い性能を示した。
技術的意義:モデル規模の拡大が、タスク固有の微調整なしでも高性能を実現できることを示し、スケーリング法則の有効性を実証した。
Few-shot Learningは、その名の通りFew(=少しだけ)の例だけで学習・推論させる手法らしいです。
モデル構造:GPT-3.5をベースに、対話形式に最適化されたモデル。
学習手法:人間のフィードバックを活用した強化学習(Reinforcement Learning from Human Feedback, RLHF)を導入し、応答の品質と安全性を向上。
性能:自然で一貫性のある対話が可能となり、ユーザーとのインタラクションにおいて高い満足度を実現。
社会的影響:リリース後2ヶ月で1億ユーザーを突破し、対話型AIの一般普及を加速させた。
従来のAIはデータのパターンに単純に依存していましたが、RLHFでは人間のトレーナーがリアルタイムで指導することで、より適切な回答や提案、洞察を生み出せるようになったみたいです。
モデル構造:テキストと画像の両方を入力として処理可能なマルチモーダルモデル。
学習手法:前モデルでの学習手法を踏襲しつつ、より多様なデータと人間フィードバックを活用した微調整を実施。
性能:司法試験の模擬試験で上位10%のスコアを達成するなど、専門的なタスクでも人間レベルの性能を示した。
技術的意義:マルチモーダル処理能力と高度な推論能力を兼ね備え、AIの応用範囲を大幅に拡張した。
このGPT4から、OpenAIは詳細な性能開示を行っていません。
今まで「Open」AIという名前の通り、オープンソース的な方針を取り続けていたのにもかかわらずいきなりこんなことをしたため、
イーロンマスクは「今のOpenAIはマイクロソフトに管理された営利企業であり、閉鎖的である。全くもってオープンではない」と非難しています。
さらなる成長のためにこのような方針にシフトしたとのことですが、今後の動向に注目ですね。
GPTはインターネット上の情報(ニュース、Wikipedia、書籍、SNS、Q&Aなど)を網羅的に学習している
よって、広範な一般常識や用語を自然な文脈で扱える。
ChatGPTでは会話形式のフィードバックを通じて「自然な対話」「分かりやすさ」に最適化された
➡ 話し相手としてちょうどいい理由は、学習量×会話特化のチューニングのおかげ
誤解されがちだが、ユーザーの会話をそのまま学習することはしていない。
事前学習で人間的なやりとりを学びまくった結果、おしゃべりが上手になった。
GPTは計算機ではなく、言語パターンに基づく予測機械
数式の扱いも「よくある解法のパターン」で再現しているだけ
ただし、例題が多い分野(中学・高校数学など)には強い
➡ 「計算」より「例題記憶」で解いている側面が強い、文系脳
➡ LLMが得意とする数学分野と、そうでない数学分野があるのがミソ
GitHub上の大量のコードや、技術サイトの内容を学習しているのが理由
関数の使い方や構文だけでなく、人間がどういう意図でコードを書くか理解できるようになっている
➡ GPTはパターン化された言語のコードを書くのが得意!
例:Python、Javascript、Typescript、Java、C#、HTML・CSS など
特にPythonとJavaScriptは、文法の揺れが少ない+学習データが圧倒的に多いので大得意。
➡ ただしマイナー言語(Haskell、Rust、Nim、Zigなど)にはめっぽう弱い
➡ ハードウェア制御特化言語(Verilog、VHDLなど)はびっくりするぐらい苦手
とにかく「指示の解釈力」に優れており、曖昧な質問でも補完して回答ができてしまう
これは、巨大な訓練データと文脈をつかむTransformer構造によるもの
➡ GPT特有の文脈理解能力によるものが大きい
GPTは、計画的に進化してきた大規模言語モデルです。
歴史から分かるように、幅広い知識を扱えるように設計され、文章・コード・会話に強い万能タイプへと進化してきました。
「特化型AI」ではなく「柔軟対応型AI」としての資質が、ChatGPTの人気を支えているんですね。