【OpenAI CEO サム・アルトマン絶賛!「最高の解説書」】『ChatGPTの頭の中』監訳者解説特別公開
ChatGPTの開発元であるOpenAIのCEO、サム・アルトマンが「最高の解説書」と絶賛した『What Is ChatGPT Doing … and Why Does It Work?』。
その翻訳版である『ChatGPTの頭の中』(スティーヴン・ウルフラム、高橋聡訳、稲葉通将監訳、早川書房)が発売しました。近年、急速に関心が高まっているChatGPTや生成AIについて、その基礎的な技術や今後の可能性を理解するにあたって最適な一冊となっております。
また、本書は稲葉通将さん(電気通信大学人工知能先端研究センター准教授)にご監訳をいただきました。今回の記事では、稲葉さんによる「監訳者解説」を特別公開いたします。
監訳者解説
本書は理論物理学者であり、数学ソフトMathematicaや質問応答ソフトWolfram|Alphaの開発で知られるスティーヴン・ウルフラムによるChatGPTの解説書である。第1部ではChatGPTは前から順に確率に基づいて単語を足していくことで文章を生成していることを最初に説明する。次に、ニューラルネットワークの概要とその訓練方法、およびニューラルネットワークの中で単語をどのように数値で表現するかという「埋め込み」の概念について解説する。その後、ChatGPT、GPT-2、GPT-3で使われているトランスフォーマーというニューラルネットワークアーキテクチャの仕組みと訓練方法、そしてその能力についていくつかの実験を交えて説明する。第2部ではWolfram|AlphaとChatGPTを組み合わせることで、様々な課題を解くことができることを、具体例を交えて解説している。
このように本書はChatGPTについて詳しく解説を行なっているが、いくつかの実験や分析はGPT-2を用いて行なっている。読者の中にはGPT-2やGPT-3とChatGPTはどこが違うのか、またその性能の差はどこからくるのか、といった点に関して興味を持った方もいるかもしれない。また、2023年3月に発表されたGPT-4については原著の発売よりも後の話である。そこで本解説では、そのあたりの補足を行なう。
まず、GPT-2とGPT-3の違いであるが、これはそれぞれが持つパラメータの数と訓練データの量である。GPT-2のパラメータ数は16億、GPT-3のパラメータ数は1750億であり、100倍以上の差がある。なお、ChatGPTはGPT-3と同じ1750億である。また、GPT-4はパラメータ数が公開されていないが、2000億~1兆程度であると予測されている。訓練データの量は、GPT-2は約40GB、GPT-3は約570GBであり、こちらも大きく増加している。
GPT-3のようなモデルの性能はパラメータ数、データ量、計算量を変数にしたべき乗則に従うことが実験的に分かっており、このことはスケーリング則[1]として知られている。これは例えばモデルのパラメータ数を2倍にしたとき、その性能は2のべき乗倍向上するということを意味している。実験的にパラメータ数、データ量、計算量は多くすればするだけ性能が向上することが分かっており、GPT-2とGPT-3の差はその影響が大きいのである。
さらに興味深いことに、スケーリング則にはその有効範囲に上限が今のところ確認されていない。つまり、この3つの変数を上げ続ければ無限に性能が向上する可能性がある。ただし、性能を1から2に上昇させるために必要なパラメータ数が、性能が1のときの10倍必要だったとすると、2から3にするには性能が1のときの100倍、4にするには1000倍必要になるという計算になり、必要なパラメータの量に対する性能向上の幅は小さくなっていく。また、訓練データにはウェブ上に存在するテキストデータを用いる場合がほとんどであるが、近い将来データが枯渇することも指摘されている[2]。よって、さらなる性能の向上には新たな技術革新が必要である。
次に、GPT-3とChatGPTの違いについて説明する。重要な点として、GPT-3をはじめとする大規模言語モデルは文章の続きを生成するモデル(p10)であるということである。問題は、文章の続きを生成することとチャットの応答を生成することは求められることが異なるということである。具体的には、文章の続きを生成する際は文章の意味が通っていればそれで良いが、チャットの応答は意味が通っているだけではなく、人が好む応答である必要がある。そこで、ChatGPTでは大規模言語モデルに人が好む応答をさせるため、RLHF(ReinforcementLearning from Human Feedback:人間のフィードバックに基づく強化学習)という手法を用いて学習を行なっている。
RLHFは3つのステップからなる。第1ステップは教師あり学習である。人間とAIの理想的なやり取りを人手により作成し、そのデータを用いて大規模言語モデルを学習する。これにより、モデルはある程度人が好む応答が生成できるようになる。
第2ステップは強化学習を行なうための報酬モデルの学習である。報酬モデルは大規模言語モデルが生成した「応答の良さ」をスコア付けするモデルである。応答の良さとしては「噓やデマを含まないこと」「差別的・攻撃的な内容を含まないこと」「ユーザの役に立つこと」の3点を基準としている。報酬モデルの学習の方法は以下の通りである。まず第1ステップで学習済みのモデルにより、入力文に対する複数の応答候補を出力させる。次に、人間がその複数の応答に対して順位付けを行なう。順位付けは前述した3点の評価基準により行なう。そして、報酬モデルはその順位を予測できるように学習する。
第3ステップは強化学習である。第1ステップで学習した大規模言語モデルを、報酬モデルにより得られるスコアを最大化するようにさらに学習を行なう。さらに、ある程度学習が進んだら第2ステップに戻り、報酬モデルの再学習を行なうということを反復的に行なう。上記のステップにより、大規模言語モデルは人が好むより良い応答を出力できるようになる。
最後にChatGPTとGPT-4の違いであるが、これはOpenAIがGPT-4のアルゴリズムやパラメータ数、訓練データの量などを公開していないため、詳細は不明である。したがって、(可能性は低いと思われるが)本書で説明されている学習方法や言語処理方法とは全く異なる方法で文章を生成している可能性もある。ただ、おそらくはChatGPTと類似したアルゴリズムを用いつつ、スケーリング則に基づきパラメータ数、データ量、計算量のすべてを増加させたモデルであると考えられている。OpenAIにより公開されているChatGPTとの違いとしては、まず入力できるプロンプトが長いことが挙げられる。ChatGPTでは最大16000トークン(日本語の場合13000文字程度)であったが、GPT-4では最大32000トークンまでの入力が可能である。また、2023年6月の時点では一般公開はされていないが、テキストだけではなく画像も入力することができ、画像の内容について説明させることも可能である。さらに、性能も大きく向上しており、GPT-4はアメリカの司法試験や学力テスト[3]、日本の医師国家試験[4]などで合格点を叩き出すほどになっている。これらはChatGPTでは達成できなかったことである。
GPT-4を用いて構築されたBingAIについても少し触れておく。BingAIはMicrosoft社が開発したAIであり、同社の検索エンジンであるBingをGPT-4と組み合わせることで構築されている。ChatGPTは言語的には自然な文章を生成可能であるが、計算問題や訓練データに含まれていない事実については正しく出力されない場合が多い。そこで本書ではWolfram|AlphaとChatGPTを組み合わせる方法を紹介しており、ChatGPTだけでは正しく回答できない質問にうまく答えられる例がいくつか説明されている。しかし、BingAIはウェブ上の情報を参照して応答を生成するため、ChatGPTでは回答できない質問に正しく回答できる場合がある。例えば、本書ではChatGPTが答えられない例として「シカゴから東京までの距離は?」(p135)という質問が挙げられているが、BingAIは「シカゴから東京までの距離は、約6,260マイル、約10,070キロメートルです」のように適切な回答を返すことが可能である。一方で、「3の73乗は?」(p139)と聞くとBingAIは誤った回答(「42,701,625,700,000,000,000,000,000」)を返すなど完璧ではなく、本書で紹介されたWolfram|AlphaとChatGPTを組み合わせる優位性はいまだ存在している。
参考文献
[1]Jared Kaplan, Sam McCandlish, Tom Henighan,Tom B. Brown, Benjamin Chess, Rewon Child, ScottGray, Alec Radford, Jeffrey Wu, Dario Amodei (2020).Scaling Laws for Neural Language Models. ArXiv,abs/2001.08361.
[2]Pablo Villalobos, Jaime Sevilla, Lennart Heim,Tamay Besiroglu, Marius Hobbhahn, Anson Ho (2022).Will we run out of data? An analysis of the limits ofscaling datasets in Machine Learning. ArXiv, abs/2211.04325.
[3]OpenAI (2023). GPT-4 Technical Report. ArXiv,abs/2303.08774.
[4]Jungo Kasai, Yuhei Kasai, Keisuke Sakaguchi,Yutaro Yamada, Dragomir Radev (2023). EvaluatingGPT-4 and ChatGPT on Japanese Medical LicensingExaminations. ArXiv, abs/2303.18027.
◆書籍概要
『ChatGPTの頭の中』
著者: スティーヴン・ウルフラム
訳者: 高橋聡
監訳:稲葉通将
出版社:早川書房
本体価格:920円
発売日:2023年7月19日
◆著者紹介
スティーヴン・ウルフラム (Stephen Wolfram)
理論物理学者。1959年ロンドン生まれ。1980年カリフォルニア工科大学で理論物理学博士号を取得。1987年に数式処理システム「Mathematica」や質問応答システム「Wolfram|Alpha」の開発で知られるソフトウェア開発企業「ウルフラム・リサーチ」を創業、現在もCEOを務める。映画『メッセージ』(2016)では異星人の使用する文字言語の解析や、恒星間航行に関する科学考証を担当。
◆訳者略歴
高橋 聡(たかはし・あきら)
翻訳者。1961年生まれ。翻訳会社勤務を経て、2007年からフリーランス。日本翻訳連盟副会長。著書に『1秒でも長く「頭」を使いたい 翻訳者のための超時短パソコンスキル大全』など。訳書にブテリン『イーサリアム』、ウォン『現代暗号技術入門』、ポイボー『機械翻訳』。
◆監訳者紹介
稲葉通将(いなば・みちまさ)
電気通信大学人工知能先端研究センター准教授。1986年生まれ。2012年3月、名古屋大学大学院情報科学研究科社会システム情報学専攻博士後期課程短縮修了。同年4月より広島市立大学大学院情報科学研究科知能工学専攻助教、2019年4 月より現職。共著に『IT Text 深層学習』、『Python でつくる対話システム』、『人狼知能』。