松尾豊「私の人工知能研究者としてのキャリアとともにある本であり、私の考えを形作った本でもある」——『考える脳 考えるコンピューター〔新版〕』解説特別公開
脳と同様にはたらく機械や人工知能は、はたして実現可能なのか? 脳と人工知能の決定的な差異は、どこにあるのか? ChatGPTをはじめとする生成AIに世界的に関心が集まる現在、今なおその答えを求められ続けている根源的な問いかけを2000年代前半の時点で提示し、「知能の本質」に迫った名著『考える脳 考えるコンピューター〔新版〕』(ジェフ・ホーキンス、サンドラ・ブレイクスリー [著]、伊藤文英 [訳]、ハヤカワ文庫NF)が発売中です。
著者のひとりは『脳は世界をどう見ているのか』(大田直子[訳]、早川書房)のジェフ・ホーキンス。脳と知能にまつわる彼の思考の原点に、新たな序文を付してアップデートをしたのが本書になります。
そして、新版の刊行にあたっては、人工知能研究者の松尾豊(東京大学大学院工学系研究科教授・内閣府「AI戦略会議」座長)さんにご解説をいただいています。
いま第一線で活躍されている松尾さんが「私の人工知能研究者としてのキャリアとともにある本」、「私の研究者としての考えを形作った本」と語る本書。その魅力がまとめられたご解説を、今回の記事では特別公開いたします!
解説
東京大学大学院工学系研究科教授
松尾 豊
この本は私の人工知能研究者としてのキャリアとともにある本である。2002年に大学院の博士課程を修了し、新米の研究者としてAIの活動を始めてすぐ、先輩の研究者から勧められて読んだ。そして、衝撃を受けた。何度も繰り返し読んだ。これほど繰り返し読んだ本は後にも先にもないというくらい精読した。その後の私の研究者としての考えを形作った本である。
この本の最も重要なメッセージは、知能の本質は予測である、ということである。大脳新皮質は予測のための生体組織であり、知的な能力はここに起因している。予測が重要であるという説はそれまでにもあったわけだが、本書では、それを大胆に言い切っている。あるときはAIの技術から、あるときは脳にひもづけて、分かりやすく解説している。随所に技術者らしい本質をついた説明や実装のヒントが散りばめられている。知能の本質が予測であるという、シンプルで正しいメッセージを、2004年という早い時期に見抜いていたホーキンスには驚嘆の念を禁じ得ない。
この重要なメッセージを人工知能研究者としてのキャリアの初期に理解していたからこそ、その後、私は予測についてずっと考え続けることになった。それまで人工知能の分野で推論やデータマイニングといった研究をしていたが、いまひとつ知能に近づけない気がしていた。予測をするための教師なし学習(今日では、自己教師あり学習と呼ばれることが多い)に何かヒントがあるはずだと思っていた。そして、ホーキンスが提唱するモデルとは異なってはいたが、2012年、ジェフリー・ヒントンらによって深層学習が目覚ましい成果を挙げたときも(最初は教師なし学習の活用からであった)、これは相当なインパクトをもたらすとすぐに直観することができた。
この本が書かれた当時のことを、想像していただきたい。2004年は深層学習の登場以前であり、画像認識でネコを分類することもできなかったし、まともな音声認識もなかった。チェスでようやくAIが人間に勝ったくらいで、将棋や囲碁などは全く相手にならなかった。しかし、本書では、視覚野の仕組みについて、CNN(畳み込みニューラルネットワーク)の仕組みとほぼ同じようなことが書かれている。さらには、今日、生成AIとして注目されているような深層生成モデル(エンコーダとデコーダの組み合わせ)と同じことが書かれている(例えば、56ページは自己符号化器)。また、190ページで述べられる「シーケンスのシーケンス」が蓄えられるという仕組みは、今でいうトランスフォーマーの仕組みに近い。トランスフォーマーは、ChatGPT等に使われる大規模言語モデル(あるいは基盤モデル)のベースとなる技術であり、自己注意という機構を使って、ニューラルネットワークを上がってくる情報(Queryとよぶ)に対して、その分類基準(key)の近さが計算され、それに応じて異なる処理(Value)が行なわれるという仕組みになっている。本書では、200ページから201ページに、色の異なる紙を分類するという説明があるが、まさに、トランスフォーマーでは分類がされるし、分類の基準自体も学習がされる。そして、こうした処理が階層的に行なわれることで、「シーケンス」の「シーケンス」が蓄えられる。そういう意味では、ホーキンスが描いたアーキテクチャが見事に実現されている。
また、大規模言語モデルを構築する際、自己教師あり学習という方法を用いる。例えば、文を途中まで読み込ませて、次の単語を当てるnext word prediction(次の単語予測)という学習方法が一般的である。141ページから142ページの、「酒は百薬の…」ときて「長」と予測する部分などは、まさに、next word predictionそのものである。116ページでは画像に関して、入力の一部からほかを復元(予測)すること、143ページでは視野の充填についても語られている。これも、自己教師あり学習としての画像のinpainting(修復)として知られる処理に該当し、当時はほぼ誰も指摘していなかったが、現在のAIでは基本となっている技術である。
このように、本書は、多分に予言的な本であり、2004年からの約20年間で、AI技術の進展によって多くの予言が現実のものになった。とはいえ、未だに実現できていない部分もまだまだ多い。154ページに書かれているように、何かを予測し、運動の命令が発せられて、結果的に行動が実現されるという仕組みは、まだ実現されていない。時間の扱いに関してもまだうまく扱えていない。それが証拠に、人間のように柔軟に習熟して動くロボットはまだできていない。映像や音声、ロボットの制御など、すべてを同一アルゴリズムで扱うという、マウントキャッスルの法則にかなうような技術はまだできていない。結果として、大域的な脳の仕組みの解明には今のところ至っていない。ただ、本書の主張が根本的に間違っているとは考えにくく、おそらく本書が予言するようなことは数年から十数年のうちに実現してくるのではないかと思う。
今回、解説を書くにあたって、久しぶりにこの本を最初から読み直した。改めての発見も多かった。20年前に初めて読んだときは、脳についてはよく分かっていなかった。その後、私なりに、いろいろと脳についても勉強をした。今から読むと、本書全体の構成もよく分かるし、各所で出てくる例え話も、脳の独り言も、本当に分かりやすく書かれていると思う。この本の内容自体は、ホーキンスが述べる通り、多くの文献や知見をもとに組み立てられており(例えば、脳の予測機能や階層性に関しては予測符号化という有力な説がある)、本書に書かれていないことや今となっては違うのではと感じる部分もあるが、それでもAIと脳をつなぐものとして今でも秀逸な出来の本だと思う。私自身の研究者としてのキャリアと重なっているという想いのせいかもしれないが、ホーキンスの近著『脳は世界をどう見ているのか 知能の謎を解く「1000の脳」理論』よりも、こちらのほうが名著ではないかと思う。なぜなら、知能の本質が予測であるというひとつのメッセージを、あの時代に見事に言い当てているからである。
本書第8章「知能の未来」に書かれた、産業や社会への影響の予測も秀逸である。発刊から20年近くたって、我々は答え合わせをすることができるのだが、310ページに将来の実用可能性として挙げられた三つの応用のうち、実際に、音声認識と視覚情報処理(画像認識)は実現した。音声認識や顔認証はスマホに普通に搭載されている。もうひとつの自動運転はまだ普及していないが、実用化に向けて着々と進んでいる。つまり、三つとも見事に当たっているのだ。その他、書かれていることのなかでは、天気を予報するAIはできているし、タンパク質の折りたたみ問題を解くAIもできた。さすがに、ChatGPTのような「会話をする」AIが一気に広まるとは予想できなかったようだが、それでも、2004年の時点でここまで未来を予測しているとは驚異的である。
生成AIが大きく話題になっているこの時代、知能という観点から、脳とAIを見比べることはとても重要だ。端的に言えば、新皮質は予測のための器官であり、AIによって実現し得る。一方で、本能や感情を司る旧脳、身体やさまざまな感覚は人間に特有のもので、コンピュータで実現することは不可能か、あるいは無意味だ。この違いをしっかり理解することは重要であり、人工知能に関する懸念やリスクを議論する上でも、議論の土台となる。AIの進展が世界全体で注目される今だからこそ、2004年発刊の、このホーキンスのシンプルで力強いメッセージをぜひ読んで欲しいと思う。そして、コンピュータの、そして人間の知能とは何か、そして我々がどういう社会を作っていくのか、ぜひ考えを巡らせて欲しい。
2023年6月
【電子書籍版も同時発売中です】
◆書籍概要
『考える脳 考えるコンピューター〔新版〕』
著者:ジェフ・ホーキンス、サンドラ・ブレイクスリー
訳者:伊藤文英
出版社:早川書房
本体価格:1180円
発売日:2023年7月22日
◆著者紹介
ジェフ・ホーキンス (Jeff Hawkins)
1957年生まれ。神経科学者、起業家。神経科学とAIの研究を行なうヌメンタ社の共同創業者、チーフサイエンティスト。1979年にコーネル大学で電気工学の学士号を取得後、インテルのソフトウェア・エンジニアとして数年間働く。1986年にカリフォルニア大学バークレー校で神経科学の博士課程に進学後、1992年にパーム・コンピューティングを設立し、現在のスマートフォンの先駆けとなる携帯情報端末「パームパイロット」を開発。2002年にレッドウッド神経科学研究所を、2005年にヌメンタ社を設立。近著に『脳は世界をどう見ているのか』(早川書房刊)がある。
サンドラ・ブレイクスリー (Sandra Blakeslee)
科学ライターとして、30年以上にわたりニューヨーク・タイムズ紙で科学と医学の記事を執筆。著書に『脳のなかの幽霊』(V・S・ラマチャンドランとの共著)、『脳はすすんでだまされたがる』(スティーヴン・L・マクニック、スサナ・マルティネス=コンデとの共著)など。
◆訳者紹介
伊藤文英 (いとう・ふみひで)
翻訳家。1958年生まれ。大阪大学大学院基礎工学研究科物理系専攻博士前期(修士)課程修了。訳書にボダニス『E=mc2』(共訳、早川書房刊)、ベイカー『NUMERATI ビッグデータの開拓者たち』、コックス&フォーショー『クオンタムユニバース 量子』、ムラー『〈いま〉とは何か』など多数。