AIはいったい何を「学習」しているのか…「生成AIにできて、コンピュータには決してできないこと」とは
プレジデントオンライン / 2023年10月1日 9時15分
※本稿は、清水亮『検索から生成へ 生成AIによるパラダイムシフトの行方』(MdN)の一部を再編集したものです。
■なぜ「時計」というだけで「時計の画像」ができるのか
生成AIとは、そもそもなんなのでしょうか。
きわめて簡単に言えば、「画像や文章、会話やプログラムや音楽や映像を生成するAI」のことです。生成AIが最初に話題になったのは2022年の夏ごろ、「Midjourney(ミッドジャーニー)」や「Stable Diffusion(ステーブルディフュージョン)」が登場したころです。さらに2022年末には会話を生成する「ChatGPT(チャットジーピーティー)」が登場し、多くの人の目に触れるようになりました。
・画像生成AI=Midjourney、Stable Diffusionなど
・文章生成AI=ChatGPT、BingAIチャットなど
生成AIに人々が驚いたポイントはいくつかあります。
たとえば、画像を生成するAIは、言葉で簡単な指示を与えるだけで、驚くほど精緻な画像を作り出します。
ChatGPTも、わずかな指示を与えるだけで見事なプログラムを書いたり、辻褄の合った物語を生成したりすることができます。
それにしても、機械が画像なり文章なり、なにがしかの「意味ありげなもの」「創作物のように見えるもの」を「生成する」というのは不思議なことに思えます。
一体全体なぜ、そんなことができるのでしょうか。
本稿ではその原理を紐解いてみようと思います。
■コンピュータとAIは真逆の存在
まず大前提として知っておかなければならないのは、コンピュータとAIは直接なんの関係もないということです。
たとえば、三目並べを解く方法を学習する機械は、コンピュータのような複雑な機構を用いなくても、マッチ箱とビーズだけで再現できることがよく知られています。
現代のデジタルコンピュータの起源は、ジャカード織機(しょっき)という、機(はた)織り機です。18世紀のイギリスでは、氏族を表す柄のタータンチェックの服を着るという決まりがあり、この複雑な模様を自動的に織るための機械が開発されました。
あるパターンを繰り返しながら、どの色の糸がどの順番でどの色の糸の上に来るのかを決めるための穴のあいたカードを繋げたもので表現していました。
■コンピュータの可能性と限界は表裏一体
これにヒントを得た発明家のチャールズ・バベッジとエイダ・ラブレスは、ジャカード織機の穴あきカードを応用した計算機の構想を練ります。
これが解析機関(アナリティカル・エンジン)と呼ばれる世界最初のコンピュータの設計の一つです。バベッジは解析機関の前に階差機関(ディファレンス・エンジン)も設計していましたが、資金難で開発が頓挫したため、解析機関を新たに設計します。
![完全なメッシュで接続されたシンシナプスと円ニューロンを持つニューラルネットワークモデル](https://president.ismcdn.jp/mwimgs/8/5/1200wm/img_85a2a73e76e6146fd07cdda529de6230550428.jpg)
エイダは類稀なる数学の才能を持つ女性で、バベッジの示した解析機関の講義を聞いて、「解析機関は、手順を説明可能ならばどのような処理もできる自動機械である」と考えました。これは、そっくりそのまま、現代のコンピュータの原理に当てはまります。
逆に言えば、コンピュータの限界も同時に示されていました。
つまり、コンピュータという機械は、「手順を説明されなければなにもできない機械」でもあるわけです。
■「説明なしで学ぶ」を実現したAI
これに対し、AI、とくに最近注目されているディープラーニングに用いられるAIは、人工ニューラルネットワークと呼ばれています。人工ニューラルネットワークの目的は、「手順を説明することなく、入力と欲しい出力だけを示せば、その過程を自動的に学習する機械」です。
コンピュータに必須であったはずの「手順の説明」を丸ごと省こうというのが人工ニューラルネットの根底にある考え方です。
「そんなことがはたして本当にできるのか」
そんな疑問を誰もが持ちました。
しかし、手順はわからないものの、人間はもちろん、小さなネズミやハチだって、胎児や幼虫から成長する過程で「なにかを学び」とっていることは疑いようのない事実です。
原理の説明は無理だけれども、こうした動物の持つ神経回路網(ニューラルネットワーク)の構造を人工的に再現することで、動物と同じように「説明なしで学ぶ」ことができないものか、それに取り組んできたのが人工ニューラルネットワークの研究の歴史です。
■コンピュータが不要になる未来が訪れる
人工ニューラルネットワークは、前述したようにマッチ箱とビーズのような素朴なものでも作ることができます。しかし、それを使って学習したり推論したりする作業は膨大なものになります。
そして、人工ニューラルネットワークがいかに「説明不能なものの関係を学習できる」機械だとしても、それが機械である以上は、必ず「学習する手順」と「推論する手順」は説明可能でなければいけません。そして、説明可能なものであればどんなものでも扱えるのがコンピュータという自動機械ですから、人工ニューラルネットワークの研究にとっては、コンピュータというのは都合のいい道具なのです。
要するにいま、コンピュータの上で人工ニューラルネットワークが動いているのは、たまたま都合がいい道具があったから、というだけの理由です。今後もっといい道具が登場すればそちらに乗り換えるでしょう。実際、いまのコンピュータとは違う形態のハードウェアという意味で、さまざまな方式のAI専用チップが研究開発されています。
さて、いまでは単にAIと言えば人工ニューラルネットワークを指すようになりました。巷で話題のGPTもMidjourneyもStableDiffusionもすべて、人工ニューラルネットワークです。
■人工ニューラルネットワークが可能にしたこと
人工ニューラルネットワークが急速に発展したことで、これまで到底不可能に思えたことが次々と実現しました。
初期の人工ニューラルネットワークは、たとえば単純な信号のパターンを学習できるか、という素朴な問題から始まり、しだいに、郵便ハガキに手書きで書かれた数字を読み取ったり、猫と犬の写真を見分けたり、人間個人を識別するといった、より高度で人間にも難しい問題を次々と解いていきました。
と言っても、この間に50年近い月日が流れています。
2000年代に入ると、人工ニューラルネットワークの研究は飛躍的に加速し、ついに2012年には実用的なレベルまでやってきます。それには次のような要因がありました。
■AIの発展には人類の発展が必須だった
・大規模なデータセット:インターネットが発達したことで、膨大な量のデータ、とくにテキストと画像が利用可能になり、AIモデルはこれらのデータセットからパターン、構造、およびコンテキストを学習できるようになった。
・高度な機械学習アルゴリズム:ディープラーニングや強化学習などの機械学習アルゴリズムの進化により、コンテンツを理解して生成できる複雑なモデルの開発が可能になった。
・計算能力:ゲームや映画で利用されていたGPU(Graphics Processing Unit:画像処理装置)が高性能化し、低価格になったことで、GPUを使ったスーパーコンピュータが誕生したこと。さらに最近は研究が進み、特殊なAIチップなどの計算リソースの成長により、大規模なAIモデルのトレーニングと展開が加速している。
・共同研究:オープンソースツール、共有データセット、研究論文により、世界中の研究者が学会の開催を待たずとも互いの研究を発展させることができ、その結果、生成AIの分野が急速に進歩したこと。
AIが発展するためには、まず先に人類の発展が必要だったのです。
人類が情報技術を操り、膨大な情報をいったんは情報プラットフォーム、つまりインターネット上に保存し、公開し、交換するようになったことで、初めてAIが生まれるための下準備が整ったということです。
■なぜAIは文章や画像を生成できるのか
「なぜ生成できるのか?」
多くの人はこんなふうに疑問に思うかもしれません。
「AIが発展したことは理解した。けれども、手書きの数字や犬や猫を認識したり、人の顔を見分けたりするのと、文章や映像を生成したりするのはまったく違うことではないだろうか。なぜそれが生成できるということになるのか」
実は、AIにとっては、これらの処理はすべて同じ処理なのです。
簡単に図で説明しましょう。数式も出てきますが中学生が習う程度のものなので身構える必要はありません。
AIの学習過程を説明したのが図表1です。
![AIの学習過程①](https://president.ismcdn.jp/mwimgs/c/0/1200wm/img_c0cbe1d36d750ef1a4cc62a989f8c648123796.jpg)
■「学習」とは、定数の微調整を繰り返すこと
AIをひじょうにざっくりと数式で表すと、y=f(x)となります(これは高校の数学Iで学びましたね?)。
xが入力、yが出力であり、f(x)という関数が、AIということになります。
そして欲しい出力をTとすると、Tとyの差が小さくなるように学習するのがAIというわけです。「学習」と言うとすごく大雑把に聞こえると思いますが、実はfのなかの定数を微調整しているだけです。
たとえばAIが手書き数字を分類する場合、入力は手書き数字の画像で、欲しい出力はその画像がなんの数字であるかという答えです。
![AIの学習過程②](https://president.ismcdn.jp/mwimgs/1/2/1200wm/img_1210163280623b9da18de4ee5168f877138818.jpg)
これだけあれば、あとはAIが勝手に学習してくれます。
猫か犬か見分けるのも同様です。
![AIの学習過程③](https://president.ismcdn.jp/mwimgs/c/7/1200wm/img_c74e212fb3181060625a28acf28a37d9141172.jpg)
同じように、質問に答えるAIが欲しければ、質問と答えを学習させます。
![AIの学習過程④](https://president.ismcdn.jp/mwimgs/d/d/1200wm/img_dd202b203c87793dce2278104227f098144760.jpg)
■学習するにつれて「?」が正解に近づいていく
言葉から画像が欲しければ、言葉を入力に与えて画像を欲しい出力として示すだけです。
![AIの学習過程⑤](https://president.ismcdn.jp/mwimgs/1/4/1200wm/img_14a53af75237e9db00759d9be76fb14f150288.jpg)
出力のところが「?」なのが気になる人がいるでしょう。
そこにはなにが入るのか?
それは私にもわかりません。
と言うのも、この「?」の中身は、AIが学習する過程によってまったく変わってくるからです。
まったく学習していないAIなら、「?」の中身はデタラメで意味のないものになりますし、学習がかなり進んだあとなら、「?」の中身は見事な正解になっているかもしれません。
■教師AIが生徒AIを学習させる「蒸留」
学習というのは、AIのなかにある定数を調整することを意味します。この調整には膨大な計算が必要で、定数の数も、規模が大きいものでは数千億個といった膨大なものになります。
また、一度学習したAIに対して、新しいデータセットで微調整をかける学習を行うことができます。これをファインチューニングと言います。
![AIの学習過程⑥](https://president.ismcdn.jp/mwimgs/e/5/1200wm/img_e542bfacaf6e3a320d9b73b95bb3f395189034.jpg)
さらに、大規模で高性能なモデルを教師AIとして、小規模なモデルを生徒AIとして学習させることを「蒸留(distillation)」と言います。
![AIの学習過程⑦](https://president.ismcdn.jp/mwimgs/5/9/1200wm/img_597d090992887609e2ba49edaa4b8861191361.jpg)
■ChatGPTのコスト問題も解決に向かっている
AIは蒸留しても性能がほとんど落ちないことがよく知られています。
![清水亮『検索から生成へ 生成AIによるパラダイムシフトの行方』(MdN)](https://president.ismcdn.jp/mwimgs/1/a/1200wm/img_1ab3d0d70683b77202c523c93779b677539632.jpg)
実は、扱おうとする問題に対して、AIの規模(パラメータ数)が多すぎるかもしれない、という状態はよくあります。
「GPT-3」のような大規模言語モデルは学習データに対して規模が大きすぎないか確証がないまま1750億という超巨大なモデルを学習させました。そのために数百億円の機材と数億円の電気代、一日7000万円とも言われる維持費が必要になりました。
しかし、GPT-3も蒸留すればもっと小さなモデルで同等以上の性能が出せる可能性を指摘され、実際にいくつもそうしたモデルが現れ始めています。
----------
AI研究者、プログラマー
新潟県長岡市生まれ。AIスペシャリスト。プログラマーおよび上級エンジニア経験を経て、1998年に株式会社ドワンゴに参画。2003年に独立し、以来20年で12社の設立に関わるシリアルアントレプレナー。2005年、IPA(情報処理推進機構)より「天才プログラマー/スーパークリエータ」として認定。2017年、2018年 内閣府知的財産戦略本部「新たな情報財検討委員会」委員。2018年から2023年 東京大学客員研究員。2019年、2020年 一般社団法人未踏とNEDOによる「AIフロンティアプログラム」メンター。著書に『よくわかる人工知能』(KADOKAWA)、『はじめての深層学習(ディープランニング)プログラミング』(技術評論社)、『最速の仕事術はプログラマーが知っている』(クロスメディア・パブリッシング)、『教養としての生成AI』(幻冬舎)、『プログラミングバカ一代』(共著、晶文社)がある。
----------
(AI研究者、プログラマー 清水 亮)
外部リンク
この記事に関連するニュース
-
画像基盤モデルにより専門医に匹敵する膀胱内視鏡診断支援AIを開発
PR TIMES / 2024年7月12日 16時45分
-
IEEEが提言を発表 フィットネストラッカーでこころの健康について分かること
@Press / 2024年6月28日 11時0分
-
HCLTech、計算知能(CI)分野で世界最大の国際会議「IEEE WCCI 2024」と共同開催の「国際ニューラルネットワーク共同会議」に登壇
PR TIMES / 2024年6月24日 15時45分
-
窓辺の小石 第171回 世界の中心でAIを叫んだだけのもの
マイナビニュース / 2024年6月21日 18時59分
-
「最新の生成AI」はすでに人類の半数以上よりアタマが良い…落合陽一「今後、人類の働き方は大きく変わる」
プレジデントオンライン / 2024年6月21日 9時15分
ランキング
-
1実は「ポイ捨て」しまくっていたキャベツの栄養 科学で解明「芯はおいしくない」と思うなかれ
東洋経済オンライン / 2024年7月15日 15時0分
-
2「子どもは無料」で簡単につられる大人たちの盲点 企業側の仕掛けには「わかったうえで」乗りたい
東洋経済オンライン / 2024年7月16日 9時0分
-
3カップみそに入ってる「白い紙」は捨てる?捨てない? 気になるギモンをメーカーが解説!…正解は?
まいどなニュース / 2024年7月16日 14時35分
-
4「これは奇跡...」破格の1人前"550円"寿司ランチ。もうこれ毎日通いたい美味しさ...。《編集部レポ》
東京バーゲンマニア / 2024年7月16日 7時2分
-
5“新しい働き方”として定着すると思いきや…コロナ禍を経た今になって、強硬な「リモートワーク廃止論」を示す企業が現れた理由
THE GOLD ONLINE(ゴールドオンライン) / 2024年7月16日 7時15分
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/mission_close_icon.png)
記事ミッション中・・・
記事にリアクションする
![](/pc/img/mission/point-loading.png)
エラーが発生しました
ページを再読み込みして
ください
![](/pc/img/mission/mission_close_icon.png)