1. トップ
  2. 新着ニュース
  3. IT
  4. IT総合

国会図書館デジタルコレクションのリニュアルとChatGPT

ASCII.jp / 2023年1月31日 9時0分

241万冊をグーグル感覚で検索するのは気持ちいい

 2022年の暮れも押し迫った12月21日に、国立国会図書館デジタルコレクションがリニュアルした。イーストのSさんに教えてもらってすぐにアクセスしてみたのだが、これが私のような人間にはめちゃめちゃ興奮するし役に立つし楽しいものになっていた。

 遠隔複写のための利用者登録をしたばかりだったので、今回のリニュアルがいかに画期的なものかがよく分かる。国会図書館の蔵書のうち、本、雑誌を中心に《約247万点》の全文検索ができるようになったのだ(これまでの50倍に一気に増えた)。

 全文検索ということは、1冊の本の中身の一字一句もらさず検索して洗い出してしまえるということを意味する。グーグル感覚という言い方がいちばん分かりやすいだろう。

 試しに、個人的に昨年から調べていた「秋葉三尺坊」という平安末期に生まれたお坊さんの名前を入力してみる。すると1秒かそこらで、1415件もの検索結果が出てくる。いまの一般の日本人には、「秋葉三尺坊なんて聞いたこともない」という人がほとんどだと思う。それが、検索結果の本や雑誌の表紙とともに、まさに検索エンジンよろしくスニペット(検索語の前後数十文字)とともにズラリと並んで出てくる。

国立国会図書館デジタルコレクションで「秋葉三尺坊」を検索してみた結果画面。閲覧画面の改善なども今回のリニュアルのポイントとなっているがこの画面もよく考えられている。

 思わず「ふふふ」と不敵な笑みをうかべてしまいたくなる全能感(秋葉三尺坊の検索結果については、あとでもう少し詳しく触れることにする)。

 国会図書館の蔵書は、書籍が1192万7978点、雑誌が1319万7995点(2021年時点)だそうだ。これらの数字がどれだけのものかというと、日本の年間の本の出版点数は、1990年に書籍が約4万点、2013年をピークに2020年で約7万点となっている。約247万点は、単純に数字では国会図書館の全蔵書の10分の1程度ということになるが、なかなかの数字であることがわかる。ちなみに、デジタル化されている資料全体では、書籍128万点、雑誌135万点、そのほか古典の貴重書、博士論文、官報など合計約311万点だそうだ。

 もっとも、ここにはひとつ落とし穴っぽいものがあって、全文検索の対象となるのは書籍が「明治以降1987年までに受け入れた本」、雑誌は「明治期以降に刊行の雑誌で刊行後5年以上経過したもの」に限られる。これを聞くと、ごく最近のことがらについて調べたい人にとっては「なーんだ」となるかもしれない。

 しかし、私のような調べものが大好きな人間にとっては、まったく気にならないくらい革命的なできごとなのだ。

 なお、デジタル化された資料の閲覧は、書籍が「インターネット公開」(約36万点)、「図書館・個人送信」(約54万点)、「国立国会図書館館内提供」(約38万点)と、資料ごとに扱いが異なっている。雑誌に関しては、「インターネット公開」は約2万点なので、まだまだ限定的ではあるが、どんな文脈ででてきたかがわかるだけも、これまでとは天と地の違いがあるのは想像できるだろう。

 国会図書館は、2000年以降、とくに2007年に元京都大学総長の長尾真氏を館長に迎えて、デジタル化を積極的に推し進めてきた。それが、今回、ネットに向けて開架されたという言い方をしてもよいだろう。ほぼすべての国民が毎日のように端末を使い、AIが社会を変えようとしているいま、そのことがもたらす価値はこれから証明されていくはずだ。

明治10年『月とスッポンチ』、そして明治22年のアキハバラを歩く

 前述「秋葉三尺坊」とは、われらが秋葉原の語源になった火防の神様の名前(秋葉三尺坊大権現)のこと。

 私は、昨年「ボクらの秋葉原をさかのぼっていくと秋葉三尺坊という人物にたどりつく」や「ジャンボ油揚げと上杉謙信と秋葉三尺坊――《アキバ》の由来をとことんさかのぼる」の2本のコラムを書いた。

 これらを読んでくれた人以外で、秋葉三尺坊といってすぐにピンとくる人は、よほど教養のある人だろう(少なくとも私は原稿で引用させてもらった『火防 秋葉信仰の歴史』〈石田哲彌著、新潟日報事業社〉という本を読むまでまるで知らなかった)。ところが、これが、国立国会図書館の全文検索では、一発で1415点もの資料が提示されたのだった。

 ひとつずつ目視で見ていくのはシンドイ数なのだが、たとえば、栃尾鉄道株式会社が、大正4年に刊行した『栃尾鉄道案内』なんて本が、「ログインなしで閲覧可能」。栃尾鉄道というのは、私が子供の頃まさに栃尾の秋葉神社まで遠足にいくのに使った私鉄。きわめてローカルかつ時代性をもった情報が、画面の上にタイムカメラ((c)藤子・F・不二雄)か物品引き寄せの術のように現れる。

 秋葉三尺坊の人物や神社に関する資料だけかというと、江戸時代にはウルトラマンなみの国民的ヒーロー(全国に数千も神社があった神様=それほど大げさではないと思う)だった秋葉三尺坊である。昭和4年に刊行された吉川英治の『竜虎八天狗』という小説に、主要な登場人物というようなわけではないが秋葉三尺坊とでてくる。これも、「ログインなしで閲覧可能」なので、自宅にいながらにして読めてしまう!

上記コラム記事のご縁で招待いただき1月14日に再び栃尾へ。写真は、『火防 秋葉信仰の歴史』の著者石田哲彌氏に案内いただいて、若き秋葉三尺坊が修行した蔵王堂のあった栃尾楡原の現在の蔵王権現。こんなところで修行したら飛行術も体得できようという気がしてくる。

 ちなみに、出版物の「タイトル」や「著者・編者」、「出版年月日」の範囲指定、「出版者」、さらには、詳細検索としてコレクションの種類や「出版地」、「ISBN」などの指定も可能。また、今回は触れないが画像検索も可能だ。秋葉原の語源を追っていたわけなので、「秋葉原」や「秋葉ノ原」といった地名が発生した頃の資料を洗い出すこともやってみる。

 「秋葉原」で検索すると、明治10年頃から地名として登場していたことがわかる。『西南戦地実形之図附録日表』なんてのがログインなしで閲覧可能。開いてみるとなんと木版本で、「この版面をデジタル化するのは相当大変だったでしょう」と関係者の労をねぎらいたくなる。

 明治11~12年に刊行されていた『月とスッポンチ』(興聚社)という雑誌では、「秋葉原住大人」とか「秋葉原住先生」と名乗る人物が、毎号、批評的な記事を書いているといったこともわかる(「秋葉原住」とはカッコいい表現ではないか)。

 「秋葉ノ原」で検索すると、明治22年刊行の『改正東京名細記 : 一名・独歩行』(児玉又七著、大橋堂)が、やはり木版本。開いてみると、上野に向かう道スジの説明として、「秋葉ノ原」が出てきて「鎮火社アリ」とある。まさに、この鎮火社を人々が火防の神さまならと「秋葉さま」と誤って呼びはじめたことから「秋葉原」の地名が生まれたとされる(くわしは前述記事参照)。

 同じ道スジに昌平橋もでてきて、人は1厘5毛、人力車は3厘かかるとある。昌平橋を渡るのにお金を払う必要があったわけだ。ちなみに、この本に書かれているルート、私が、自転車で神保町方面からまさに昌平橋を渡って、「あきばお~」や「上海問屋」のあたりをウロチョロしたあと「デリー上野店」までいくのとまったく重なっている。本のタイトルが「一名・独歩行」とあるのも、めちゃめちゃ親近感がわいてくる。

『改正東京名細記 : 一名・独歩行』こんな木版本の文字まで全文検索できる。出ている地図は、浅草橋付近。

 いままでも、同じ国会図書館のジャパンサーチや新聞記事検索、データベース、百科事典や有料の検索サービスなどを使うことができた。グーグルで検索してWikipediaでそれなりにポイントとなることが分かることも多かった。それが、国立国会図書館の全文検索で最初から検証可能な一次資料に手が届くといったことが容易に起こるようになる。

 人文系の方たちの間では、さぞやこれは事件になっているはずである。いままでの定説や伝説的なストーリーが一夜にしてひっくり返されかねないからだ。私も、『計算機屋かく戦えり』(アスキー刊)で日本のエレクトロニクスの黎明期に活躍した方々にインタビューした本があるが、アップデートしなければならない部分があるんじゃないかと思っている。

1977年の創刊号~2000年までの『月刊アスキー』も検索できる

 ところで、この国会図書館の全文検索は、私が、1985年から2000年代にかけて関わった(1991年から2002年までは編集長)『月刊アスキー』でも可能となった。1977年の創刊号から2000年までの誌面に掲載された情報を1つも取りこぼすことなく拾い出すことができる。

 私の自宅には自分が編集にたずさわった月刊アスキーがそれなりに揃っている(抜けもあってとくに1996年頃以降があまりないのだが)。いままでは、記事にした記憶はあってもどの号の何ぺージにあったかを探すのがとても大変だった。それが今回の全文検索によって生き生きとリアリティをもってくる。

『本の雑誌』(2022年7月号)の「本棚が見たい!」でご覧になった方もいるかもしれないが、私の本棚のいちばん下は月刊アスキーに占領されている。いままで滅多にアクセスされなかったわけなのだが。

 たとえば、月刊アスキーに掲載された「俵落としゲーム」(桜田幸嗣さんによる)は、何年何月号に掲載されたどんなゲームだったか? ゲーム名は分からなくてもキーワードを工夫して調べていくと、1982年2月号146~147ページに掲載されていたことがわかったりする。これは、いわゆる落ちゲーの特許に関して、法律事務所の人たちが編集部にやってきてバックナンバーを1ページずつめくって探していた記事だ。

 1980年代にコモドールから発売された「AMIGA」というコンピューターがあった。MacintoshやIBM PCなど、まだモノクロ画面で文字表示のニーズが中心の時代。いきなり、3Dグラフィックスやビデオ映像が気軽にあつかえる。1992年にフジテレビで放送された『ウゴウゴルーガ』など、若いクリエイターたちにチャンスを与えた歴史を変えたマシンだ。これは、1986年3月号にレビュー記事があった。「AMICA」が商標の関係で使えず「AMIGA」になったなど忘れられたトピックも書かれている。

出版年月を絞っていくことで目的の記事にリーチ。月刊アスキーでは1985年5月号が「AMIGA」の初出だった。コモドールが前年AMIGA社を買収しことなどが書かれている。

 秋葉原の話で思い出したのは、1990年代に千代田区が発表した未来の秋葉原に関する構想があったことだ。これも、あっさり1991年5月号378ページの「21世紀の秋葉原はどうなる!? URBAN LINKER AIKIBA 秋葉原地域開発基本計画」という記事だと分かった。いままでなら1冊1kgもある月刊アスキーを30冊、40冊と引っ張りだしてきて、1、2時間もページを繰って出てきたかどうかといったものだ。いちど正式名称がわかれば、月刊アスキー以外の行政・建設・開発・制作・デザイン関連の専門資料も次のステップで洗い出せる。

1991年5月号『月刊アスキー』の千代田区による未来の秋葉原のビジョンの紹介記事。計画の名称が分かったので千代田区の資料もあたることができた。イメージ図が想定している年代はまさに21世紀のいま頃だろう。

 私が編集長の時代の月刊アスキー(1990年代から2000年代のはじめにかけて)は、新製品やWindowsばかり取り上げていた印象の方がいると思う。実際そうでもあるのだが、なにしろ本文が300ページもあるしスタッフィングも強力だった(元『現代思想』編集長もいたり)。なので最新技術はもちろんさまざまなテーマをあつかっていた。登大遊さんの昨年10月のデジタル庁の資料は、主張されていることも貴重な意見だが、1990年代の月刊アスキーの誌面が適切に紹介されている。

OpenAIは、みんなが驚く生成AIやチャットBOTをめざしていない

 MITテクノロジーレビュー(以下MTTR)に《創造性の意味を変えた「生成AI革命」はどこに向かうのか?》という記事が、この原稿を書いている1週間ほど前に掲載された。

MITテクノロジーレビューは、1年ほど前に「GPT-3で号砲、大規模化に明け暮れた2021年のAIシーン」(2021年12月)、「GPT-3の改良版が登場、フィードバックで〈好ましい文章〉生成」(2022年1月)と、生成AIが確実に来るとしていた。

 2022年は、「DALL-E 2」(Open AI)、「Imagen」および「Parti」(Google)、「Midjourney」(Midjourney)、「Stable Diffusion」(Stability.AI)と、テキストを与えると画像が生成されるAIが次々にリリースされていった年だった。

 それでは、今後このような生成AIは、どこに向かっていくのか? MTTRの記事は、「エンターテインメントから、建築、マーケティング、さらには、新薬から衣服や建物に至るまで、今後、ほとんどあらゆるものを生成するために使われる可能性がある」と述べている(ここは日本の製造業をはじめあらゆる業態の方々が耳をかっぽじって聞いておくべきところだろう)。

 『WIRED』(2022 Vol.47)の「THE WORLD 2023」(2023年の世界)と題した特集で最初に語られるのは、やはりAIだった。同誌の創刊編集長のケビン・ケリー氏が、「これは自分に語らせろ」という感じで生成AIについて述べている。彼は、画像生成AIの本命は3Dで、それがメタバースを別次元のものに変貌させるとみている。世界中のアマチュアを含めたクリエイターたちが、みたこともないような複雑な表現でメタバースを埋め尽くす。鋭い見解だと思う。

 そんなおり、2022年11月30日に、OpenAIから「ChatGPT」という言語モデルがリリースされた。これが、とても賢く自然な会話をする(あるいは平気でデタラメを言ってのける)ことは、いまだにネット上で話題となっている。私も、リリース直後なので2ヵ月ほど前に、「超話題の人工知能ChatGPTに“小説”や“詩”を書いてもらい、“プログラム”は実行してみた」というコラムを書いた。

ChatGPTに今後の図書館について質問してみた。学生の宿題のベースくらいには使えそうなまともな返答である。文章だけでなく何かをやるための手順やプログラムも吐き出すところが凄いところ。詳しくは上述のコラム参照。

 画像や映像、3Dの生成AIは、今後、この言語モデルとの組み合わせへと進化するという意見がある。すでに、画像生成AIも《プロンプト》という文を与えることで、生み出したい絵のスペックを要求するしくみだ。それが、チャットへと進化して人間とAIが共同してさまざまな仕事をする時代がやってくる。

 もっとも、MITTRの記事の読みどころは、OpenAIのサム・アルトマン最高経営責任者(CEO)が、先行したはずのDALL-E 2が、そのあと多くの類似の生成AIと競合することになったことを気にしていないというくだりだ。彼らは、画像でみんなをビックリさせたり、会話の出来不出来をみんなが評価するためにやっているのでは、もちろんない。さらには、それらを生かしたツールやサービスも経過的なものだととらえている。

 アルトマンCEOは、はっきりと「我々は《汎用人工知能》(AGI)を作ろうとしているのです」と述べているのだ。汎用人工知能とは、人間と同じように思考してさまざま課題に対処することのできる人工知能のことだ。

 前述のとおり、生成AIは、いまはイラストレーターの仕事を奪ったり、かなり賢いチャットBOTになっていくか? といったところだが、やがて産業・文化・社会全般に欠かせないものになる。それは見えつつある未来の姿だが、「人間と同じように」という話になると、そう簡単には言えない。しかし、ことOpenAIの担当者たちに関していえば、いわば『鉄腕アトム』を作る天馬博士のようなおももちなのだということだ。

国立国会図書館AIとAIのあるべき姿について

 さて、国立国会図書館のデジタル化資料の全文検索が大幅に拡充されたというお話に続いて、生成AIの話を書いた。なので、私がだいたいどんな話を書きたいか予想がつく方もおられると思う。

 というのは、ChatGPTは、あれだけ人間らしい会話能力をもちながら、まるで話にならないデタラメを吐き出したりもするのは評判のとおり。それは、ネット上にある情報をかき集めて学んでいるからというのが一因という説がある。また、そのような指摘が私のまわりでもされがちなのは、学習データにおける日本語の含有率が数パーセントという低さに起因しているとも思われる。

平然とChatGPTがデタラメを返してきた例。賢さとデタラメさの落差が凄いのだが、とくに日本のことを質問するとひどい結果になるように思われる。それにしても、「明治時代にこの地域に多くの秋葉(あきは)が栽培されていたことに由来しています」とは! 新説?

 そこで、国立国会図書館のデジタル化資料のすべてを、ChatGPTみたいな言語モデルとぜひとも融合してほしいというのがここで言いたいことなのだ。

 GPT-3に与えられた学習データは45TBだそうなので、国会図書館のデジタル化資料が約311万点といえど、多いとは言えないだろう(私の『計算機屋かく戦えり』のテキストが500KBというあたりから概算できるわけだが)。また、これをデータセットにするには相応な前処理とパラメーター設定、ChatGPTでは人手による評価で強化学習を必要とした。それでも、やる価値はあると思うのだ。

 ひょっとしたら、これは「そんなことはとっくに議論されているよ」と言われるようなことかもしれない。

 『クラウド化する世界』の著者ニコラス・カー氏が、グーグルのパーティで「Google Books」の担当者と会話することがあったそうだ。著作権者に無断でスキャンすることに出版界が反発していたころだ。そのことを問うとその担当者は「人間に読ませるためにスキャンしているのではないですから」と答えたというのだ。

 グーグルはすでに書籍(Google Books)や論文(Google Scholar)、特許文書(Google Patents)などの内容などを学習させているか、早晩それをはじめると思う。だから、国立国会図書館は、一刻も早くこれに取り組むべきである。ご存じのとおり日本の法律は例外的なケースを除いて、著作物をAIの学習に使うことを認めている。日本語にこだわる必要があるかと言われそうだが、国ごとの文化が、どんな分野でもそれを動かす原動力の1つになっている。

国立国会図書館の東京本館(Wiiii / CC BY-SA 3.0)

 生成AIは、われわれにいろんな概念をわかりやすく教えてくれるサービスなんかにもなるだろう。適切な説明図やビデオも生成するが、そうした説明の裏付けとなる資料や出典を示すこともやれそうだ。そもそも、図書館とは、人間をサポートするAIのような役割をもっていて、その意味でいくらでも妄想的になってよいものなのだと思う。

 さらに妄想をさせてもらえば、生成AIは、やがて画像や3Dデータやビデオだけでなく、いきなりいままで人間が発想しえなかった空飛ぶ機械なんかを生み出す可能性だってある。AIが人間を無視して、というよりも人間の創造の範囲を超えて、彼らにとっての戦争をはじめるSFのような話もぼちぼちありそうだ。EUは、2024年の施行に向けて目下「AI規制法」の策定を着々と進めているそうだが、この際、こうしたAIは図書館の中に封じ込めるというのはどうだろう。

 国立国会図書館デジタルコレクションは、コチラのリンクからどうぞ。

 

遠藤諭(えんどうさとし)

 株式会社角川アスキー総合研究所 主席研究員。プログラマを経て1985年に株式会社アスキー入社。月刊アスキー編集長、株式会社アスキー取締役などを経て、2013年より現職。人工知能は、アスキー入社前の1980年代中盤、COBOLのバグを見つけるエキスパートシステム開発に関わりそうになったが、Prologの研修を終えたところで別プロジェクトに異動。「AMSCLS」(LHAで全面的に使われている)や「親指ぴゅん」(親指シフトキーボードエミュレーター)などフリーソフトウェアの作者でもある。趣味は、カレーと錯視と文具作り。2018、2019年に日本基礎心理学会の「錯視・錯聴コンテスト」で2年連続入賞。その錯視を利用したアニメーションフローティングペンを作っている。著書に、『計算機屋かく戦えり』(アスキー)、『頭のいい人が変えた10の世界 NHK ITホワイトボックス』(共著、講談社)など。

Twitter:@hortense667

この記事に関連するニュース

トピックスRSS

ランキング

記事ミッション中・・・

10秒滞在

記事にリアクションする

記事ミッション中・・・

10秒滞在

記事にリアクションする

デイリー: 参加する
ウィークリー: 参加する
マンスリー: 参加する
10秒滞在

記事にリアクションする

次の記事を探す

エラーが発生しました

ページを再読み込みして
ください