Infoseek 楽天

生成AIでメモアプリが進化? 自分だけのチャットAIが作れる、Google「NotebookLM」を試してみた

ITmedia NEWS 2024年6月19日 12時7分

 米Googleは2023年夏、自分で入力したソースだけで使える生成AIサービス「NotebookLM」を発表したが、24年6月6日、日本を含む200以上の国や地域への提供を開始した。執筆時点(7日)で、すでに日本語で使えるようになっている。

 リリース情報によれば、NotebookLM開発の目的は「複雑な資料を理解して精査し、情報から新しい類似性を見つけ、下書きなどを素早く作成するのに役立つツールの開発」であるという。「研究論文や取材記録、仕事でのドキュメントなどの参照文献(ソース)をアップロードすると、NotebookLMがそれらの重要な資料を理解し、必要なサポートを提供」する。

 ベースとなるAIは最新のGemini 1.5 Proで、現在は試験的に無料で利用できる。今回の公開にあたり、Googleドキュメント、PDF、テキストファイルの他、GoogleスライドとURLがソースとして参照できるようになった。これらのソースはクラウド上に複製されるので、自分に著作権上の権利がないソースを学習させると、複製権や公衆送信権の侵害となる可能性があるので、注意していただきたい。

 今回は、筆者がITmediaで連載中の「プロフェッショナル×DX」の内容をソースとして入力し、NotebookLMがどのように動作するのか、またどのような活用が可能なのかを検証してみた。

●ソースに対する新しい切り口

 NotebookLMは、まず自分のページ内に「新しいノートブック」を作ることからスタートする。ノートブック単位でソースを入力することで、ある意味そのテーマ専用の部屋となるわけだ。

 ソース追加のアイコンをクリックすると、アップロード元のタイプとして5つの選択肢が出てくる。ここでは「ウェブサイト」を選択し、ITmediaの「プロフェッショナル×DX」のURLを入力していく。

 ただ、ITmediaのサイトは文字コードのShit-JISとUTF-8が混在しているため、NotebookLMに読み込ませると文字化けしてしまう。ソースを開くと、ソースガイドとしてサマリー部分は読めるのでちゃんと読み込めてはいるのだろうが、タイトルと本文が読めないので実用性が低い。

 仕方がないので、元の原稿をPDFで書き出して、別のノートブックに読み込ませた。元のPDFには写真も入っているが、それは読み取っていないようだ。Gemini 1.5 Proはマルチモーダルなので、ドキュメント内の画像も扱えるはずだが、その機能はまだ実装されていないのかもしれない。

 各ソースを展開すると、無事ソースガイドと本文が表示された。URLの場合は一度に1つずつ入力するしかないが、ファイルの場合はマルチ選択ができるので、一度の作業で入力が完了する。読み込ませたソースの内容を解析するまで、数秒だ。

 これでチャットによる質問ができる状態になるが「ノートブック ガイド」という部分をクリックすると、デフォルトで5タイプの生成がプリセットされている。まずはこれから試してみる。

●NotebookLMにチャットで聞いてみる

 「FAQ」は、ソースの内容から自動でFAQを作成してくれる。そもそもFAQとは頻出する疑問に対する回答のはずだが、頻出していない話題に関しても書き出される。要するにソース全体をFAQという記述スタイルでまとめてくれる機能、ということのようだ。

 「Study Guide」は、入力ソースを学習用テキストに見立てて、テスト問題を作成してくれる。その回答例も提示してくれる他、論述問題や用語集も作ってくれる。

 これは学習者が使うというより、大学教員が小テストや単位修得試験問題を作る際のヒントとして使えそうだ。論述問題は、その解答例までは作ってくれないので、問題が妥当かどうかも含め、教員が精査する必要がある。

 「Table of contents」は、入力ソース全体を俯瞰して複数のテーマを設定し、それに対して箇条書きでまとめを作ってくれる機能のようだ。タイトルの後半にハングル文字が混じっているが、これは「分析データ」と書いてある。日本語と韓国語の区別で曖昧な部分があるようだ。

 入力ソース全体のサマリーと構造が分かるので、ソースを読み込む上でのガイドになるだろう。

 「Timeline」は、ソース内で年代を明記して記述した部分をピックアップして、それを時系列でまとめてくれる。ソースの文章を書いたのは筆者自身だが、それぞれのトピックを書いている時には時系列を気にしているわけではないので、こうして歴史順にソートされると、また別の見方を発見することができる。

 また後半部分は「登場人物」として、企業や取材した人物のまとめも作ってくれる。もちろんこれらはあくまでもソース内から読み取れる情報に限られるので、用語集的な網羅性があるわけではない。

 「Briefing Docs」は、入力ソース全体を俯瞰して、論述形式でまとめを作ってくれる。先頭に概要を示し、テーマを設定し、知見、展望の指摘を経て、結論を表示してくれる。膨大な資料をまとめるヒントという点では、役に立ちそうだ。筆者が目を通した限り、間違いではないが、そこから導かれる考察などがあるわけではないので、さすがにこれではレポート試験は合格しないだろう。

 もちろん従来のAI同様、チャットで質問や指示をすることで、総括を得ることができる。例えば「クラウドベースの編集ワークフローにおける課題とは?」という問いに対しては「技術的な課題」「業界構造・慣習に起因する課題」「その他」の3つに分けてまとめてくれる。

 それぞれのまとめの根拠については、ソースのどの部分を参照したかが分かるようになっている。それらを見比べることで、まとめの妥当性を評価することが可能だ。

 こうした質問に対する回答は、消えてしまわないよう「メモ」という形で保存できる。これはノートブックガイドで示された回答と同じところに保存されるという意味だ。ただしメモに保存すると、ソースへの参照リンクが切れてしまう。一応番号だけは残っているが、リンクしないのでは番号が付いている意味がない。このあたりは改善が必要であろう。

 また、回答から作られたメモは、ユーザーが編集することができない。もし回答に修正を加えたいのであれば、新たに空のメモを作り、その中に回答をコピー&ペーストすれば内容を修正できる他、純粋に自分用のメモとしても活用できる。

 メモページとチャットページは両立できないので、チャットによって得られた回答をまとめていくには、いったんメモに保存しておいて、そこからメモページ内でいじっていくという使い方になるだろう。

●「NotebookLM」をどう使っていくか

 1つのソースには、50万語を含めることができるという。これが文字数のことなのか、あるいは単語のことなのかはよく分からないが、文字数だとしてもかなりの長文が読み込める。

 ただし、ノートブック内に読み込めるソースの数は、どこかに限界があるようだ。どれくらい読み込めるかテストしているうちに、1つのノートブックに56個、54個、40個、34個とどんどん減っていった。翌日にはまた54個までソースが追加できるようになっていた。今のところどういうルールになっているのかは、判然としない。

 今回作成したノートブックは、ソース数で29個、1ソースあたり大体4000字ぐらいなので、12万字ぐらいのデータである。内容も放送とIPというテーマ縛りなので、回答の内容にもブレが少ない。ノートブックに登録するソースは、量的な限界から考えても、何らかのテーマに絞って使うことを想定しているのだろう。

 このノートブックは、他の人を招待できる。メールアドレスで参加を要請することもできるし、リンクを送って参加を呼びかけることもできる。ただ、リンクで共有するなら、ノートブックを「リンクを知っている人は閲覧可」のようなパーミッション変更が必要になると思うのだが、今のところそうした設定機能がないので、リンクを送っただけでは共有できなかった。このあたりはおいおい実装されるのだろう。

 複数人で共有できるようになれば、共通のデータを使ったグループワークも可能になる。例えば自社の社則を読み込ませて法務的な抜け穴がないか探す、社員からの申請は社則と照らし合わせて妥当かどうか検討するといった活用が考えられる。

 ノートブックの共有で気を付けたいのが、ソースの権利関係だ。前段にも書いたが、ソースはクラウドにコピーされるので、複製権や公衆送信権の問題になりうる。

 AIへの学習は、日本の著作権法では権利制限されているので自由に使えるのでは? と思われるかもしれないが、後付けで特徴を出すために追加学習させるLoRA(Low-Rank Adaptation)や、テキスト生成をプライベートデータソースまたは独自のデータソースからの情報で補完するRAG(Retrieval Augmented Generation)は、文化庁のガイドラインによれば、「権利制限の対象外」と考えるべきだ。ノートブックへのソース入力は、RAGそのものである。

 よって、複数人がノートブックを利用するなら、利用者の1人が権利を持っていて、それを共有し生成物の利用を認める意思があることや、著作権が発生しないもの(法律・条例・社則など)である必要がある。

 大学教員が、授業のテキストをベースに試験問題を作るといった作業にも使えるだろう。ただしソースとしては、自分で執筆したテキストを食わせる必要がある。テキスト内に引用があった場合でも、一応引用という形がクリアされていれば問題ないとは思うが、出力結果に引用が区別されているかは、今のところよく分からない。もし区別なく使われていた場合は、剽窃となる可能性があるので、出力結果は入念にチェックすべきだろう。

 AIから人間が求める結果を引き出すには、AIをコントロールする必要がある。それには大きく分けて3つの方法がある。これまではAIに投げかけるプロンプトを工夫して調整する、「プロンプトエンジニアリング」がメインの方法だった。2つめが「NotebookLM」で採用した、「RAG」だ。基盤モデルの学習結果を利用しつつも、回答の範囲を追加学習の範囲で限定するので、ハルシネーションや誤情報の出力が少ないところがメリットである。3つめの「Fine-Tuning」は基盤モデルそのものをカスタマイズする方法なので、かなり大がかりとなる。

 すなわちRAGは、オールマイティな回答が得られるわけではないが、少ない労力でAIを専門分野に絞り込む方法として、利用価値がある。実際に使ってみた感触としては、ソースが限定できるのでノイズが入りにくく、エンタープライズでは使いやすいだろうと思う。一方個人で利用する場合には、AIに求めるのは自分の知識や能力を超えることなので、汎用的なAIのほうが使うメリットが大きいだろう。そもそも個人では、自分が権利を持つ膨大なソースを持つ人はそれほど多くないということもある。

 AIに対するアプローチの違いを正しく理解し、「今やってることは何なのか」に意識的になることが、人間側に求められることだろう。

この記事の関連ニュース