生成AI時代のデマ・フェイク問題、SNSの安全性を取り戻すには？

ASCII.jp / 2024年4月24日 11時0分

研究実施者：中里朋楓（東京大学大学院）
研究テーマ：透明性向上のための偽情報や誤情報の流通メカニズムや影響に関する実証研究
担当PM：大西正輝（産業技術総合研究所人工知能研究センター社会知能研究チーム長）

東京大学大学院学際情報学府社会情報学コースの中里朋楓さん。取材はオンラインで実施した。

　当初、人々をつないでくれたSNSが、今では逆に社会を壊そうとしている。その先導役となっているのが、X（旧Twitter）だ。Xではどのような情報が、どのように拡散されていくのか。覚醒プロジェクトに採択された東京大学の中里朋楓さんは、これまで主にXで拡散される偽誤情報の分析に取り組んできた。一連の実証的な研究に続いて、「覚醒」で新たに取り組んでいるのが、大規模言語モデル（LLM）における偽誤情報の検証と改善に関する研究だ。

　第1段階では、大規模言語モデルが未学習のトピックについて、誤った情報をどの程度出力するかを評価する。

　「ChatGPTやGoogleのBERT（現・Gemini）などの大規模言語モデルが2023年から急速に発展し、一気に広く普及し始めました。例えば今年（2024年）1月に起きた能登半島地震についても、大規模言語モデルに尋ねた人がいるかもしれません。ところが大規模言語モデルは、わずか1カ月前に発生した地震についてはまだ十分学習できていない。そこで懸念されるのが、AIが事実に基づかない偽誤情報を勝手につくり出してしまう現象です。実際に大規模言語モデルの回答には偽誤情報がどれぐらい含まれているのか。偽誤情報の割合は過去の同じようなイベント、たとえば東日本大震災と比べてどれぐらい多いのか。プロジェクトマネージャー（PM）である大西正輝先生にもアドバイスをいただきながら、大規模言語モデルに含まれる偽誤情報の実態を検証したいと考えています」

　続く第2段階では、アノテーション（注釈付け）したデータを使い、ファインチューニングなどの手法で既存の大規模言語モデルが出力する情報の正確性改善を目指す。

　そして第3段階として、大規模言語モデルを使って、誤った情報を拡散する発信者の「意図」を判定することを目指すという。これは、誤った情報の拡散を防ぐには、その意図を理解することが有効かもしれないという先行研究を踏まえてのことだ。

「第3段階は、意図の正解データを作成する難しさもあり、長期的に取り組む必要があるかもしれませんが、ぜひ実現したいと考えています」

COVID-19ワクチンに関してTwitter上で起きていた事象分析

　大規模言語モデルに対する中里さんの問題意識は、2023年に先行して実施したTwitter研究によって育まれてきた。

　「ごく身近な存在となったSNSで、いわゆるフェイクニュースや偽情報が世界的な問題となっています。フィルターバブルやエコーチェンバーなどがもたらす弊害も無視できません。そこでまず着目したのが、Twitterでした」

　具体的なテーマは、新型コロナウイルス感染症（COVID-19）ワクチン。このキーワードに関してもネット上ではありとあらゆるツイートが飛び交っていた。それらを細かく見ていくと、ツイートの内容によりユーザーをグループ分けできると中里さんは語る。

「感情を分析できるAPIを利用して、ツイートごとに感情ラベルを付けて分類していきます。表されている感情により、ツイートの有害性に違いが出るのではないかと考えたのです。トピックごとに有害性を調べていった結果、たとえばある国名についてのラベルが付いたツイートでは、有害性が高い傾向が明らかになりました。この結果から想定されうるのはいわゆるゼノフォビア、外国人に対する偏見です。このような感情的な投稿によって、国籍や文化による人々の分断を助長した可能性が考えられます」

　Twitterがイーロン・マスク氏によって買収され、Xとなってからは新たな問題も起きている。Xでは、投稿したツイートに対するインプレッションによって報酬を得られるようになった。その結果、たとえば能登地震に関するツイートをみても、日本語でツイートされているものの、投稿そのものは海外から行われているケースが多く見られるという。いわゆる「インプ（レッション）稼ぎ」の投稿である。そのような投稿では内容の真偽は定かではないことが多い。

　中里さんはすでに、澁谷遊野氏および高木聡一郎氏との共著でTwitterに関する分析結果を一つまとめて報告している。そのレポート『Characterizing the Behavior of Healthcare Experts towards COVID-19 Vaccine on Twitter』には、新型コロナワクチンに関するTwitter投稿についての分析結果がまとめられている。

「分析対象として、まず医療従事者とそうではない人たちのグループを設定しました。医療従事者と判定されたユーザーは非医療従事者ユーザーと比べて多くのフォロワーを有しており、”いいね”も多く獲得している。けれども、そのツイートに対するリツイートの数については、非医療従事者よりも少ない傾向が見て取れました。この結果は何を示しているのか。医療従事者が発信している情報すなわち専門的な知識は、正確で信頼できるものと受け止められている。けれども拡散されにくい可能性があります。

　これはあくまでも私見ですが、Twitterでは必ずしも正しい情報が拡散するとは限らないと考えています。Twitterを情報入手の手段としてではなく、単に楽しむためのツールとして使っている人たちも多くいます。彼らにとってはツイート内容が正しいかどうかより、ユーモア性があるなど感情に訴えかけるツイートのほうが拡散されやすいのかもしれません。新型コロナワクチンに関するツイート分析からは、そんな知見が得られたと思います」

拡散される偽誤情報に惑わされないために

　ツイートに関する研究はさまざまに進められていて、有害性を判定するAPIもある。中里さんもこのAPIを活用し、先行研究も踏まえながら閾値を設定して有害判定を行っている。

「ただ有害性と比べると、真偽性の判断は難しいのが実状です。真偽性判断のAPIもありますが、英語に特化されたものです。そこで日本語でのツイートに対する真偽判定をするためのデータセット作成にも取り組んでいます。もちろん簡単にできる作業ではなく、人手と時間が必要です。そのため偽誤情報について研究されている、澁谷遊野先生（東京大学大学院情報学環准教授）と共同研究を進めています」

　中里さんが見据えているのは、まずは大規模言語モデルの偽誤情報出力に対する評価であり、さらにはそれを抑制するチューニングに必要なデータセットの作成である。そのための直近の課題としているのが、大規模言語モデルの偽誤情報出力に対するベンチマークの設定だ。これに基づいてXでの投稿を元にした偽誤情報リストを作成し、次は大規模言語モデルに入れるプロンプトの作成を目指す。プロンプトでは、最初に偽情報の定義を与え、続くプロンプトで文章を送信して、偽誤情報かどうかを判定させることを想定している。

「自然言語処理や計算機システムの研究者たちによって立ち上げられた、があります。その目的は、日本語に強い大規模言語モデルの構築であり、ワーキンググループの一つにLLMの安全性を検討しているチームがあります。安全性検討ワーキンググループの皆さんとコラボレーションすることで、偽誤情報出力に対する評価もベンチマークの一つとして加えてもらい、共同作業に取り組んでいます」

　ただし進捗状況はまだまだだと、中里さんは話す。そもそもSNSなど様々なプラットフォーム上で流通している、偽誤情報の収集が現時点での課題となっている。効率よく収集する手段がないため、時間がかかり過ぎるのだ。また、収集した偽誤情報を分類したり、リスク度をラベリングしたりする作業も必要だが、その際には偽誤情報に触れる作業者のメンタルヘルスへの影響も考慮する必要がある。

「研究目的のデータを公開してほしいというニーズは高いものの、多くのプラットフォームでその取り組みは途上段階にあると思います。たとえばXの場合、データ収集にはAcademic APIを利用する必要がありますが、現時点では金銭的なハードルが高い状況です。また、TikTokではAPIを利用できるのはEUやアメリカなど一部の地域の研究者に限られています。一方では情報収集そのものに大規模言語モデルを活用する取り組みも行われているので、それを検証してみるのも一つの方法と考えています」

　将来的な研究ビジョンについて、中里さんは次のように語る。

「情報教育につなげていけるような研究や開発を実現したい。たとえばゲームで楽しみながら、偽誤情報についての学びを自然に深めていけるようなものです。具体的には、ケンブリッジ大学の研究者たちが開発した『GO VIRAL!』のようなゲーム。こんなゲームをきっかけとして、偽誤情報に対するリテラシーを高めていけるような仕組みを考えていきたいと思います」

　楽しみながら学び、偽誤情報に自力で対応できる。そんな教育ゲームを創って、次世代の情報リテラシーを高める。中里さんがめざすのは、人々をつなぐ本来のSNSの復活だ。

■覚醒プロジェクト公式Webサイト http://kakusei.aist.go.jp/