「ネット言論のダークサイド」を計算機で解析する ── データ分析による報道の技術とその再現性 ──
ニューズウィーク日本版 / 2016年5月10日 20時8分
報道への機械学習と自然言語処理の応用
今回の解説記事の最後にこんな一文があります。
In the future, we would like to explore the words used in the comments, using standard and bespoke natural language processing algorithms.
将来的には、我々は標準的なものからカスタムのものまで、各種自然言語処理アルゴリズムを用いて、コメントの内容そのものを調査してみたい。
コメント欄というのは自然言語(英語)で書かれています。つまり今回見たような単純な手法ではその傾向を分析するのは困難です。ここをさらに深く掘り下げるには、自然言語処理、もっと言えば人工知能関連の技術の応用が必要になります。人工知能に関しては驚くほどのハイプが出回っていますが、少なくとも現時点での人工知能関連技術というのは非常に便利な道具に過ぎません。しかし適切に使えばデータ分析に大変な力を発揮します。
簡単な例ですと、今回の記事では男女の差に着目して解析を行っていましたが、これがもし人種だったらどうでしょう? プロフィールにいちいち人種を書くということはまずありえないので、何らかの推測に基づいた判別が必要になります。仮に元のデータに著者の近影が存在した場合、適切にトレーニングした分類器を用いれば、東アジア系、中東系、アフリカ系、ヨーロッパ系などに大雑把な分類するのは、今の機械には決して不可能ではありません。
今後そういった技術を持った人々が報道の世界で働くということも十分に考えられるシナリオだと思います。
まとめ
このように、実際のデータ解析作業というのは、かなり地道な作業が多く、メディアを賑わす数々のバズワードのイメージとは若干ズレがあると思いませんか? 一方、様々な技術が導入されている今日の報道ですが、まだまだ改善の余地があります。特にデータの高度な分析には統計解析の専門家の力が欠かせませんし、ソーシャルメディアでの言論などを大規模に解析するには、自然言語処理の専門家などが必要です。他の多くの分野と同じく、ジャーナリズムの世界にも最新技術による革新を起こせる可能性が広がっています。道具は揃ってきました。あとはやるかやらないかだけです。
私はジャーナリズムとは全く関係のない完全なアウトサイダーですが、科学分野に関わる仕事をしておりますので、データの分析やそのプロセスの透明性といった部分で、新たなスタイルの報道と科学の類似性を感じています。すなわち、最新技術を特定分野に応用するための分野を超えた協力関係です。これらに関連する諸問題は、技術的な面と人的な面の両面からアプローチしないとなかなか解決できません。このような複雑な問題に向かい合う場合、分野を超えた交流が重要だと考えており、少しでもこういった分野に目を向ける人が多くなり、新たなコラボレーションが生まれてくれれば、と願っております。
Keiichiro Ono (大野圭一朗)
4/17/2016
CC BY 4.0
質問などはkono at ucsd eduまでお願いいたします。
※当記事は大野圭一朗氏のMediumのブログ記事を転載したものです。
大野圭一朗
この記事に関連するニュース
-
dotData Feature Factory 1.2を発表 - Snowpark上の特徴量自動設計がSnowflakeのデータの価値を最大化を実現
PR TIMES / 2024年7月22日 14時15分
-
日立、高速・低コストなデータ利活用基盤をAzure上に短期間で構築可能な超高速データベースエンジンHADBのベストプラクティス構成を提供
PR TIMES / 2024年7月11日 13時45分
-
PingCAP、クラウド導入実績2,500社以上のアイレットとパートナー契約を締結
PR TIMES / 2024年7月3日 13時40分
-
オラクル、HeatWave GenAIによる業界初のインデータベースLLMと自動化されたインデータベース・ベクトル・ストアを発表
PR TIMES / 2024年6月30日 22時40分
-
世界最速、NTTのアルゴリズムにより「富岳」の大規模グラフ探索性能が約20%向上 ~スパコン性能ランキング「Graph500」における9期連続世界1位に貢献~
Digital PR Platform / 2024年6月25日 15時7分
ランキング
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください