「ネット言論のダークサイド」を計算機で解析する ── データ分析による報道の技術とその再現性 ──
ニューズウィーク日本版 / 2016年5月10日 20時8分
概要
英ガーディアン社は、ウェブ版の記事に寄せられた大量のコメントを計算機により解析し、コメントによるハラスメントの傾向を分析した。同社はそれに用いた技術的側面も公開したため、その詳細について検討した。このようなデータ分析は報道の現場でも今後重要度を増し、プロセスの透明性や解析の再現性といった、科学論文執筆関わる諸問題に類似した課題に直面すると予想される。それらの解決に利用可能な技術についても検討した。
はじめに
CMSの普及以後、個人ブログに限らず、コメント欄を開放している大手メディアのウェブサイトもよく見かけます。大手の場合、管理者があまりにひどい罵詈雑言などは各社の規定に基づきブロックしますが、そうでないものは基本的には掲載されます。大手になればなるほどサイトを訪れる人も増え、このモデレーションの作業が大変になるため、労力に対して吊り合わないと言う理由でコメント欄を閉じてしまうサイトも多いです。しかしイギリスの老舗メディアの一つであるガーディアン紙は、それでもなお読者からのフィードバックはジャーナリストにとっても重要だと信じ、今でもコメント欄を開放しています。90年代末から書き込まれてきたコメントの総数は、今では7,000万件を超える膨大なものとなっています。
このコメント欄の価値に関して一石を投じる分析が、ガーディアン紙自身によって行われました。この分析がなかなか興味深かったのでここで背景も含めて紹介します。
記事の背景
殆どの方が体感的におわかりだと思いますが、利用者の多いサイトのあらゆるコメント欄というものはいずれ荒れるものです。これは世界共通の現象です。そこで一定の秩序を保つためには、ある程度のモデレーションが必要です。分かりやすい罵詈雑言などは機械的なフィルタリング(正規表現によるNGワードのマッチング)で可能ですが、ヘイトスピーチなどをこの手法だけで取り除くのは困難です。なぜならば、言葉遣いは非常に丁寧でも相手を罵倒したり差別したりすることは可能だからです。例えば、
「人種Xに属する人々は大変知能が低く、現代的な文明というものを持っていないのです。彼らを力で支配し、正しく導くのは我々の責務だと思われます」
と言う文は完全にヘイトスピーチですが、いわゆる放送禁止用語や分かりやすい罵倒語、わいせつな言葉などを含まないため、シンプルな機械的フィルタリングで取り除くのは困難です。そういった理由もあって、コメントのブロックや削除は未だに人間のモデレータによって行われています。
この記事に関連するニュース
-
【産総研グループ/AIST Solutions】化学データ解析アプリ公開によるサービス提供を開始
PR TIMES / 2024年11月20日 17時45分
-
【年収1,181万円】2024年最新|AWS案件フリーランス副業調査
PR TIMES / 2024年11月13日 12時40分
-
レシート印字名に基づきJANコードがない商品をAIで自動分類する技術を開発
PR TIMES / 2024年11月7日 12時15分
-
ストックマーク LLM組織の高橋が執筆した日本語LLMの分析論文が LLM領域の査読付き国際学会「PACLIC 38」に採択
PR TIMES / 2024年11月3日 23時40分
-
【東芝】少ない計算量で高精度に人物の行動を認識する「ハイブリッド行動認識AI」を開発 ~「骨格認識AI」と「動画認識AI」を組み合わせ、道具を使った作業を詳細に判別し製造現場のDX推進に貢献~
Digital PR Platform / 2024年10月28日 10時1分
ランキング
-
1パキスタン、元首相釈放求めデモ激化=首都に軍配備、衝突で死者も
時事通信 / 2024年11月26日 20時41分
-
2米海軍哨戒機が台湾海峡飛行、中国軍は「大げさな宣伝」と反発
ロイター / 2024年11月26日 18時33分
-
3政府が政労使会議開催、石破首相「今年の勢いで大幅な賃上げを」
ロイター / 2024年11月26日 13時46分
-
4「フェンタニルは米国の問題」中国が反論 米中協力の「成果」を強調
産経ニュース / 2024年11月26日 23時4分
-
5ウクライナ軍、3日間で2度にわたり米国製「ATACMS」でロシア領内攻撃 ロシア国防省
日テレNEWS NNN / 2024年11月26日 23時28分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください