「ネット言論のダークサイド」を計算機で解析する ── データ分析による報道の技術とその再現性 ──
ニューズウィーク日本版 / 2016年5月10日 20時8分
しかしこのうんざりするような長年の手作業の副産物として、彼らは一つの巨大なデータセットを生み出しました。すなわち、人の手によって分類された膨大な数のコメントです。ガーディアン紙では、モデレータにより不適切なコメントを、ガイドラインに沿ってブロック、もしくは削除しています。
このように人がコメントの内容に沿って掲載するかブロックするかを決めているのですが、ブロックされたコメントもデータベースには記録として残っています。7,000万のコメントのうち、およそ2%に当たる140万件のコメントが不適切なものとして分類されたそうです。多くは攻撃的で不適切な内容だったそうですが、これには脱線しすぎたコメント、いわゆるオフ・トピックなものも含まれています。つまり、彼らは人の手で分類された膨大な量の「攻撃的なもの/そうで無いもの」と仕分けされたコメントのデータベースを持っているのです。
この記事からはブロックされたコメントのリアルタイム表示が見られる (上のスクリーンショットは4/13/2016 7:05PM PSTに取られたもの)
ガーディアン紙の解析チームは一つの仮説を立て、それをこの長年蓄積されたデータを使って定量的に検証してみることにしました。その仮説は以下のものです:
Articles written by women attract more abuse and dismissive trolling than those written by men, regardless of what the article is about.
女性によって書かれた記事は、その内容に関わらず、嫌がらせや軽蔑的な煽りの対象になりやすい
つまり女性によって書かれた記事は、女性が書いたという理由だけで軽んじられたり、おかしな人をひきつけやすいと言う仮説です。これはしばしば言われてきたことですが、定量的に大規模なデータから分析した例はあまりないと思います。そこで彼らは実際にやってみることにしました。
なぜジェンダーに関する仮説なのか?
これは割とシンプルな理由で、仮説としてわかりやすいのと、データの分類時に真偽の二値で扱えるために解析が行いやすかったからだと思います。他の性的マイノリティーや人種に関する属性をメインにすると、よりデータの自動分類が難しいという理由もあったと思います(後述)。
解析の結果
この記事に関連するニュース
-
【産総研グループ/AIST Solutions】化学データ解析アプリ公開によるサービス提供を開始
PR TIMES / 2024年11月20日 17時45分
-
【年収1,181万円】2024年最新|AWS案件フリーランス副業調査
PR TIMES / 2024年11月13日 12時40分
-
レシート印字名に基づきJANコードがない商品をAIで自動分類する技術を開発
PR TIMES / 2024年11月7日 12時15分
-
ストックマーク LLM組織の高橋が執筆した日本語LLMの分析論文が LLM領域の査読付き国際学会「PACLIC 38」に採択
PR TIMES / 2024年11月3日 23時40分
-
【東芝】少ない計算量で高精度に人物の行動を認識する「ハイブリッド行動認識AI」を開発 ~「骨格認識AI」と「動画認識AI」を組み合わせ、道具を使った作業を詳細に判別し製造現場のDX推進に貢献~
Digital PR Platform / 2024年10月28日 10時1分
ランキング
-
1パキスタン、元首相釈放求めデモ激化=首都に軍配備、衝突で死者も
時事通信 / 2024年11月26日 20時41分
-
2米海軍哨戒機が台湾海峡飛行、中国軍は「大げさな宣伝」と反発
ロイター / 2024年11月26日 18時33分
-
3政府が政労使会議開催、石破首相「今年の勢いで大幅な賃上げを」
ロイター / 2024年11月26日 13時46分
-
4ウクライナ軍、3日間で2度にわたり米国製「ATACMS」でロシア領内攻撃 ロシア国防省
日テレNEWS NNN / 2024年11月26日 23時28分
-
5資金源も使途も非公開、米連邦政府を舞台にトランプ版「政治とカネ」劇場が始まった!?
ニューズウィーク日本版 / 2024年11月26日 19時5分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください