「ネット言論のダークサイド」を計算機で解析する ── データ分析による報道の技術とその再現性 ──
ニューズウィーク日本版 / 2016年5月10日 20時8分
しかしこのうんざりするような長年の手作業の副産物として、彼らは一つの巨大なデータセットを生み出しました。すなわち、人の手によって分類された膨大な数のコメントです。ガーディアン紙では、モデレータにより不適切なコメントを、ガイドラインに沿ってブロック、もしくは削除しています。
このように人がコメントの内容に沿って掲載するかブロックするかを決めているのですが、ブロックされたコメントもデータベースには記録として残っています。7,000万のコメントのうち、およそ2%に当たる140万件のコメントが不適切なものとして分類されたそうです。多くは攻撃的で不適切な内容だったそうですが、これには脱線しすぎたコメント、いわゆるオフ・トピックなものも含まれています。つまり、彼らは人の手で分類された膨大な量の「攻撃的なもの/そうで無いもの」と仕分けされたコメントのデータベースを持っているのです。
この記事からはブロックされたコメントのリアルタイム表示が見られる (上のスクリーンショットは4/13/2016 7:05PM PSTに取られたもの)
ガーディアン紙の解析チームは一つの仮説を立て、それをこの長年蓄積されたデータを使って定量的に検証してみることにしました。その仮説は以下のものです:
Articles written by women attract more abuse and dismissive trolling than those written by men, regardless of what the article is about.
女性によって書かれた記事は、その内容に関わらず、嫌がらせや軽蔑的な煽りの対象になりやすい
つまり女性によって書かれた記事は、女性が書いたという理由だけで軽んじられたり、おかしな人をひきつけやすいと言う仮説です。これはしばしば言われてきたことですが、定量的に大規模なデータから分析した例はあまりないと思います。そこで彼らは実際にやってみることにしました。
なぜジェンダーに関する仮説なのか?
これは割とシンプルな理由で、仮説としてわかりやすいのと、データの分類時に真偽の二値で扱えるために解析が行いやすかったからだと思います。他の性的マイノリティーや人種に関する属性をメインにすると、よりデータの自動分類が難しいという理由もあったと思います(後述)。
解析の結果
この記事に関連するニュース
-
dotData Feature Factory 1.2を発表 - Snowpark上の特徴量自動設計がSnowflakeのデータの価値を最大化を実現
PR TIMES / 2024年7月22日 14時15分
-
日立、高速・低コストなデータ利活用基盤をAzure上に短期間で構築可能な超高速データベースエンジンHADBのベストプラクティス構成を提供
PR TIMES / 2024年7月11日 13時45分
-
PingCAP、クラウド導入実績2,500社以上のアイレットとパートナー契約を締結
PR TIMES / 2024年7月3日 13時40分
-
オラクル、HeatWave GenAIによる業界初のインデータベースLLMと自動化されたインデータベース・ベクトル・ストアを発表
PR TIMES / 2024年6月30日 22時40分
-
世界最速、NTTのアルゴリズムにより「富岳」の大規模グラフ探索性能が約20%向上 ~スパコン性能ランキング「Graph500」における9期連続世界1位に貢献~
Digital PR Platform / 2024年6月25日 15時7分
ランキング
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください