「ネット言論のダークサイド」を計算機で解析する ── データ分析による報道の技術とその再現性 ──
ニューズウィーク日本版 / 2016年5月10日 22時31分
調査報道と再現性
科学の世界では当たり前なのですが、ジャーナリズムの世界でも、このようなデータ解析を使った報道というものの出現に伴い、そのプロセスの透明性と再現性といった点が話題になっています。英語ですが、興味のある方はこのあたりの記事を読んでみてください。
・The Need for Openness in Data Journalism
・The Rise of Transparent Data Journalism
解析の再現性には幾つかのレベルがあります:
1.機械可読な形でのデータの公開
2.解析に使った手法とそのソースコードの公開
3.解析に使った環境の公開
1はともかく、2と3はかつては技術的になかなか難しい面もありました。しかし、現在では公開されたソースコードの事実上の標準レポジトリであるGitHubがありますし、解析の規模にもよりますが、解析環境をコンテナ技術(Dockerというソフトウェアがもっとも普及しています)を用いて第三者が再現可能な形で残すこともできます。このように、技術的に解決出来る面も増えてきていますので、調査報道の分野を中心に、今後はこういった方向を目指すメディアも増えるのではないかと思います。
また、こういった話題で必ずと言っていいほど出てくるJupyter Notebookというツールですが、これは人間のための文章や図表と、計算機で実行できるコードを混在させて、実際にそれを実行しながら動作を確認できるという非常に強力なツールです。報道では、解析に使ったコードを読者に実際に手元のマシンで実行させながら読んでもらうということが可能になります。これについてもいずれ最近の傾向をまとめたいと思いますが、使うこと自体は決して難しくないので、少しでもプログラミングのできる方はぜひ試してみてください。
余談: 日本のメディアの方へのささやかな要望
GitHubにウェブ版の紙面で使ったコードを公開することで問題が発生するケースはまず無いと思います。報道機関のパフォーマンスはあくまでその内容で競われるべきものなので、ソースコードの質ではないはずです。したがって、こういった競う必要性が低い部分での横の協力が進めば、日本の報道機関全体の技術的な面での底上げにつながるのではないでしょうか。第一歩として、まずはGitHubのレポジトリをプライベートからパブリックに移行するところから始めてはどうでしょう?
この記事に関連するニュース
-
dotData Feature Factory 1.2を発表 - Snowpark上の特徴量自動設計がSnowflakeのデータの価値を最大化を実現
PR TIMES / 2024年7月22日 14時15分
-
日立、高速・低コストなデータ利活用基盤をAzure上に短期間で構築可能な超高速データベースエンジンHADBのベストプラクティス構成を提供
PR TIMES / 2024年7月11日 13時45分
-
PingCAP、クラウド導入実績2,500社以上のアイレットとパートナー契約を締結
PR TIMES / 2024年7月3日 13時40分
-
オラクル、HeatWave GenAIによる業界初のインデータベースLLMと自動化されたインデータベース・ベクトル・ストアを発表
PR TIMES / 2024年6月30日 22時40分
-
世界最速、NTTのアルゴリズムにより「富岳」の大規模グラフ探索性能が約20%向上 ~スパコン性能ランキング「Graph500」における9期連続世界1位に貢献~
Digital PR Platform / 2024年6月25日 15時7分
ランキング
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください
![](/pc/img/mission/mission_close_icon.png)