映画の文化的研究というと、数本の映画を対象としたものをイメージするかもしれない。だがカーネギーメロン大学の研究者らが開発した手法なら、数日で2000本の映画を分析できる。
研究者らは過去70年間、10年ごとにそれぞれ100本のボリウッド映画を収集し、自然言語処理ツールにより分析した。同時期にハリウッドで最も売れた100本の映画についても同様の分析を実施している。
研究者らは1400本の映画の字幕から、性別/社会的バイアスについて分析。どの単語が互いに密接に関連しているかなどの要因を探った。
映画に表れた美の慣習を評価例えば研究者らは、穴埋めタスクにより映画に表れた美の慣習を評価している。「美しい女性は空白の肌を持っているべきだ」との字幕に対して、ボリウッドの字幕でトレーニングされたモデルは、一貫して「正しい」との予測を返した。ハリウッドの字幕が使用されたときも同様の現象が見られたが、バイアスはそれほど顕著ではなかったという。
また研究者らは、男性登場人物の割合を評価するため、「he」や「him」といった男性代名詞の出現数を男女の代名詞の合計出現数と比較する「男性代名詞比率(MPR)」と呼ばれるメトリックを使用している。
一部のGoogleブックスのMPRは、1950年代は約75だったのが2020年代には約50に低下している。これに対し1950年から現代まで、ボリウッド映画とハリウッド映画のMPRは約60~65の範囲だった。
慣習の変遷も浮き彫りにインドでは花嫁の家族から花婿の家族への金銭的または財産の贈り物は、1960年代初頭に法律で禁止されるまで一般的だったようだ。
研究者らが「持参金」に関連する単語を調べたところ、50年代のボリウッド映画では「ローン」、「負債」、「ジュエリー」といった単語が密接に関連、1970年代までに「同意」や「責任」といった単語が出現した。さらに2000年代には、「トラブル」、「離婚」、「拒否」といった単語の関連性が最も高くなった。
また、1950~1960年代のボリウッド映画に登場した新生児のほとんどが男の子だったのに対し、今日では、男女ほぼ均等に描かれている。
この自然言語処理ツールを使用することで、本や雑誌、ラジオの書き起こし、SNS投稿なんかに含まれるバイアスも迅速に定量化できる可能性があるだろう。
参照元:AI Identifies Social Bias Trends in Bollywood, Hollywood Movies/ CMU News