Infoseek 楽天

AppleやAnthropicがYouTubeの文字起こしをAIトレーニングに無断で使用との報道

ITmedia NEWS 2024年7月17日 9時11分

 米メディアのProof Newsは7月16日(現地時間)、Wiredと共同で調査した結果、米Appleや米Anthropicなどが自社のAIのトレーニングに大量のYouTube動画の素材を使っていることが分かったと報じた。

 調査によると、4万8000以上のチャンネルから抜き出された17万3536本のYouTube動画の字幕が、Anthropic、Nvidia、Apple、SalesforceなどのAIトレーニングに使われていたという。

 これらの企業は、YouTubeから直接動画を取り込んでいるのではなく、米非営利団体EleutherAIが公開しているAIトレーニング用データセットを利用している。

 EleutherAIはこのデータセット「The Pile」を、「大企業と競争するリソースを持たない個人や企業のために」まとめたとしている。データセットにはYouTubeのスクリプトAPI経由でダウンロードした字幕の他、書籍やWikipediaのテキストも含まれている。

 YouTubeの字幕を利用された配信者には、MrBeast、PewDiePie、マルケス・ブラウンリー氏などの著名人も含まれる。

 ブラウンリー氏はこの件について自身のXアカウントで「Appleは(YouTubeを直接)スクレイピングしてはいないので、技術的には“過失”を回避しているが、これは長期にわたって問題になるだろう」とポストした。

 YouTubeのニール・モーハンCEOは4月、米OpenAIが自社のAIモデルのトレーニングにYouTubeの動画を使っているならば、それは「明らかな違反になる」と語った。

 AnthropicはProof Newsに対して送ったThe Pileを使ったことを認める声明文で、「YouTubeの規約は、プラットフォームの直接使用を対象としており、The Pileのデータセットの使用ではない」と語った。

 SalesforceもThe Pileの使用を認めたが、データセットは公開されているものだと強調した。

 Nvidiaはコメントを控え、Appleはコメント要請に応じなかった。

 Proof Newsは、配信者が自分の動画のスクリプトがThe Pileに含まれるかどうかをチェックするためのツールを公開している。

この記事の関連ニュース