ウィキペディアが機械翻訳に汚染されてめちゃくちゃだって

GIZMODO / 2019年7月16日 10時10分

wikipedia Photo: Shutterstock

お世話になってます。

Wikipedia(ウィキペディア)さんには何から何まで。翻訳者の友と言ってもよいのではないかと思います。特に便利なのは、左のメニューから選択できる各国語版の存在ですよね。これって英語では何て言うの?っていうときに使えますし、逆にこの薬や花の名前は日本語でなんだっけ、という時にも使えます。これはみなさんもご存知ですよね。

でも、実は本当に使えるのは英語版のWikipediaで、翻訳版の中には機械翻訳に汚染されてしまっている理解不能なWikipediaもあって、その言語の話者を困惑させているという事実はご存知でしょうか。

Wikipediaの方針とガイドラインには「ウィキペディアの目的は、信頼されるフリーな百科事典を、 質も量も史上最大の百科事典を創り上げることです 」とありますね。日本語のWikipediaはほとんどが日本語のネイティブが書いていることがわかるものですが、どうやら各国語のWikipedia、特にあまり人気のない(?)言語に至っては、この編集を機械翻訳でやりはじめたら、読者が困惑しはじめたという事態が発生しているようです。

英語と各国語のWikipediaには情報量に違いあり

Wikipedia最大のコミュニティはもちろん英語で、100万件以上の記事を有する言語は300カ国語中わずか15カ国語。もちろん日本語もその中に含まれています。なんでも統計をとるので有名なInternet World Statsのサイトによれば、ネットで使用されている言語のトップ10にも日本語は含まれています。1位はもちろん英語で次は中国語です。中国ではWikipediaにアクセスできないので必然的に記事数は少し減ります。それでも100万件以上の記事は有しています。

記事の内容についてですが、ときには英語と各国語との差が激しいことがあります。これには気づいている方もいらっしゃるかもしれませんが、英語の文字量と日本語の文字量が違うことも多々あります。また、見ることのできる言語が少ない記事もたくさんあるんです。まあ、ボランティアに頼っているWikipediaですから、仕方ないといえば仕方ないのかもしれませんが。

The vergeによれば、WikipediaはGoogle Translate と提携して記事を翻訳する計画があることが分かっています。Wikimediaのプレスリリースによれば、「ズールー語の話者は1200万人以上いるにもかかわらず、Wikipediaの記事数はわずか1100にすぎない」と嘆いています。多国語に広げたいというわけです。

編集者の要望で生まれたContent Translation Tool

Content-translation-screenshot-e1549908548622 Screenshot: Kaori Myatt

そこでGoogleとともに開発されたのが、こちらのContent Translation Toolなのですが、2019年7月現在の今でもベータ版で、使用は限定されています。それでも今のところ40万件のWikipedia記事をすでにこのツールで翻訳している模様です。このプレスリリースでも明確に、Google Translateをはじめとする、その他の機械翻訳の力を借りて、記事を翻訳していると明示されています。それもボランティアからの強い要望によるものらしく、これによりコンテンツを翻訳できる言語が121言語にも上るようになったとしています。

ただし、残念ながらというか幸いにというか、どうも日本語はなぜかオープンソースのApertiumという機械翻訳を使用しているようです。Apertiumは、スペイン政府とカタルーニャ州政府がアリカンテ大学に資金援助して開発された機械翻訳ツールです。このApertiumではマレー語やノルウェー語の方言すら含まれているのに、日本語はサポートされていまいせん。

Apertium_logo.svg Image: Apertium

このContent Translation Tool、一見便利なようで、どうも危険をはらんでいるようです。というのも、ポルトガル語のモデレータが機械翻訳の出力が悪く「村のポンプ」が「爆弾を村に投下」になっていることに気づいて、それを報告しています。 “village pump” が “ bomba do Village ” に変換されたらしいのですが、Wikipediaの管理人の一人はこれを非常に懸念としており、機械翻訳を言語を解する人間と同一視してはならないと警鐘を鳴らしています。

Human Parityは現実のもの?

最近、機械翻訳の世界では「Human Parity」という言葉がよく聞かれるようになっています。これは人間と等価である、つまり人間なみに翻訳の質が高まっているというキーワードなのですが、実際には人間なみの質が得られているのはごく狭い制限された実験でのみの結果を元にしている場合が多く、多くの言語ではまだそこまでの境地には達していないのが実情なのです。

ポルトガル語のWikipediaには実は機械翻訳が氾濫しており、エディターがむやみやたらに確認もせずに即機械翻訳の出力を投稿しまくっているため、Wikipediaは「信頼できないサイト」のレッテルを一般市民に貼られることになってしまっていると管理人のギョーム・モランディーニさんは嘆いています。

またインドネシア語に至っては、正式に翻訳ツールの使用禁止依頼まで立てている始末。ボスニアのプロバスケットボール選手ユスフ・ヌルキッチのポルトガル語Wikipediaページなどはひどいもので、英語とは正反対の意味が一時掲載されていたようです。(現在は修正済み)これではますますWikipediaの信頼性が損なわれると、一部では懸念の声があがっています。今やGoogleも質はよくなっているとはいうものの、言語によってはまったく使えないものもあるようです。日本語も完璧とは程遠いですよね。

ブラジルのFaculdade Cásper Líbero大学でジャーナリズムの教鞭をふるうジョン・アレクサンドル=ペチャンスキ博士は、The Vergeのインタビューで大切なことを語っています。「 コミュニティが一丸となって機械学習を改善する努力を行うことは議論に価する。なぜなら、(機械翻訳を修正するような)骨の折れるやり方では効率性が失われるからだ」と断言しています。まず全記事で使用するテンプレートですが、この用語も翻訳をするにはやはり文化を背景に考えて翻訳しないと、単なる直訳では通じないことがあります。また全記事のテンプレートなので、ひとつ間違えれば全部間違いになります。

このような背景から、Wikipediaの小さな翻訳記事にはまだまだ間違いがたくさん含まれているようです。そしてその間違いに汚染されてしまったこの現状を修復するのは並々ならぬ努力が必要とのこと...。機械翻訳にはまだまだ開発の余地があるようです。

Source: The Verge

この記事に関連するニュース

トピックスRSS

ランキング