新聞記事から作成した「単語ベクトル」を公開
PR TIMES / 2017年11月7日 11時1分
朝日新聞社・レトリバ共同研究の成果を社会還元
株式会社朝日新聞社(代表取締役社長: 渡辺雅隆)は、株式会社レトリバ(代表取締役社長:河原一哉)と自然言語処理<注1>分野における共同研究契約を結び、今年7月より研究を進めています<注2>。その成果の一部を「単語(埋め込み)ベクトル」(以下、単語ベクトル)という形で研究者向けに原則無償で公開し、技術を還元します。
今回公開するのは、1984年8月~2017年8月の朝日新聞の記事データ約800万件(延べ約24億単語)から獲得した、単語ベクトルと呼ばれる日本語研究用の資源です。単語ベクトルとは、文章中に含まれる単語が、どのような単語と一緒に使われるか、その傾向を機械学習の技術を使って学習し、その特徴を300個の数字で数値化(ベクトル化)したものです。単語の特徴を数値化することで、コンピューターで自然言語が扱いやすくなります。世界では、単語ベクトルの利用によって自動翻訳や要約、音声認識など自然言語処理の研究が加速しています。
たとえば、「大きな」と「大きい」という二つの単語は数値的に似た単語ベクトルで表されますし、対義語である「大きい」と「小さい」も、使われ方が似ていることから、これらも似た単語ベクトルで表されます。
公開する単語ベクトルは、米グーグルが提案したword2vec<注3>と呼ばれる手法、および米スタンフォード大学の研究チームが提案したGloVe<注4>と呼ばれる手法で生成したものを、研究者が使いやすいフォーマットに整えたもので、約75万語にのぼります。さらに、これらの単語ベクトルをもとに、同義語同士が似た単語ベクトルの関係になるように調整した別の単語ベクトル<注5>も公開します。
自然言語処理を研究する上で、単語ベクトルは必要不可欠なものになってきました。単語ベクトルを生成するには大規模な文章データが必要で、特に日本語の単語ベクトルを作るためには、無償で公開されている日本語のWikipediaを使うなどしかありませんでした。今回は、朝日新聞社とレトリバの共同研究で使用している単語ベクトルを公開することで、日本語処理研究の活性化と、さらには他の研究者からのフィードバックによる、本共同研究の加速を図ります。
<注1> 「自然言語」は、人間が使う言葉の総称で、自然言語処理は人工知能(AI)を支える研究分野の一つです。
<注2> https://prtimes.jp/main/html/rd/p/000000369.000009214.html
<注3> https://code.google.com/archive/p/word2vec/
<注4> https://nlp.stanford.edu/projects/glove/
<注5> 詳細は論文「田口雄哉、田森秀明、人見雄太、西鳥羽二郎、菊田洸「同義語を考慮した日本語単語分散表現の学習」情報処理学会第233回自然言語処理研究会、Vol.2017-NL-233、No.17、pp.1-5、2017年10月」をご参照下さい。
本件の詳細は下記のURLをご覧ください。
http://www.asahi.com/shimbun/medialab/word_embedding/
朝日新聞社は、新規事業の開発やAIをはじめとする最先端技術の研究にあたる社内組織であるメディアラボと、社内のシステム開発や業務イノベーションに向けたIT技術研究・開発、技術者の育成を担う情報技術本部が中心となり、AIを利用した新事業開発・業務改革を進めています。本共同研究では、朝日新聞社から若手エンジニア数人をレトリバへ派遣して、両社でノウハウを積極的に共有しています。
■朝日新聞社の関連部門
〈メディアラボ〉メディア環境の激変に立ち向かい、自らの殻を突き破るための新組織として2013年に発足。5年、10年先を視野に事業刷新と成長をめざし、新たなメディアの創造を含む新商品・新事業の開発、最先端技術の研究に取り組む。
〈情報技術本部〉2015年、社内のIT技術者を統合して発足した組織。新聞製作や社内業務、「朝日新聞デジタル」のシステム開発、社内の業務革新を目的としたIT技術研究・開発、技術者育成などを担当する。
■株式会社レトリバ
2016年11月、株式会社プリファードインフラストラクチャーからスピンアウトしたスタートアップ企業。「お客様の課題を最先端の技術で解決する」をミッションとしている。自然言語処理、機械学習、深層学習をコアテクノロジーとして、コールセンターの問い合わせ分析や回答支援などのソリューションおよび数多くのソフトウェアを提供している。
本社:〒102-0071 東京都千代田区富士見 1-12-1 Q-DAN 1991ビル 4階
URL:https://retrieva.jp/
企業プレスリリース詳細へ
PR TIMESトップへ
この記事に関連するニュース
-
身体性の有無による人間と機械の言語処理プロセスの違いの解明に向けたオノマトペ音象徴性の分析を行った論文が「2024年度 人工知能学会全国大会」にて発表採択
PR TIMES / 2024年4月24日 13時15分
-
フィックスターズ、生成AI/LLM技術で、日本経済のさらなる成長に向けて、株式会社レトリバ社との資本業務提携締結のお知らせ
PR TIMES / 2024年4月24日 12時45分
-
レトリバ、生成AI/LLM技術で、日本経済のさらなる成長に向けて、株式会社フィックスターズとの資本業務提携締結のお知らせ
PR TIMES / 2024年4月24日 12時15分
-
ネイティブに近い表現を習得できる!〈ChatGPT〉で英語力を劇的に上げる活用法とは【専門家が解説】
THE GOLD ONLINE(ゴールドオンライン) / 2024年4月19日 11時15分
-
ファーストアカウンティングがNLP2024にてプラチナスポンサーとして参加、ポスター発表も行いました
PR TIMES / 2024年4月15日 16時15分
ランキング
-
1日銀がこれほどまで円安を「無視」する3つの理由 「為替は管轄外」では、結局うまくいかない?
東洋経済オンライン / 2024年5月4日 9時30分
-
224年度の企業倒産、1万件超か 原材料高、人手不足が収支圧迫
共同通信 / 2024年5月4日 15時30分
-
3相鉄線「屈指の閑散駅」ついに一新へ! 大幅イメチェン&新改札も 完成時期は?
乗りものニュース / 2024年5月4日 8時42分
-
4箱根にフロントもない「無人ホテル」開業 〝不便さ〟感じる? 記者が体験してみた
カナロコ by 神奈川新聞 / 2024年5月4日 18時38分
-
5過度な動き「ならす必要も」=円安、介入コメントせず―鈴木財務相
時事通信 / 2024年5月3日 23時51分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください