新聞記事から作成した「単語ベクトル」を公開
PR TIMES / 2017年11月7日 11時1分
朝日新聞社・レトリバ共同研究の成果を社会還元
株式会社朝日新聞社(代表取締役社長: 渡辺雅隆)は、株式会社レトリバ(代表取締役社長:河原一哉)と自然言語処理<注1>分野における共同研究契約を結び、今年7月より研究を進めています<注2>。その成果の一部を「単語(埋め込み)ベクトル」(以下、単語ベクトル)という形で研究者向けに原則無償で公開し、技術を還元します。
今回公開するのは、1984年8月~2017年8月の朝日新聞の記事データ約800万件(延べ約24億単語)から獲得した、単語ベクトルと呼ばれる日本語研究用の資源です。単語ベクトルとは、文章中に含まれる単語が、どのような単語と一緒に使われるか、その傾向を機械学習の技術を使って学習し、その特徴を300個の数字で数値化(ベクトル化)したものです。単語の特徴を数値化することで、コンピューターで自然言語が扱いやすくなります。世界では、単語ベクトルの利用によって自動翻訳や要約、音声認識など自然言語処理の研究が加速しています。
たとえば、「大きな」と「大きい」という二つの単語は数値的に似た単語ベクトルで表されますし、対義語である「大きい」と「小さい」も、使われ方が似ていることから、これらも似た単語ベクトルで表されます。
公開する単語ベクトルは、米グーグルが提案したword2vec<注3>と呼ばれる手法、および米スタンフォード大学の研究チームが提案したGloVe<注4>と呼ばれる手法で生成したものを、研究者が使いやすいフォーマットに整えたもので、約75万語にのぼります。さらに、これらの単語ベクトルをもとに、同義語同士が似た単語ベクトルの関係になるように調整した別の単語ベクトル<注5>も公開します。
自然言語処理を研究する上で、単語ベクトルは必要不可欠なものになってきました。単語ベクトルを生成するには大規模な文章データが必要で、特に日本語の単語ベクトルを作るためには、無償で公開されている日本語のWikipediaを使うなどしかありませんでした。今回は、朝日新聞社とレトリバの共同研究で使用している単語ベクトルを公開することで、日本語処理研究の活性化と、さらには他の研究者からのフィードバックによる、本共同研究の加速を図ります。
<注1> 「自然言語」は、人間が使う言葉の総称で、自然言語処理は人工知能(AI)を支える研究分野の一つです。
<注2> https://prtimes.jp/main/html/rd/p/000000369.000009214.html
<注3> https://code.google.com/archive/p/word2vec/
<注4> https://nlp.stanford.edu/projects/glove/
<注5> 詳細は論文「田口雄哉、田森秀明、人見雄太、西鳥羽二郎、菊田洸「同義語を考慮した日本語単語分散表現の学習」情報処理学会第233回自然言語処理研究会、Vol.2017-NL-233、No.17、pp.1-5、2017年10月」をご参照下さい。
本件の詳細は下記のURLをご覧ください。
http://www.asahi.com/shimbun/medialab/word_embedding/
朝日新聞社は、新規事業の開発やAIをはじめとする最先端技術の研究にあたる社内組織であるメディアラボと、社内のシステム開発や業務イノベーションに向けたIT技術研究・開発、技術者の育成を担う情報技術本部が中心となり、AIを利用した新事業開発・業務改革を進めています。本共同研究では、朝日新聞社から若手エンジニア数人をレトリバへ派遣して、両社でノウハウを積極的に共有しています。
■朝日新聞社の関連部門
〈メディアラボ〉メディア環境の激変に立ち向かい、自らの殻を突き破るための新組織として2013年に発足。5年、10年先を視野に事業刷新と成長をめざし、新たなメディアの創造を含む新商品・新事業の開発、最先端技術の研究に取り組む。
〈情報技術本部〉2015年、社内のIT技術者を統合して発足した組織。新聞製作や社内業務、「朝日新聞デジタル」のシステム開発、社内の業務革新を目的としたIT技術研究・開発、技術者育成などを担当する。
■株式会社レトリバ
2016年11月、株式会社プリファードインフラストラクチャーからスピンアウトしたスタートアップ企業。「お客様の課題を最先端の技術で解決する」をミッションとしている。自然言語処理、機械学習、深層学習をコアテクノロジーとして、コールセンターの問い合わせ分析や回答支援などのソリューションおよび数多くのソフトウェアを提供している。
本社:〒102-0071 東京都千代田区富士見 1-12-1 Q-DAN 1991ビル 4階
URL:https://retrieva.jp/
企業プレスリリース詳細へ
PR TIMESトップへ
この記事に関連するニュース
-
NECが40年に亘りコンテストに協賛
PR TIMES / 2024年9月19日 14時40分
-
DeepL、用語集にジェネレーター機能の追加を含む複数機能のアップデートを実施
PR TIMES / 2024年9月19日 10時45分
-
押さえておきたいLLM用語の基礎解説 第1回 AI・大規模言語モデル・生成AI・ニューラルネットワーク・ディープラーニング
マイナビニュース / 2024年9月10日 7時0分
-
朝日新聞社が2024年度新聞協会賞と新聞技術賞を同時受賞
PR TIMES / 2024年9月8日 3時40分
-
第19回YANSシンポジウムにて大規模言語モデル活用を加速する2つの成果を発表、一部成果のモデルを公開
PR TIMES / 2024年9月8日 2時40分
ランキング
-
1ミニストップ、外国籍の利用客に“不適切な張り紙” 「問題を重く受け止め」謝罪
ORICON NEWS / 2024年9月20日 15時53分
-
2あの「ポーター」が人気商品を大胆に変えた裏側 価格2倍にしても素材変えた吉田カバンの挑戦
東洋経済オンライン / 2024年9月20日 13時0分
-
3「令和のコメ騒動」不足解消でも楽観できない事情 人口減少社会で「農地改革」が進まない本当の理由
東洋経済オンライン / 2024年9月20日 8時0分
-
4引っ越しをしたときにNHK受信契約をしないまま15年が経ちました。今後さかのぼって請求されることはありますか?
ファイナンシャルフィールド / 2024年9月19日 4時20分
-
5東京メトロは「郵政IPOの悲劇」二の舞を防げるか? 求められる戦略は
ITmedia ビジネスオンライン / 2024年9月20日 14時15分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください