生成AI活用の格差解消へ。インドで“ヒンディー語対応”の言語モデルを構築、スタートアップSarvam AIのアプローチ
Techable / 2024年1月31日 18時0分
近年、ChatGPTをはじめとする「生成AI」が世界中で注目を集めている。しかし、生成AIの対応言語は英語であることが多く、英語話者の少ない国では生成AIの活用がはばかられている。
とくに、ヒンディー語を公用語とするインドでは、英語が準公用語であるものの、英語を流暢に話せる人の割合は少ないという。
AIを活用できる人とできない人の格差が生まれるなか、インドの生成AIスタートアップ企業Sarvam AIはヒンディー語対応のオープンソース言語モデルを開発した。
GPT-3.5と同等の言語モデル「OpenHathi」Sarvam AIは2023年に設立されたばかりの生成AIスタートアップ。「OpenHathi-Hi-0.1」と呼ばれる初のオープンソースのヒンディー語言語モデルをリリースしている。
同モデルは、リーズナブルな価格でGPT-3.5のような性能をヒンディー言語でも取得できるように、計算とデータの制約の下で訓練されたもの。Llama2-7Bの上に構築されており、そのトークナイザーを48Kトークンに拡張するという。
OpenHathi-Hi-0.1の学習プロセスは2段階。最初のフェーズでは、ランダムに初期化されたヒンディー語埋め込みを調整する。2つ目のフェーズではバイリンガル言語モデリング。ここでは、トークン間で言語を超えてモデルをトレーニングする。
なお、OpenHathi-Hi-0.1はテキストと音声の両方に対応しており、今後はインド企業と提携しデータに基づいたAIモデルを構築していく予定だ。
設立から5か月で4,100万ドルを調達Sarvam AIの設立者のVivek Raghavan氏とPratyush Kumar氏は、以前インド研究機関のAI4Bharatで働いていた。
AI4Bharatは、インド言語のオープンソースモデルやアプリケーションの開発に取り組んでいる。OpenHathi-Hi-0.1の開発に際し、Sarvam AIは同研究室と提携し、言語リソースとベンチマークを活用したという。
2023年12月、Sarvam AIはLightspeedやPeak XV Partners、Khosla Venturesが主導するシリーズAラウンドで4,100万ドルを調達した。設立からわずか5か月での資金調達ということで注目が集まっている。
参考・引用元:Sarvam AI
(文・山田)
外部リンク
この記事に関連するニュース
-
RAG型生成AIサービス【OfficeBot】が画像認識に対応
@Press / 2024年11月22日 11時30分
-
企業向けRAGサービス「ChatSense」、最新の「GPT-4o」(11月アップデート版)に対応予定
PR TIMES / 2024年11月21日 14時45分
-
法人向け生成AIプラットフォームAskDona、Claude 3.5 Haikuに対応!
PR TIMES / 2024年11月13日 12時40分
-
AskDona RAG、ChatGPTの追加学習で社内ナレッジを最大限に活用!~新機能「システムメッセージテンプレート」提供開始~
PR TIMES / 2024年11月7日 11時45分
-
京都市の社会福祉施設「COCO・てらす」がRAG型生成AIサービス【OfficeBot】を採用
@Press / 2024年10月25日 11時30分
ランキング
-
1【最新】Wi-Fiルーターだけはいいものを買え、今ならこれでキマリだ
ASCII.jp / 2024年11月23日 17時0分
-
2Switchで遊べるヴァンサバ系ゲーム5選!強化しまくって大量の敵を一掃する「俺TUEEE!」が超気持ちいい
インサイド / 2024年11月23日 15時0分
-
3ただの古いパイプ椅子だと思ったら…… JR東日本が販売している“鉄道古物”にツッコミ殺到 「この商品が刺さる層いるのか」「嘘ではない」
ねとらぼ / 2024年11月23日 20時40分
-
4プロが教える「PCをオフにする時はシャットダウンとスリープ、どっちがいいの?」 理想の選択肢は意外にも…… 「有益な情報ありがとう」「感動しました
ねとらぼ / 2024年11月20日 22時0分
-
5「しぬwww」「怖すぎ」 かわいいカメを“絵文字ミックス”したら…… 爆誕した“バケモノ”が2200万表示 衝撃ビジュアルに「笑いすぎて涙」
ねとらぼ / 2024年11月23日 20時20分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください