押さえておきたいLLM用語の基礎解説 第2回 トランスフォーマー・エンコーダー・デコーダー・パラメータ・トークン・コーパス
マイナビニュース / 2024年9月26日 15時0分
ニューラルネットワークモデルにおいては、ニューロンから送られるシグナルの変換関数の設定など、学習において調整可能な値のことを指す。学習の過程でパラメータが変更されることで、モデルの出力がより正確になる。言語モデルにおけるパラメータにも同様の意味があるが、学習率など特に学習で重要なパラメータを「ハイパーパラメータ」と呼ぶ。
パラメータの総数(パラメータ数)は言語モデルの能力に関する一つの指標として扱われる。パラメータ数が大きいモデルほどより高度な予測や推論ができる一方で、学習や推論に必要な計算リソースも増大する。(黒澤)
トークン
LLMにおいては、自然言語を処理する際の最小単位をトークンと呼ぶ。LLMでは入力文字列をトークン列に変換し、出力時にはトークン列から文字列に変換する。この変換処理を行うのがトークナイザーである。
LLMで使用できるトークンの種類の数は有限であり、現在のLLMでは数万種類程度のトークンを使用する。単語単位や文字単位の言語モデルも存在するが、未知語の処理や多言語への拡張が難しいという問題がある。また、出現頻度の低い単語や文字にトークンを割り当てるのは非効率的である。
そこで、頻出の文字列にトークンを積極的に割り当て、効率的なトークン分割を行うようにトークナイザーを作成することで、限られた数のトークンで効率的に言語を表現できるようになる。近年のLLMのトークナイザーは文字をバイト単位まで分割することで多数の言語を扱えるようになっている。(新里)
コーパス
自然言語処理の分野において、コーパスとは大規模に集められたテキストデータのことを指す。LLMの構築において、コーパスはモデルの学習データとして使用される。
LLMの性能は学習データ量の対数に比例するという経験則がある。つまり、モデルの性能を少し上昇させるだけでも、コーパスの量を指数的な規模で増やす必要があるということ。そのため、高性能なLLMを構築するには膨大な量のコーパスが不可欠とされる。
近年のLLMでは、数十テラバイト規模のコーパスが使用されている。これは、新聞記事に換算すると数万年分のテキストデータ量である。このような膨大な規模のデータを収集するために、主にインターネット上から収集されたデータが利用されている。
コーパスの量と質はLLMの性能に直接的な影響を与える重要な要素である。大規模かつ高品質なコーパスを確保することが、高性能なLLMを開発する上での鍵となっている。(新里)
この記事に関連するニュース
-
『大規模言語モデル(LLM)白書2024年版 ー モデルの拡張・応用・特化型・プラットフォーム動向篇』 発刊のお知らせ
PR TIMES / 2024年10月15日 12時45分
-
SoftBank World 2024にてAiHUBのバーチャルヒューマン「Sali」がナビゲーターとして登場
PR TIMES / 2024年10月4日 19時40分
-
Gemma 2の日本語継続事前学習モデル「Gemma 2 Baku 2B」シリーズを公開
PR TIMES / 2024年10月4日 17時40分
-
リコー、モデルマージの手法で700憶パラメータの日本語LLMを開発
マイナビニュース / 2024年9月30日 18時29分
-
リコー、モデルマージによってGPT-4と同等の高性能な日本語LLM(700億パラメータ)を開発
Digital PR Platform / 2024年9月30日 11時3分
ランキング
-
1Xのブロック機能や規約の変更後、Blueskyに50万人の新規ユーザー
ITmedia NEWS / 2024年10月19日 10時31分
-
2めざましテレビが「まいたけダンス」紹介→元ネタのVTuberに触れずさまざまな意見 「何も紹介が無いのは違う」「フリー素材扱いしたかったのかな?」
ねとらぼ / 2024年10月16日 17時34分
-
3新型iPad mini、性能上がり6000円値下げ 「お買い得」「以前の価格に戻った」などの声
iza(イザ!) / 2024年10月16日 13時8分
-
4【無料ゲーム】アマゾン「Prime Gaming」2024年10月の特典はこれだ
ASCII.jp / 2024年10月15日 17時0分
-
5「素で叫んだ」 マクドナルド公式の“意味深”画像 → “背景に隠されたもの”にツッコミ殺到 「背後霊が見える」「サブリミナルは草」
ねとらぼ / 2024年10月19日 13時4分
複数ページをまたぐ記事です
記事の最終ページでミッション達成してください