1. トップ
  2. 新着ニュース
  3. IT
  4. IT総合

押さえておきたいLLM用語の基礎解説 第2回 トランスフォーマー・エンコーダー・デコーダー・パラメータ・トークン・コーパス

マイナビニュース / 2024年9月26日 15時0分

ニューラルネットワークモデルにおいては、ニューロンから送られるシグナルの変換関数の設定など、学習において調整可能な値のことを指す。学習の過程でパラメータが変更されることで、モデルの出力がより正確になる。言語モデルにおけるパラメータにも同様の意味があるが、学習率など特に学習で重要なパラメータを「ハイパーパラメータ」と呼ぶ。

パラメータの総数(パラメータ数)は言語モデルの能力に関する一つの指標として扱われる。パラメータ数が大きいモデルほどより高度な予測や推論ができる一方で、学習や推論に必要な計算リソースも増大する。(黒澤)
トークン

LLMにおいては、自然言語を処理する際の最小単位をトークンと呼ぶ。LLMでは入力文字列をトークン列に変換し、出力時にはトークン列から文字列に変換する。この変換処理を行うのがトークナイザーである。

LLMで使用できるトークンの種類の数は有限であり、現在のLLMでは数万種類程度のトークンを使用する。単語単位や文字単位の言語モデルも存在するが、未知語の処理や多言語への拡張が難しいという問題がある。また、出現頻度の低い単語や文字にトークンを割り当てるのは非効率的である。

そこで、頻出の文字列にトークンを積極的に割り当て、効率的なトークン分割を行うようにトークナイザーを作成することで、限られた数のトークンで効率的に言語を表現できるようになる。近年のLLMのトークナイザーは文字をバイト単位まで分割することで多数の言語を扱えるようになっている。(新里)
コーパス

自然言語処理の分野において、コーパスとは大規模に集められたテキストデータのことを指す。LLMの構築において、コーパスはモデルの学習データとして使用される。

LLMの性能は学習データ量の対数に比例するという経験則がある。つまり、モデルの性能を少し上昇させるだけでも、コーパスの量を指数的な規模で増やす必要があるということ。そのため、高性能なLLMを構築するには膨大な量のコーパスが不可欠とされる。

近年のLLMでは、数十テラバイト規模のコーパスが使用されている。これは、新聞記事に換算すると数万年分のテキストデータ量である。このような膨大な規模のデータを収集するために、主にインターネット上から収集されたデータが利用されている。

コーパスの量と質はLLMの性能に直接的な影響を与える重要な要素である。大規模かつ高品質なコーパスを確保することが、高性能なLLMを開発する上での鍵となっている。(新里)

この記事に関連するニュース

トピックスRSS

ランキング

複数ページをまたぐ記事です

記事の最終ページでミッション達成してください