OpenAI、言語モデル評価のためのベンチマークツール「simple-evals」
マイナビニュース / 2024年4月15日 15時44分
OpenAIは現地時間12日、言語モデル評価のためのベンチマークツール「simple-evals」をGitHub公式リポジトリに公開した。従来公開していたLLM評価ベンチマークツール「evals」の軽量版に位置する「simple-evals」は、最新モデル(gpt-4-turbo-2024-04-09以降)で公開している数値の透明性を保つためにオープンソースで公開しており、以下の各スコアを評価する。
MMLU: 大規模なマルチタスクの言語理解を測定
MATH: MATHデータセットを使用した数学的問題解決の測定
GPQA: 大学院レベルの Google実証済みQ&Aベンチ
DROP: 段落にわたる個別の推論を必要とする読解ベンチマーク
MGSM: 多言語小学校算数ベンチマーク
HumanEval: コードでトレーニングされた大規模な言語モデルの評価
evalsと比較してロールプレイングプロンプト(あなたは専門のソフトウェア プログラマです)などに左右されにくいゼロショットでの思考連鎖を強調するベンチマークだがevalsの置き換えを意図するものではないと説明している。なお、OpenAIの公式Xには課金ユーザーで使用可能になっているgpt-4-turbo-2024-04-09のベンチマークをグラフで掲載している。
外部リンク
この記事に関連するニュース
-
GPT-4に日本語特化モデル OpenAI Japan始動会見で発表
ITmedia NEWS / 2024年4月15日 15時56分
-
OpenAI、更新版「GPT-4 Turbo」を「ChatGPT Plus」などで提供開始
ITmedia NEWS / 2024年4月13日 7時52分
-
みんがく、開発・運営を手掛けるスクールAIに、高度な画像認識ができる最新版バージョン「gpt-4-turbo-2024-04-09」を実装
PR TIMES / 2024年4月12日 13時15分
-
企業用ChatGPTサービス「ChatPro」が「GPT-4 Turbo」の最新版に対応予定。GPT-4の改良版モデル。数学・コーディングでの性能が向上。
PR TIMES / 2024年4月11日 10時0分
-
ギブリー、ChatGPT活用プラットフォーム法人GAI・行政GAIにて「gpt-4-turbo-2024-04-09」に対応開始
PR TIMES / 2024年4月10日 16時45分
ランキング
-
1GWのUターンラッシュでスマホを活用する技 道路の渋滞情報と、電車の混雑状況を確認しやすいアプリはどれ?
ITmedia Mobile / 2024年5月5日 19時25分
-
2「広告の女の子誰!?」「かわいいな」 ポカリの新CMに出演、ファッション誌で活躍する2人が注目集める
ねとらぼ / 2024年5月3日 8時15分
-
3『ポケモンGO』普段、日本じゃゲットできないポケモンに会える!48時間の“激レア色違い”が熱い「ライバルイベント」ポイントまとめ
インサイド / 2024年5月4日 0時0分
-
4iPhone8でのプレイができなくなるかも?ジンオウガ狩猟中の不具合は次回アップデートで改善予定【モンハンNow】
ガジェット通信 / 2024年5月6日 6時30分
-
5「意味不明な満足度」「ビビリます」 サイゼリヤで1万円分食べてみたら……? コスパ良すぎてもはや恐怖
ねとらぼ / 2024年5月5日 17時0分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください