OpenAI、言語モデル評価のためのベンチマークツール「simple-evals」

マイナビニュース / 2024年4月15日 15時44分

画像提供：マイナビニュース

OpenAIは現地時間12日、言語モデル評価のためのベンチマークツール「simple-evals」をGitHub公式リポジトリに公開した。従来公開していたLLM評価ベンチマークツール「evals」の軽量版に位置する「simple-evals」は、最新モデル(gpt-4-turbo-2024-04-09以降)で公開している数値の透明性を保つためにオープンソースで公開しており、以下の各スコアを評価する。

MMLU: 大規模なマルチタスクの言語理解を測定
MATH: MATHデータセットを使用した数学的問題解決の測定
GPQA: 大学院レベルの Google実証済みQ&Aベンチ
DROP: 段落にわたる個別の推論を必要とする読解ベンチマーク
MGSM: 多言語小学校算数ベンチマーク
HumanEval: コードでトレーニングされた大規模な言語モデルの評価

evalsと比較してロールプレイングプロンプト(あなたは専門のソフトウェアプログラマです)などに左右されにくいゼロショットでの思考連鎖を強調するベンチマークだがevalsの置き換えを意図するものではないと説明している。なお、OpenAIの公式Xには課金ユーザーで使用可能になっているgpt-4-turbo-2024-04-09のベンチマークをグラフで掲載している。

外部リンク

ChatGPTがアカウント登録なしで利用可能に

この記事に関連するニュース

GPT-4に日本語特化モデル　OpenAI Japan始動会見で発表
ITmedia NEWS / 2024年4月15日 15時56分
OpenAI、更新版「GPT-4 Turbo」を「ChatGPT Plus」などで提供開始
ITmedia NEWS / 2024年4月13日 7時52分
みんがく、開発・運営を手掛けるスクールAIに、高度な画像認識ができる最新版バージョン「gpt-4-turbo-2024-04-09」を実装
PR TIMES / 2024年4月12日 13時15分
企業用ChatGPTサービス「ChatPro」が「GPT-4 Turbo」の最新版に対応予定。GPT-4の改良版モデル。数学・コーディングでの性能が向上。
PR TIMES / 2024年4月11日 10時0分
ギブリー、ChatGPT活用プラットフォーム法人GAI・行政GAIにて「gpt-4-turbo-2024-04-09」に対応開始
PR TIMES / 2024年4月10日 16時45分

ランキング

総合
芸能
社会
スポーツ
経済
国際
IT
ライフ

1

【速報】衆院3補選で自民全敗「納得する」が79％　5月JNN世論調査
TBS NEWS DIG Powered by JNN / 2024年5月5日 22時33分
2

67歳・月の年金7万円「年金制度を信用していなかった」女性の後悔
オールアバウト / 2024年5月5日 20時5分
3

ヒカキン「年内4000万人」ペースで“超爆増”も…「登録者買ってない？」疑惑に本人が言及
スポニチアネックス / 2024年5月5日 20時1分
4

「アンチヒーロー」古い写真の中の人物にネット騒然「吹石一恵さん！？」「お久しぶり？」9年ぶり一瞬
スポニチアネックス / 2024年5月5日 21時56分
5

『鬼滅の刃』時透兄弟の物語に号泣の嵐　無一郎の無は“無限の無”「有一郎の優しさ…」「切ない」
ORICON NEWS / 2024年5月5日 22時20分

もっと見る

1

ヒカキン「年内4000万人」ペースで“超爆増”も…「登録者買ってない？」疑惑に本人が言及
スポニチアネックス / 2024年5月5日 20時1分
2

「アンチヒーロー」古い写真の中の人物にネット騒然「吹石一恵さん！？」「お久しぶり？」9年ぶり一瞬
スポニチアネックス / 2024年5月5日 21時56分
3

『鬼滅の刃』時透兄弟の物語に号泣の嵐　無一郎の無は“無限の無”「有一郎の優しさ…」「切ない」
ORICON NEWS / 2024年5月5日 22時20分
4

大河「光る君へ」伊藤アナの語り「死に絶えた」に視聴者驚愕「ごっそりナレ死」「大河史上最大では」
iza（イザ！） / 2024年5月5日 20時45分
5

山田邦子と共演NG！？「私のこと嫌ってると思う」女性タレント告白　「年齢は一緒なんだけど…」
スポニチアネックス / 2024年5月5日 22時40分

もっと見る

1

【速報】衆院3補選で自民全敗「納得する」が79％　5月JNN世論調査
TBS NEWS DIG Powered by JNN / 2024年5月5日 22時33分
2

「化学薬品かも」京都駅で不審物みつかりホーム封鎖→その後「忘れ物」と判明し遺失物として返還　連休中の駅が騒然
ABCニュース / 2024年5月5日 20時58分
3

桜島で爆発的噴火　噴煙1300メートル　噴石7合目まで飛散
MBC南日本放送 / 2024年5月5日 23時15分
4

【速報】岸田内閣の支持率29.8％　前回調査より7.0ポイント上昇　5月JNN世論調査
TBS NEWS DIG Powered by JNN / 2024年5月5日 22時32分
5

横浜のマンションで、群馬の高2女子生徒を3カ月近く誘拐か　男2人逮捕
カナロコ by 神奈川新聞 / 2024年5月6日 5時0分

もっと見る

1

中日・高橋宏斗　完封目前で自らの守乱に猛反省「ヘボすぎ」「プロ野球選手じゃない」
スポニチアネックス / 2024年5月5日 21時54分
2

大谷連発10号、衝撃141mはドジャースタジアム歴代3位！　遂に昨季上回る年間45発ペース、4-4大暴れで勝利貢献
THE ANSWER / 2024年5月6日 7時23分
3

リーグワン７位のトヨタが１０選手の退団を発表…ＳＯバレット、ＳＨ福田健太ら主力も　ヘリングＨＣも今季限りで退く
スポーツ報知 / 2024年5月6日 0時25分
4

山中慎介氏「東京ドームがさらに2人を熱くする」　尚弥VSネリを展望「終盤までいかない」
スポニチアネックス / 2024年5月5日 22時56分
5

徳島退団のMF西谷和希「4年間、大変お世話になりました」　元同僚に感謝の言葉「ずっと憧れ」
FOOTBALL ZONE / 2024年5月5日 20時20分

もっと見る

1

日本の名目ＧＤＰ、２０２５年にインドに抜かれ世界５位へ…円安でドル換算が目減り
読売新聞 / 2024年5月5日 18時59分
2

アングル：インドＩＴ企業、地方都市へ相次ぎ進出　人材確保やコスト削減狙い
ロイター / 2024年5月6日 8時3分
3

低所得国支援に1620億円　鈴木財務相、ADB総会誘致表明
共同通信 / 2024年5月5日 22時51分
4

相鉄線「屈指の閑散駅」ついに一新へ！大幅イメチェン＆新改札も完成時期は？
乗りものニュース / 2024年5月4日 8時42分
5

大手損保が断ち切れない代理店への過剰な忖度いまだ横行する｢社員代行｣｢テリトリー制｣
東洋経済オンライン / 2024年5月3日 7時0分

もっと見る

1

イスラエル、テレビ局アル・ジャジーラの支局閉鎖を閣議決定…警察が機器を押収
読売新聞 / 2024年5月5日 23時26分
2

習主席の妻、軍の審査委員就任か　香港紙報道、SNSに写真出回る
共同通信 / 2024年5月5日 23時20分
3

ベルギーに亡命した中国内蒙古自治区政府の元法律顧問、逮捕時に没収された高価な孫文銀貨101枚の返還を習近平国家主席に要求
NEWSポストセブン / 2024年5月6日 7時15分
4

イギリス地方選で与党・保守党が大敗、支持率最低レベル…１４年ぶり政権交代が現実味
読売新聞 / 2024年5月6日 0時4分
5

ガザ休戦交渉、平行線か　イスラエル、戦闘終結拒否
共同通信 / 2024年5月6日 0時51分

もっと見る

1

GWのUターンラッシュでスマホを活用する技　道路の渋滞情報と、電車の混雑状況を確認しやすいアプリはどれ？
ITmedia Mobile / 2024年5月5日 19時25分
2

「広告の女の子誰!?」「かわいいな」　ポカリの新CMに出演、ファッション誌で活躍する2人が注目集める
ねとらぼ / 2024年5月3日 8時15分
3

『ポケモンGO』普段、日本じゃゲットできないポケモンに会える！48時間の“激レア色違い”が熱い「ライバルイベント」ポイントまとめ
インサイド / 2024年5月4日 0時0分
4

iPhone8でのプレイができなくなるかも？ジンオウガ狩猟中の不具合は次回アップデートで改善予定【モンハンNow】
ガジェット通信 / 2024年5月6日 6時30分
5

「意味不明な満足度」「ビビリます」　サイゼリヤで1万円分食べてみたら……？　コスパ良すぎてもはや恐怖
ねとらぼ / 2024年5月5日 17時0分

もっと見る

1

67歳・月の年金7万円「年金制度を信用していなかった」女性の後悔
オールアバウト / 2024年5月5日 20時5分
2

しゃぶしゃぶ食べ放題「しゃぶ葉」が好調。競合店から“圧倒的な大差”をつけるポイントとは
女子SPA！ / 2024年5月3日 8時46分
3

国民ブチギレ!? なぜ「13年」で”自動車税”高くなるのか軽自動車は20%加算も!? 「やってらんない税」「税金安くしろよ」の声上がる理不尽な重課措置の仕組みとは
くるまのニュース / 2024年5月3日 12時0分
4

枯れたミントを畑に捨てたら…3年後に「地獄絵図」、繁殖力に地主も後悔「土の総入れ替えしかない」
まいどなニュース / 2024年5月3日 7時10分
5

退職後のがん患者にとって「幸せな食事」とは何か…療養食開発者が味以上にこだわったこと
日刊ゲンダイDIGITAL / 2024年5月6日 9時6分

もっと見る

記事ミッション中･･･

10秒滞在

記事にリアクションする

記事ミッション中･･･

10秒滞在

記事にリアクションする

デイリー：参加する

ウィークリー：参加する

マンスリー：参加する

ポイント獲得ページへ

10秒滞在

記事にリアクションする

次の記事を探す

エラーが発生しました

ページを再読み込みして
ください