もはや｢ChatGPT｣で騒いでいる場合ではない？深みある日本語を生成するAI｢Claude｣の凄さ

東洋経済オンライン / 2024年7月15日 8時20分

Anthropicの資料によれば、Claude 3.5 Sonnetはより大規模なClaude 3 Opusよりもベンチマークスコアに優れている。自社内での比較だけではなく、ライバルと比べてもスコアの高さは明白だ。

これまでClaude 3が不得手だった映像解析能力が高くなり、資料の中にある図解やグラフなどを読み取る能力でOpenAIやグーグルのモデルに対してリードしている。

しかし有料サービスでClaude 3 Opusを使ってみると、文章の解析や事前学習された知識との関連づけ、より深く文脈を探る能力という面で、前述のように優秀性を感じていたClaude 3.5 Sonnetよりもさらに良い印象となり、その答えの品質は抜きん出ている印象を受ける。

追加資料を与えたうえでの質問の場合、より多くの資料を与えることが可能なうえ、資料ごとの関連性、さらには事前学習されている知識とを深く関連づけていく探索のプロセスが、より複雑かつ広範囲であることがうかがえる。結果としてより深みのある答えやアイデアを示してくれる。

会話を続けていくと、この知識同士の関連づけや質問に対する応答を次々に学習していき、会話のスレッドが長くなるほどに賢くなっていくことを感じる。まるで専門家やマニアのようになっていくのだ。

また、情報同士の関連づけがより深くなることで、誤った結論を導き出すことが少ない。ベンチマーク結果においては3.5 Sonnetのほうが優れているものの、より大規模なモデルである3.0 Opusはより、広範囲の情報を複雑に関連付けた長文を構成する能力にたけている。簡単に言えば"賢い"。

またChatGPTを使っていると、長い会話の中では冒頭で話をしていたり、指示をした内容を忘れていると感じることもあるが、Claude 3 Opusはまったくそのようなことを感じさせない。会話が長くなればなるほど、品質が高くなり、マニアックな回答をし始める。使う言葉遣いすら変化していくほどだ。

進化を続けるAIチャットサービスは、今日さまざまな機能を備えているため、単純に良し悪しを判断することは難しいが、少なくとも文書処理に関しての印象でいえばもっとも良い。Claude 3.5 Opusになった時、どこまでこの品質が向上するのか興味深い。

成果物を一覧できるArtifacts

さらに利便性という面では“Artifacts”という機能が気に入った。おそらくこのアプローチは他社も採用してくるだろう。