1. トップ
  2. 新着ニュース
  3. ライフ
  4. ライフ総合

iPhoneでも使えるようになった、Googleの「Gemini」。一体どんなことができる? ChatGPTとの違いは?

オールアバウト / 2025年1月11日 20時15分

iPhoneでも使えるようになった、Googleの「Gemini」。一体どんなことができる? ChatGPTとの違いは?

Googleによる最新の生成AI「Gemini」が、AndroidスマホだけでなくiPhoneアプリでも利用可能になりました。Geminiにはどのような特徴があり、どんなことが可能になるのでしょうか。また、生成AIの先駆者である「ChatGPT」とは何が違うのでしょうか。(サムネイル画像出典:Tada Images / Shutterstock.com)

Googleが開発した生成AI「Gemini」

生成AIとは、大量のテキストなどを学習し、それをもとにコンテンツを作り出す技術のことです。テキストの作成や言語の翻訳のほか、さまざまな種類のクリエイティブなコンテンツを作成し、人間からの指示に自然な会話形式で回答します。

この分野ではChatGPTが先駆者でしたが、これに対抗してGoogleが発表したのが「Gemini」です。

Googleが以前発表した「Bard」との違い

元々、Googleが開発した対話型の生成AIは「Bard」という名前で公開されていました。その後、より強力な基盤モデルである「Gemini」が登場すると、BardにもGeminiが搭載されるようになりました。つまり、Geminiとは「AIモデル自体の名前」のことで、Bardは「GeminiというAIモデルを利用したサービス」ということです。

現在ではBardという名称は使用されておらず、サービス名もGeminiに統一されています。

Geminiの特徴

ChatGPTに代表される、従来のテキスト中心の生成AIとは異なり、テキスト、画像、音声、動画など、複数の種類の情報を統合的に扱える点がGeminiの大きな特徴です。例えば画像を見せて「この画像に写っているものを説明して」と依頼したり、動画の内容を要約するよう求めたりもできます。

また、Google検索、Gmail、GoogleドキュメントなどGoogleの既存のサービスと連携できるのも特徴です。Gmailに届いたメールの内容に基づいて文章を生成したり、Google検索の結果を要約して提供したりもできます。

まとめると、Geminiは以下のような作業に対応してくれます。

・文章生成:自然な文章を生成し、メール、リポート、記事、ブログ投稿などの作成を支援
・要約:長文を短く要約
・翻訳:複数の言語間での翻訳
・質疑応答:質問に対する回答を生成する
・画像認識:画像の内容の理解、説明、関連情報の提示
・プログラミング:コードの生成や説明、バグの検出
・数学や科学の問題解決:数学や科学の複雑な問題を解く

Geminiを実際に利用してみた

今回はiPhoneのGeminiアプリをダウンロードして、実際に利用してみました。

「この写真に写っているものは何?」

Geminiは画像認識が得意ということなので、筆者が以前作った料理の画像を添付し、「何の料理?」と質問してみました。
Geminiに「何の料理?」と聞いてみた
結果は見事に的中。Geminiからの回答には、そう推測した理由も表示されています。
Geminiは「タコスである可能性が非常に高い」と回答
この画像はネット上で拾ったものではなく、実際に筆者が撮影したものであることを考えると、優れた画像認識能力を持っていると言えます。

「文字起こしして」

次に紙の本の文章をカメラ撮影し、「文字起こしして」と入力してみました。
紙の本の文章を撮影し、Geminiに「文字起こしして」と依頼してみた
「来た」の部分が誤って「きた」と表示されたところ以外は、完璧にテキスト化されました。従来の紙媒体をスキャンし、テキストデータ化する手間を考えると、非常に有用な使い方となりそうです。

「〇〇の画像を生成して」

Geminiには画像を生成する機能も備わっているので、「ビールとワインの画像を生成して」と入力してみました。
Geminiに「ビールとワインの画像を生成して」と依頼
さらに「日本酒も追加して」と入力してみました。
さらに「日本酒も追加して」と依頼
結果は画像の通り。これまでのように目的に適した画像を「探す」のではなく、「生成する」ことが可能になっています。

GeminiとChatGPTの違いは?

GeminiとChatGPTにはどのような違いがあるのでしょうか。それぞれの得意分野を解説します。

Geminiの得意分野

1. マルチモーダル対応:Geminiは「テキスト」「画像」「音声」など、複数の形式を統合的に扱う「マルチモーダル」な能力に長けています。

2. 検索やリアルタイム情報の統合:Google検索やリアルタイム情報との統合が得意で、最新情報を取り入れる能力に長けています。

3. 科学技術分野における専門的な知識:科学技術分野での専門性を強化しており、特に自然科学、工学、データ解析などに関する議論で強みを発揮します。

ChatGPTの得意分野

1. 自然な会話とユーザー体験:ChatGPTは親しみやすい会話スタイルや柔軟な対話設計が得意であり、カジュアルな質問や雑談にも適しています。

2. 創造性と文章生成:小説や詩、スクリプト、エッセイの作成など、創造的な文章生成に秀でており、複雑なアイデアをシンプルに分かりやすくまとめる能力にも長けています。

3. コードやプログラミング支援:ChatGPTはさまざまなプログラミング言語に対応しており、コード作成、バグ修正、アルゴリズム設計、学習資料の提供などに強みがあります。

4. 幅広い一般知識:日常生活に関わる幅広い分野(料理、旅行、教育、趣味など)での情報提供が得意であり、深い専門性よりも、一般的な理解と広範に網羅することを重視しています。

まとめると、専門性が高い質問や画像・音声に関するタスクではGeminiが有利であり、自然な会話や創造的な文章、プログラミングサポートが必要なタスクではChatGPTが有利といえます。
(文:福田 正人(インターネットサービスガイド))

この記事に関連するニュース

トピックスRSS

ランキング

記事ミッション中・・・

10秒滞在

記事にリアクションする

記事ミッション中・・・

10秒滞在

記事にリアクションする

デイリー: 参加する
ウィークリー: 参加する
マンスリー: 参加する
10秒滞在

記事にリアクションする

次の記事を探す

エラーが発生しました

ページを再読み込みして
ください