ニュース

「Gemini 2.5」の音声機能はどう進化した? Googleがその全容を紹介

 Google(グーグル)は、「Gemini 2.5」のネイティブオーディオ(native audio)の最新機能について、公式ブログで紹介した。

リアルタイム音声対話

 「Gemini 2.5 Flash」のプレビューでは、より高音質かつ適切な表現で、韻律を備えた音声での応答が、非常に短いレイテンシーで提供されるため、スムーズに会話できる。

【リアルタイム音声対話】

 また、自然言語のプロンプトを使用すると、会話の話し方を調整し、特定のアクセントを取り入れたり、さまざまなトーンや感情を作り出したりできる。

 会話のコンテキスト認識(proactive audio)では、背景の音声や周囲の会話、その他の無関係な音声を識別して、こうした音声は無視するようにトレーニングされているため、ユーザーは、Geminiとの会話に集中できる。

 音声・動画認識では、ストリーミング音声と動画をネイティブサポートしており、ビデオフィードや画面共有で見たものについて、会話できる。

 日本語を含む24言語以上に対応しており、同じフレーズ内で複数の言語を混在させることも簡単に行える。

 ユーザーの声のトーンを理解し、同じ言葉でも話し方の違いによって全く異なる会話になることを認識できる。

制御可能な音声読み上げ(TTS)

 テキストを音声で読み上げする機能は、自然な音声を生成するだけでなく、これまでに無い高度な制御が実現されている。短い要約文から長編ナレーションまで、スタイル、トーン、感情表現、パフォーマンスについて、自然言語によるプロンプトで指示できる。

 Googleが公開したデモでは、からかうようなトーンで、クスクスと笑いながら指定の言葉を話すようにプロンプトで指示すると、指示を取り入れた合成音声が生成される。

【制御可能な音声読み上げ(TTS)】

 その他の制御では、読み上げの速度を指定したり、特定の単語を含む発音の精度を向上させたりできる。また、「NotebookLM」の音声概要のように、複数の話し手による対話スタイルの音声が生成できる。アプリケーション開発者向けの「Gemini 2.5 Flash(Preview)」では、アナウンス、ストーリー、ポッドキャスト、ビデオゲームなどの音声を動的に作成可能。

安全性と責任

 これらのネイティブオーディオ機能の開発プロセスの各段階で、潜在的なリスクを積極的に評価し、得られる知見をリスク軽減に活かしている。これらの対策は、レッドチーム演習を含む、社内外の厳格な安全性評価を通じて検証されているという。

 さらに、Googleの生成AIモデルによるオーディオ出力には、AIによる生成であることを示す透かし技術「SynthID」が埋め込まれる。

開発者向けネイティブオーディオ機能

 開発者は、「Google AI Studio」や「Vertex AI」のGemini APIを介して、よりリッチな対話型アプリケーションを構築できる。

 まずは、「Google AI Studio」のストリームタブで、「Gemini 2.5 Flash(Preview)を使用し、ネイティブ音声対話が試せる。制御可能な音声生成(TTS)は、「Google AI Studio」のメディア生成タブで音声生成を選択すると、「Gemini 2.5 Pro」と「Gemini 2.5 Flash」の両方のプレビューで利用できる。