GPT-4oの性能を説明するオープンAIのミラ・ムラティ最高技術責任者=2024年5月13日、オープンAI配信のライブ動画より

 対話型人工知能(AI)「チャットGPT」を手掛ける米新興企業オープンAIは13日、人間と話している時と同じように自然な音声会話ができる最新の大規模言語モデル「GPT―4o(フォーオー)」を発表した。利用者の音声入力に対し平均0・320秒(最短0・232秒)と極めて短い時間で応答できる。無料ユーザーも利用できる。

 13日にオープンAIがライブ配信したデモンストレーションでは、オープンAI幹部らがスマートフォンやパソコン端末に話しかけ、AIと音声会話をした。あいさつなど日常会話から始まり、AIが画像で示した1次方程式の解き方を解説したり、1年間の気温の推移に関するグラフを読み解いたりしてみせた。

 利用者の求めに応じて声色を変えたり、利用者がきちんと深呼吸できているか判定したりした。イタリア語の会話をその場で英語に訳す能力も見せた。利用者の発言に遮られる形で不自然に言葉が途切れる場面もあったが、全体的に自然な会話となっていた。

 GPT―4oでは音声、文章、画像のあらゆる組み合わせの入力と出力が可能。従来モデルでは①入力された音声を文章化②AIが文章を読み込んで返答を文章で用意③文章を音声化して出力――という手順だったため、応答時間が長いうえに声のトーンなどを意味のある情報として認識できなかった。

 無料ユーザーは容量制限付きで利用でき、制限に達すると自動的に旧モデルに切り替わる。有料ユーザーは無料ユーザーの5倍の容量を使える。【ワシントン大久保渉】

鄭重声明:本文の著作権は原作者に帰属します。記事の転載は情報の伝達のみを目的としており、投資の助言を構成するものではありません。もし侵害行為があれば、すぐにご連絡ください。修正または削除いたします。ありがとうございます。