Tokyo AI (TAI) Applied ML & AI Session #12 での音声AI講演レポート
2025年10月、東京で開催されたTokyo AI (TAI) Applied ML & AI Session #12に、弊社代表の Francisco Dalla Rosa Soares が登壇いたしました。本イベントでは、音声AIにおける人間とコンピュータの相互作用について、研究者や開発者が最新の知見を共有しました。
講演テーマ:「他愛のない会話 – Towards Open-ended Conversational Chatbots」
Francisco Dalla Rosa Soaresは、日本における自然な対話の未来をテーマに、オープンエンドな会話型チャットボットの開発における課題と可能性について講演しました。
主な講演内容
日本が直面する社会的課題
高齢化率29%を超える日本において、社会的孤立が深刻化しています。オープンエンドな対話エージェントは、単なるアシスタントではなく、人とのつながりを取り戻すコンパニオンとしての可能性を秘めています。
テキストから音声へ:共感を伝える進化
テキストベースのチャットボットは言葉を通じた共感表現に成功してきました。しかし、音声AIは音色やタイミングといった微妙なニュアンスを通じた共感の表現に苦戦しています。音声こそが、人間的なつながりと技術革新の重要な接点となります。
音声会話の技術的課題
- ターンテイキング: ミリ秒単位での発話タイミングの判断
- バックチャネリング(相槌): 「うん」「なるほど」といった共感信号の適切なタイミングと抑揚
- フルデュプレックス(全二重通信): 人間のように同時に聞きながら話す能力
- 安全性と感情的境界: 親密さと適切な距離感のバランス
日本語の独自性がもたらす挑戦と機会
日本語の会話は、省略、曖昧性、複雑な敬語システムに大きく依存しています。言葉にされないことが、言葉そのものよりも重要な意味を持つこともあります。日本語で自然な会話エージェントを構築できれば、それは共感を大規模に実現したことを意味します。
弊社の取り組み:高齢者向け対話システム
孤立と会話機会の減少に対処するため、オープンエンドな対話システムの研究開発を進めています。
- WebRTCを活用したリアルタイム音声処理
- LLMによるユーザー属性の抽出と感情状態の推定
- 興味・趣味、感情傾向、話し方、話題の嗜好といったペルソナ特性に基づく応答最適化
「最も意味のある指標は、レイテンシやBLEUスコアではなく、会話の途中で浮かぶ笑顔です」
その他の登壇者
Haris Gulzar氏(NTT AI研究員): 音声AIにおける未解決の課題、特にノイズ処理から推論と遅延のバランスについて解説しました。
Aleksandr Riabcev氏(Habitto テックヘッド): 会話型バンキングアシスタントの開発から得られた実践的な知見を共有しました。
Furious Greenは、AI技術の社会実装を通じて、人々のつながりを支援する取り組みを続けてまいります。音声AIやその他のAI技術に関するご相談、研修、メンタリングサービスについては、お気軽にお問い合わせください。