ページの本文へ

Hitachi

株式会社 日立ソリューションズ・クリエイト

テクノロジー 音声UIとは? 押さえておくべきポイントや今後の展望について解説

音声UIとは? 押さえておくべきポイントや今後の展望について解説

音声を認識してコンピューターなどを操作できる「音声UI」が身近なものになりつつあります。音声UIとはどのような特徴を持つインターフェースで、どんなメリットとデメリットがあるのでしょうか。音声UIについて知っておきたいことを、今後の展望を含めて解説します。

音声UIとは

音声UI(User Interface)とは、人間が声に出して言葉を発することで、コンピューターやコンピューターが内蔵された製品に対して指示を与える操作方式のことです。

これに対して、キーボードなどを使って文字を入力して指示を与える方式を「CUI(Character User Interface)」、画面上のアイコンやボタン、メニューなどを操作して指示を与える方式を「GUI(Graphic User Interface)」と呼びます。これらに習って、音声UIを「VUI(Voice User Interfaceボイスインターフェース)」と表記することもあります。

音声UIが発達してきた背景には、コンピューターの性能が上がり、音声データを処理できるようになったことが挙げられます。また、AI技術の進歩によってコンピューターが自然言語処理を行い、指示内容を理解できるようになったのも大きな要因です。おかげで今では、パソコン、スマートフォン、その他の製品にも音声UIを組み入れることが可能になりました。

現在、音声UIはパソコンやスマートフォンの音声アシスタント、スマートスピーカーなどの製品に実装されています。ただし、音声UIはあくまでもユーザーインターフェースの種類のひとつです。音声アシスタントやスマートスピーカーそのもののことを指すわけではないことに注意してください。

音声UIのメリットとデメリット

音声UIの最も大きなメリットは、利用者の負担が軽減されることにあります。音声を使うのであれば、キーボードやマウス、タッチパネルなどを操作しなくても、普段人に話しかけるのと近い感覚で便利な機能やサービスを利用できます。パソコンや機械に慣れていない人でも、声だけで機械に指示を与えられれば、新しい技術やサービスが身近なものになるでしょう。

また、手を使わないということもメリットをもたらします。何か別の手作業をしながら、音声UIを利用して機械に指示をすることが可能だからです。車の運転中や、手が離せない作業をしているときでも、声で機械を操作できます。

音声UIによる入力はまた、手動入力よりもスピーディーという点も見逃せません。いまでは音声を発するだけで(あるいは音声データを読み込ませることで)、その内容を文字に変換してくれる自動テキスト化ツールも登場しています。声を文字に変換する際の音声認識には、「ディープラーニング」というAI関連技術も活用されています。文章を作成するときに、音声UIでどんどん話しながらテキストを作っていったほうが簡単で早いというシーンもあるでしょう。

一方、音声UIは、どのような言葉、文章で音声を入力すれば正確な結果が返ってくるかがわかりづらくなるケースや、発声した言葉が誤認識され、うまく入力ができないようなケースもあります。また、音声が出力される場合(スマートスピーカーが質問への回答を出すなど)には、回答が複雑だと受け手である人間側で情報の処理に追いつかなくなってしまうことも考えられます。

このように、利用者へ余計な負担やストレスを与える可能性については、音声UIのデメリットといえるかもしれません。
また、過去の調査で日本では欧米などに比べて、人前での音声操作に抵抗感(羞恥心)があることも指摘されています。

仕事に活用する場合は現在のところ、音声UIはCUIやGUIを補助する形で使われているケースが多いでしょう。積極的に使われるようになるには、まだいくつか課題が残されているといえます。

これからますます可能性が広がる音声UI

それでも、音声UIは将来的にさまざまな可能性を秘めています。

そもそもCUIやGUIは人間側がコンピューターに合わせてやり方を覚える必要がある操作方法です。しかし、音声UIはコンピューター(AI)側が人間に合わせるようにして進歩してきた技術だといえます。今後、コンピューターがもっと人間の言葉に的確かつ柔軟に対応するようになり、不明な点があればすぐに質問を返して正しい指示を引き出すといったこともできるようになれば、音声UIがメインで使われるようなシーンがもっと増えていくでしょう。

実際に現在、音声UIはコールセンターなどで活用され始めています。利用者がコールセンターに電話をかけて「○○について問い合わせをしたい」と告げると、AIがその言葉を理解して担当オペレーターに電話をつなぐ、といった仕組みのサービスが登場しています。こうしたサービスは今後さらに発展していく可能性があります。担当オペレーターにつなぐのではなく、AI自身が質問の意図を汲んで問い合わせに対する回答を行うようになることなどが期待されています。

また、医療や介護の現場でも音声UIの活用は始まっています。看護師や介護士は患者や施設利用者をケアしている間、手がふさがっていることが多いので、声でその時々に気づいたことや連絡したいことを、音声UIを介して記録します。するとメタデータが自動生成され、キーワードタグや位置・時刻タグ、職員IDなどが付与されて保存されます。

こうして加工された音声データは、業務引き継ぎなどに関する連絡系の情報と、要介護者に関する気づきなどの記録系の情報に分類されて活用されます。これもまた音声UIの新しい使い方でしょう。工場や建設現場、ホテル、アミューズメント施設、営業などでも応用できるシステムともいえるかもしれません。

ここまで見てきたように、音声UIは多くの可能性を有しています。自社の業務でも活用する方法がないか、導入することで業務効率化が図れないか、検討してみる価値があるのではないでしょうか。