DXの役に立ちそうな音声データに注目してみた
音声の取り扱いってドキュメントがなくて、Microsoftのドキュメントを探し当てるのも苦労したので、ここで日本語でまとめて紹介します。執筆時点(2021年5月)の情報を元にしています。
リアルタイム音声処理で新しいユーザ体験
音声とITで思い浮かぶのはAlexaとかSiriみたいな音声で起動する仕組み。これらは単語だったり、ちょっとした文章の音声を文字にして、それをもとに音楽を流したり、天気に答えたり、翻訳したり、いろいろなことをしてくれます。
でも、音声の長さが数十秒を超えてくると、データとして処理するためには録音ファイルを作成して、そのファイルに対してバッチ処理するしかない、みたいな状況になります。
これだとビジネス要件を満たせないケースがある。会話の途中で、それまでの会話を元にしたデータを提供したい、会話が終わったらすぐに分析したい、などなど。
この課題に直面したので、音声データをリアルタイムに処理して、会話の最中、直後に処理結果を提供するユーザー体験を調べていきました。
Teamsを使ったリアルタイム音声取得
今回はTeamsを使ったリアルタイム処理を紹介。
最近ではリモートワークが増えてきて、オンラインミーティングを開催する機会も増えたと思います。その中でもMicrosoft社が提供するTeamsはOffice365に含まれていて、企業用途に最適化されているサービスで使い勝手も良いです。Office365を導入している会社、組織ではTeams会議を使っている人たちも多いと思います。
オフラインが前提だった業務が、Teamsでオンラインになって、しかもその音声をデータ処理できるようになると、いろいろな可能性が出てきそうな気がしますね。例えば、
Teamsミーティングにリアルタイムで字幕を付ける
Teamsミーティングで指定したキーワードを元にアラートする/コンテンツ表示する。
などなど。ビジネス×音声×リアルタイム、には可能性がありそうです。
Microsoftのドキュメント概要を読み解く
さて、ここから本題。Teamsから音声を取得する技術をMicrosoftのドキュメントを参照しながら紹介していきます。
まずは概要(Overview)から
ボットは、リアルタイムの音声、ビデオ、画面共有を使用して Teams 通話や会議を操作できます。 通話 およびオンライン会議用の Microsoft Graph API を使用すると、Teams アプリは音声とビデオを使用してユーザーと対話してエクスペリエンスを強化できます。 これらの API を使用すると、次の新機能を追加できます。
なんだか良く分からないけど「リアルタイムの音声」ってキーワードはある。。。
さらに読み進めていくと、サービスホスト型メディア(Service-hosted mdeia)、とアプリケーションホスト型メディア(Application-hosted mdeia)があって、サービスホスト型メディアはコールセンターに電話したときの自動応答(IVR)みたいなやつ、アプリケーションホスト型メディアが、Teams会議から音声をリアルタイムに取得できるやつ、みたいですね。
次回からはアプリケーションホスト型メディアについて、詳細を見ていきたいと思います。
↓の記事に続きがあります。是非見ていってください。
Comments