利用ガイド

音声認識サーバのエンドポイントに、HTTP や WebSocket で接続し、リクエストパラメータとともに音声データを送信することで、音声認識の結果を得ることができます。ここでは、AmiVoice APIを使ってアプリケーションを作る開発者に向けた利用方法を順に説明します。

基本的な機能

一般にAmiVoice APIを使って音声認識を行うクライアントアプリケーションは以下の実装が必要になります。

音声データを録音デバイスやネットワークから取得する
音声データを対応するフォーマットに変換する (対応している音声フォーマットの場合は不要です)
音声認識APIのエンドポイントに音声データを送信する
音声認識結果を受け取る
音声認識結果を解釈し、利用する (例えば、キャプションとして画面に表示する、意図理解して音声ボットの応答を生成する、会議の議事録など要約処理の入力とする、など)

以下は、クライアントプログラムと音声認識サーバのやり取りの概要です。

図. AmiVoice API の概要

AmiVoice APIは3つの音声認識インタフェースを用意しています。必要な特徴や想定しているユースケースについて説明し、利用者が使い分けることを助けます。

音声認識結果を得るために、サーバへのリクエスト時に様々な設定を行い、音声ファイルを送信する必要があります。

リクエストの送信方法は、HTTP や WebSocket によって異なりますので、それぞれのインタフェースについて順に説明します。

送信したデータや音声認識結果のサーバ上のログの取り扱いについては、ログ保存を参照してください。

音声認識サーバからは、送信した音声を書き起こしたテキストが得られます。また、テキスト以外に得られる様々な情報については、音声認識の結果で詳細を説明します。エラー処理についてはレスポンスコードとメッセージを参照してください。

AmiVoice APIをより使いこなしてアプリケーションを開発するための情報や、クライアントライブラリ、サンプルプログラム、制限事項について説明します。

図. AmiVoice API の概要

AmiVoice API の様々な機能について説明します。

AmiVoice API を様々な言語から簡単に利用するためのクライアントライブラリを紹介します。

AmiVoice API を使った様々なプログラム言語のサンプルプログラムを紹介します。

AmiVoice API を利用するうえで、知っておくべき制限事項について説明します。