利用ガイド
音声認識サーバのエンドポイントに、HTTP や WebSocket で接続し、リクエストパラメータとともに音声データを送信することで、音声認識の結果を得ることができます。
送信された音声データはまず、発話検出プロセスを経て、発話区間に対して音声認識が行われます。リクエストパラメータで指定された音声認識エンジンで発話内容を推定しテキストを返します。
この利用者ガイドでは以下を順に説明します。
1. リクエストの方法
音声認識結果を得るために、サーバへのリクエスト時に様々な設定を行い、音声ファイルを送信する必要があります。
- リクエストパラメータでは、リクエスト時に設定する必要のある項目を説明します。
- 対応している音声データについては、音声フォーマットを参照してください。
- 利用可能な音声認識エンジンや対応している言語については、音声認識エンジンを参照してください。
リクエストの送信方法は、HTTP や WebSocket によって異なりますので、それぞれのインタフェースについて順に説明します。
送信したデータや音声認識結果のサーバ上のログの取り扱いについては、ログ保存を参照してください。
2. 結果の取り扱い
音声認識サーバからは、送信した音声を書き起こしたテキストが得られます。また、テキスト以外に得られる様々な情報については、音声認識の結果で詳細を説明します。 エラー処理についてはレスポンスコードとメッセージを参照してください。
3. AmiVoice API の機能
AmiVoice API の様々な機能について説明します。