音声認識の結果フォーマット
AmiVoice API からは、送信した音声を書き起こししたテキストだけではなく様々な情報が得られます。 情報は構造化されて JSON 形式で得られます。このセクションでは AmiVoice API から得られる結果について説明します。
結果の構造
AmiVoice API で得られる音声認識の結果は大きく3つの部分にわけられます。以下は、クライアントライブラリのサンプルプログラムに付属している test.wav という音声ファイルに対する結果です。

それぞれの要素を順に説明します。
全体の結果
APIに送信した音声全体の結果です。
test.wavの結果から全体の結果を例として抜粋します。
{
/* ... 略 ... */
"utteranceid": "20220602/14/018122d65d370a30116494c8_20220602_141442",
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。",
"code": "",
"message": ""
/* ... 略 ... */
}
全体の結果の各要素には、以下の情報が含まれます。
| フィールド名 | 説明 | 補足 |
|---|---|---|
utteranceid | 認識結果情報 ID | 認識結果情報 ID は、WebSocket と HTTP インタフェースで異なります。WebSocket では、発話区間毎の認識結果情報に対する ID です。一方、HTTP の場合は、1 セッションでアップロードされた複数の発話区間を含む可能性のある音声データ全体の認識結果情報に対する ID となります。 |
text | 全体の認識結果テキスト | 発話区間の認識結果の全てを結合した全体の認識結果テキストです。 |
code | 結果コード | 結果を表す 1 文字のコードです。レスポンスコードとメッセージを参照してください。 |
message | エラーメッセージ | エラー内容を表す文字列です。レスポンスコードとメッセージを参照してください。 |
codeとmessageはリクエストが成功したときは空文字になります。失敗したときは理由が設定されますので、レスポンスコードとメッセージを参照してください。
認識成功時は
body.code == "" かつ body.message == "" かつ body.text != ""
認識失敗時は
body.code != "" かつ body.message != ""