レスポンスコードとメッセージ

ここでは処理に失敗したときのレスポンスについて説明します。

HTTP インタフェース

同期 HTTP・非同期 HTTP の音声認識ジョブの作成リクエスト

音声認識のリクエストに失敗すると、音声認識結果のトップレベルにあるcodeとmessageに、音声認識に失敗した原因を表すレスポンスコードとエラーメッセージが設定されます。詳細は後述の表を参照してください。

例:

{
  "results": [
    {
      "tokens": [],
      "tags": [],
      "rulename": "",
      "text": ""
    }
  ],
  "text": "",
  "code": "-",
  "message": "received illegal service authorization"
}

同期 HTTP の場合、認識処理に成功したときは、codeとmessageは空文字("")になります。

例:

...
  "utteranceid": "20220602/14/018122d65d370a30116494c8_20220602_141442",
  "text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。",
  "code": "",
  "message": ""
...

非同期 HTTP の場合、ジョブの作成リクエストに成功したときは、codeとmessageを返しません。

例:

{"sessionid":"017ac8786c5b0a0504399999","text":"..."}

非同期 HTTP の結果・状態取得

非同期 HTTP の場合、音声認識のリクエストが成功しても、音声認識ジョブの処理中に何らかの原因で処理を中断することがあります。このとき結果・状態取得を行うとstateがerrorになり、error_messsageには失敗の原因を表すエラーメッセージが設定されます。error_messageには、音声認識プロセスの失敗原因を表すレスポンスコード(dsrh_code)と出力メッセージ(amineth_message)が含まれている場合があります。レスポンスコードとメッセージの意味は、レスポンスコードとメッセージの詳細にある表を参照してください。

例:

{
    "status": "error",
    "audio_md5":"40f59fe5fc7745c33b33af44be43f6ad",
    "audio_size":306980,
    "service_id":"{YOUR_SERVICE_ID}",
    "session_id":"017c25ec12c00a304474a999",
    "error_message": "ERROR: Failed to transcribe in recognition process - amineth_result=0, amineth_code='o', amineth_message='recognition result is rejected because confidence is below the threshold'"
}

クライアントエラー

レスポンスコードとメッセージの詳細の表にあるレスポンスコードが>、o、+、-、%のときはクライアントエラーです。エラーの原因が解決されない場合、リトライしても同じ結果になりますので注意してください。

その他のエラーは基盤の問題の可能性が高いため、しばらく待ってからリトライしてください。

音声データ送信失敗 (レスポンスコード `>`)

原因

このエラーが起きるのは以下の場合です。

同期/非同期 HTTP インタフェースで送信した音声データに音声データが含まれていないとき

対策

このエラーが発生した場合、以下のことを確認してください。

音声データを送信しているかどうか
送信した音声が空のファイル（ゼロバイトのファイル）ではないか
送信したコンテナフォーマットのボディに音声データが含まれているかどうか

データは送信していても、音声が含まれない場合は、後述のoを返します。

リジェクト (レスポンスコード `o`)

原因

このレスポンスを返すのは以下の場合です。

音声から発話を検出できなかった。
音声から発話を検出でき、音声認識を行った結果、信頼度が信頼度しきい値を下回った。
音声から発話を検出でき、音声認識を行った結果、出力できる文字が存在しなかった。(以下で補足)

注記

上記のどの原因であってもエラーメッセージは常にrecognition result is rejected because confidence is below the thresholdです。

注記

音声認識の結果に、出力できる文字が存在しないのは以下の場合です。

すべての音声が「あー」や「えーと」などのフィラーとして認識されて自動的に削除された
すべての音声がノイズと推定された

ただし、keepFillerTokenが1に設定されているときはフィラーが出力されます。

AmiVoice APIで文字起こしをする際、発話検出と音声認識の2段階のパイプライン処理を行っています。発話検出が行われないと音声認識は行いません。発話検出フェーズでも、音量だけではなく、人の声かどうかを深層学習を使ったモデルによって判断していますが、音声認識処理を行った結果、最終的にノイズに推定されることがあります。

対策

このエラーが発生した場合、以下のことを確認してください。

送信した音声データに発話が含まれているかどうか

送信した音声データを確認してください。例えば、以下のような音声データからは発話が検出できません。プログラムの不具合や、録音システムに問題がある可能性があります。

無音
ノイズしか含まれない
ステレオ音声で発話が2チャンネル目にしか含まれていない(複数チャネルの音声は1チャネル目のみが認識対象になります。音声フォーマットのステレオを参照してください)

また、音源から非常に遠いところで録音している場合など、不明瞭で音量が小さい音声からも発話が検出できないことがあります。

誤った音声フォーマットを指定してリクエストしていないか

ヘッダのない音声を送信している場合、リクエスト時に誤った音声フォーマットを指定すると、発話検出や音声認識の処理が正しく行われません。リクエストの音声フォーマットが、送信した音声データに対して正しく設定されているかどうかを確認してください。

ルールグラマーを使用して正しく発話している場合

(ルールグラマーを利用していない場合、このケースは考慮する必要はありません) 正しく発話しているのにこのエラーを受け取ってしまう場合は、信頼度のしきい値を下げることができます。ただし、信頼度のしきい値を下げると、誤った発話を受け入れてしまう可能性が上がります。

ヒント

実際に送信した音声に発話が含まれていない場合など、oをエラーと見なす必要がない場合もあります。