制限事項
AmiVoice API の制限について説明します。
WebSocket インタフェース
セッション維持最大時間:24 時間
WebSocket インタフェースでセッションを維持できる最大時間は 24 時間です。処理を継続中であるかどうかに関わらず、セッション維持最大時間を過ぎた場合、接続を切断します。認識処理を継続するには、接続からやり直してください。
非音声区間による強制切断時間:600 秒
600 秒間、発話を検出できなかった場合に接続を切断します。認識処理を継続するには、接続からやり直してください。
この切断が発生した場合、p 応答パケットで以下のメッセージを受け取ります。
p can’t feed audio data to recognizer server
リファレンスのpコマンド応答パケットや、利用ガイドのWebSocket インターフェースのセッションの維持も参照してください。
無通信による強制切断時間:60 秒
60 秒間、何もデータを受信できなかった場合に接続を切断します。
この切断が発生した場合、認識処理を開始する前であれば、以下のメッセージを受け取ります。
e timeout occurred
認識処理中であれば、以下のメッセージを受け取ります。
e timeout occurred while recognizing audio data from client
リファレンスのeコマンド応答パケットや、利用ガイドのWebSocket インターフェースのセッションの維持も参照してください。
ひとつの発話区間の最大時間: 30 秒
発話区間が最大時間を超えた場合、最大時間まででいったん発話が終了したものとして、音声認識結果を返します。その後の音声は、新たな発話区間として認識処理が行われます。
※ 発話区間とは、1 秒弱以上の無音(声のない時間)で区切られた「声のある」区間です。
同期 HTTP インタフェース
受付可能な音声データの最大容量:16,777,215 バイト (約 16 MiB)
同期 HTTP インタフェースの一度のリクエストで送信できる音声データの最大サイズは、16,777,215 バイトです。この上限を超える音声データを送信する場合は、非同期 HTTP インタフェース を利用してください。
非音声区間による強制切断時間:50 秒
50 秒間、発話を検出できなかった場合に接続を切断します。認識処理を継続するには、接続をやり直してから音声を送信してください。
ひとつの発話区間の最大時間: 30 秒
音声データの中で、発話区間が最大時間以上続く場合には、そこまでの音声でひとつの発話が終了したものとして、認識確定結果を生成・返却します。その後の音声は、新たな発話区間として認識処理が行われます。
※ 発話区間とは、1 秒弱以上の無音時間(声のない時間)で区切られた「声のある」区間です。
無通信による強制切断時間:60 秒
60 秒間、何もデータを受信できなかった場合に接続を切断します。
非同期 HTTP インタフェース
受付可能な音声データの最大容量:2,147,483,647 バイト (約 2 GiB) (話者ダイアライゼーション有効時は最大 3 時間)
非同期 HTTP インタフェースの一度のリクエストで送信できる音声データの最大サイズは、2,147,483,647 バイトです。
また、話者ダイアライゼーションを有効にしたリクエストでは、さらに音声の最大の長さは、3 時間になります。制限を超えるとリクエスト時にエラーとなります。
{"results":[{"tokens":[],"tags":[],"rulename":"","text":""}],"code":"^","message":"request too large (audio duration exceeded 3 hours with speaker diarization)"}
ひとつの発話区間の最大時間: 60 秒
音声データの中で、発話区間が最大時間以上続く場合には、そこまでの音声でひとつの発話が終了したものとして、認識確定結果を生成・返却します。その後の音声は、新たな発話区間として認識処理が行われます。
※ 発話区間とは、1 秒弱以上の無音時間(声のない時間)で区切られた「声のある」区間です。
非音声区間による強制切断時間:制限なし
発生しません。
音声認識結果の保存期間:7 日間
音声認識処理が終了してから、7 日間(168 時間)保存します。
無通信による強制切断時間:60 秒
60 秒間、何もデータを受信できなかった場合に接続を切断します。