制限事項

AmiVoice API の制限について説明します。

WebSocket インタフェース

セッション維持最大時間：24 時間

WebSocket インタフェースでセッションを維持できる最大時間は 24 時間です。処理を継続中であるかどうかに関わらず、セッション維持最大時間を過ぎた場合、接続を切断します。認識処理を継続するには、接続からやり直してください。

非音声区間による強制切断時間：600 秒

600 秒間、発話を検出できなかった場合に接続を切断します。認識処理を継続するには、接続からやり直してください。

この切断が発生した場合、p 応答パケットで以下のメッセージを受け取ります。

p can’t feed audio data to recognizer server

リファレンスのpコマンド応答パケットや、利用ガイドのWebSocket インターフェースのセッションの維持も参照してください。

無通信による強制切断時間：60 秒

60 秒間、何もデータを受信できなかった場合に接続を切断します。

この切断が発生した場合、認識処理を開始する前であれば、以下のメッセージを受け取ります。

e timeout occurred

認識処理中であれば、以下のメッセージを受け取ります。

e timeout occurred while recognizing audio data from client

リファレンスのeコマンド応答パケットや、利用ガイドのWebSocket インターフェースのセッションの維持も参照してください。

ひとつの発話区間の最大時間： 30 秒

発話区間が最大時間を超えた場合、最大時間まででいったん発話が終了したものとして、音声認識結果を返します。その後の音声は、新たな発話区間として認識処理が行われます。

※ 発話区間とは、1 秒弱以上の無音(声のない時間)で区切られた「声のある」区間です。

同期 HTTP インタフェース

受付可能な音声データの最大容量：16,777,215 バイト (約 16 MiB)

同期 HTTP インタフェースの一度のリクエストで送信できる音声データの最大サイズは、16,777,215 バイトです。この上限を超える音声データを送信する場合は、非同期 HTTP インタフェースを利用してください。

非音声区間による強制切断時間：50 秒

50 秒間、発話を検出できなかった場合に接続を切断します。認識処理を継続するには、接続をやり直してから音声を送信してください。

ひとつの発話区間の最大時間： 30 秒

音声データの中で、発話区間が最大時間以上続く場合には、そこまでの音声でひとつの発話が終了したものとして、認識確定結果を生成・返却します。その後の音声は、新たな発話区間として認識処理が行われます。

※ 発話区間とは、1 秒弱以上の無音時間(声のない時間)で区切られた「声のある」区間です。

無通信による強制切断時間：60 秒

60 秒間、何もデータを受信できなかった場合に接続を切断します。

非同期 HTTP インタフェース

受付可能な音声データの最大容量：2,147,483,647 バイト (約 2 GiB) (話者ダイアライゼーション有効時は最大 3 時間)

非同期 HTTP インタフェースの一度のリクエストで送信できる音声データの最大サイズは、2,147,483,647 バイトです。

また、話者ダイアライゼーションを有効にしたリクエストでは、さらに音声の最大の長さは、3 時間になります。制限を超えるとリクエスト時にエラーとなります。

{"results":[{"tokens":[],"tags":[],"rulename":"","text":""}],"code":"^","message":"request too large (audio duration exceeded 3 hours with speaker diarization)"}

ひとつの発話区間の最大時間： 60 秒

※ 発話区間とは、1 秒弱以上の無音時間(声のない時間)で区切られた「声のある」区間です。

非音声区間による強制切断時間：制限なし

発生しません。

音声認識結果の保存期間：7 日間

音声認識処理が終了してから、7 日間(168 時間)保存します。

無通信による強制切断時間：60 秒

60 秒間、何もデータを受信できなかった場合に接続を切断します。

WebSocket インタフェース​

セッション維持最大時間：24 時間​

非音声区間による強制切断時間：600 秒​

無通信による強制切断時間：60 秒​

ひとつの発話区間の最大時間： 30 秒​

同期 HTTP インタフェース​

受付可能な音声データの最大容量：16,777,215 バイト (約 16 MiB)​

非音声区間による強制切断時間：50 秒​

ひとつの発話区間の最大時間： 30 秒​

無通信による強制切断時間：60 秒​

非同期 HTTP インタフェース​

受付可能な音声データの最大容量：2,147,483,647 バイト (約 2 GiB) (話者ダイアライゼーション有効時は最大 3 時間)​

ひとつの発話区間の最大時間： 60 秒​

非音声区間による強制切断時間：制限なし​

音声認識結果の保存期間：7 日間​

無通信による強制切断時間：60 秒​

WebSocket インタフェース

セッション維持最大時間：24 時間

非音声区間による強制切断時間：600 秒

無通信による強制切断時間：60 秒

ひとつの発話区間の最大時間： 30 秒

同期 HTTP インタフェース

受付可能な音声データの最大容量：16,777,215 バイト (約 16 MiB)

非音声区間による強制切断時間：50 秒

ひとつの発話区間の最大時間： 30 秒

無通信による強制切断時間：60 秒

非同期 HTTP インタフェース

受付可能な音声データの最大容量：2,147,483,647 バイト (約 2 GiB) (話者ダイアライゼーション有効時は最大 3 時間)

ひとつの発話区間の最大時間： 60 秒

非音声区間による強制切断時間：制限なし

音声認識結果の保存期間：7 日間

無通信による強制切断時間：60 秒