制限事項

AmiVoice API の制限について説明します。

WebSocket インタフェース

セッション維持最大時間：24 時間

WebSocket インタフェースを利用する際の、セッションを維持できる最大時間は 24 時間です。音声が送信中であるかどうかに関わらず、セッション維持時間を過ぎた場合には、サーバ側から切断処理を行います。その場合は、再度接続してください。

非音声区間による強制切断時間：600 秒

音声認識サーバは、600 秒間、発話を検出できなかった場合に接続を切断します。認識処理を継続するには、接続をやり直してから音声を送信してください。

この切断が発生した場合、p 応答パケットで以下のメッセージを受け取ります。

p can’t feed audio data to recognizer server

リファレンスのpコマンド応答パケットや、利用ガイドのWebSocket インターフェースのセッションの維持も参照してください。

無通信による強制切断時間：60 秒

音声認識サーバは、60 秒間、何もデータを受信できなかった場合に接続を切断します。

この切断が発生した場合、認識処理を開始する前であれば、以下のメッセージを受け取ります。

e timeout occurred

認識処理中であれば、以下のメッセージを受け取ります。

e timeout occurred while recognizing audio data from client

リファレンスのeコマンド応答パケットや、利用ガイドのWebSocket インターフェースのセッションの維持も参照してください。

ひとつの発話区間の最大時間： 30 秒

音声データの中で、発話区間が最大時間以上続く場合には、そこまでの音声でひとつの発話が終了したものとして、認識確定結果を生成・返却します。その後の音声は、新たな発話区間として認識処理が行われます。

※ 発話区間とは、1 秒弱以上の無音（声のない時間）で区切られた「声のある」区間です。

同期 HTTP インタフェース

受付可能な音声データの最大容量：16MB

同期 HTTP インタフェースには、一回でアップロードできる音声データの上限があります。この上限を超える音声データをアップロードする必要がある場合は、非同期 HTTP インタフェースを利用してください。

非音声区間による強制切断時間：50 秒

音声認識サーバに送信されてくる音声データに対する発話区間検出処理が、50 秒間にわたって発話開始を検知できなかった場合、発話を行っていないものとみなして、サーバ側から強制切断処理を行います。その場合は、再度接続してください。

ひとつの発話区間の最大時間： 30 秒

※ 発話区間とは、1 秒弱以上の無音時間（声のない時間）で区切られた「声のある」区間です。

無通信による強制切断時間：60 秒

音声認識サーバは、60 秒間、何もデータを受信できなかった場合に接続を切断します。

非同期 HTTP インタフェース

受付可能な音声データの最大容量：2.14GB (話者ダイアライゼーション有効時は最大 3 時間)

非同期 HTTP インタフェースには、1回でアップロードできる音声データの上限があります。また、話者ダイアライゼーションを有効にしてリクエストすると、3 時間よりも長い音声に対してエラーを返します。

ひとつの発話区間の最大時間： 60 秒

※ 発話区間とは、1 秒弱以上の無音時間（声のない時間）で区切られた「声のある」区間です。

非音声区間による強制切断時間：制限なし

発生しません。

音声認識結果の保存期間：7 日間

音声認識処理が終了してから 7 日間（168時間）、サーバで保存します。

無通信による強制切断時間：60 秒

音声認識サーバは、60 秒間、何もデータを受信できなかった場合に接続を切断します。

WebSocket インタフェース​

セッション維持最大時間：24 時間​

非音声区間による強制切断時間：600 秒​

無通信による強制切断時間：60 秒​

ひとつの発話区間の最大時間： 30 秒​

同期 HTTP インタフェース​

受付可能な音声データの最大容量：16MB​

非音声区間による強制切断時間：50 秒​

ひとつの発話区間の最大時間： 30 秒​

無通信による強制切断時間：60 秒​

非同期 HTTP インタフェース​

受付可能な音声データの最大容量：2.14GB (話者ダイアライゼーション有効時は最大 3 時間)​

ひとつの発話区間の最大時間： 60 秒​

非音声区間による強制切断時間：制限なし​

音声認識結果の保存期間：7 日間​

無通信による強制切断時間：60 秒​

WebSocket インタフェース

セッション維持最大時間：24 時間

非音声区間による強制切断時間：600 秒

無通信による強制切断時間：60 秒

ひとつの発話区間の最大時間： 30 秒

同期 HTTP インタフェース

受付可能な音声データの最大容量：16MB

非音声区間による強制切断時間：50 秒

ひとつの発話区間の最大時間： 30 秒

無通信による強制切断時間：60 秒

非同期 HTTP インタフェース

受付可能な音声データの最大容量：2.14GB (話者ダイアライゼーション有効時は最大 3 時間)

ひとつの発話区間の最大時間： 60 秒

非音声区間による強制切断時間：制限なし

音声認識結果の保存期間：7 日間

無通信による強制切断時間：60 秒