制限事項
AmiVoice API の制限について説明します。
WebSocket 音声認識 API
セッション維持最大時間:24 時間
WebSocket 音声認識 API を利用する際の、セッションを維持できる最大時間は 24 時間です。音声が送信中であるかどうかに関わらず、セッション維持時間を過ぎた場合には、サーバ側から切断処理を行います。その場合は、再度接続してください。
非音声区間による強制切断時間:600 秒
音声認識サーバは、600 秒間、発話を検出できなかった場合に接続を切断します。認識処理を継続するには、接続をやり直してから音声を送信してください。
この切断が発生した場合、p 応答パケットで以下のメッセージを受け取ります。
p can’t feed audio data to recognizer server
リファレンスのpコマンド応答パケットや、利用ガイドのWebSocket インターフェースのセッションの維持も参照してください。
無通信による強制切断時間:60 秒
音声認識サーバは、60 秒間、何もデータを受信できなかった場合に接続を切断します。
この切断が発生した場合、認識処理を開始する前であれば、以下のメッセージを受け取ります。
e timeout occurred
認識処理中であれば、以下のメッセージを受け取ります。
e timeout occurred while recognizing audio data from client
リファレンスのeコマンド応答パケットや、利用ガイドのWebSocket インターフェースのセッションの維持も参照してください。
ひとつの発話区間の最大時間: 30 秒
音声データの中で、発話区間が最大時間以上続く場合には、そこまでの音声でひとつの発話が終了したものとして、認識確定結果を生成・返却します。その後の音声は、新たな発話区間として認識処理が行われます。
※ 発話区間とは、1 秒弱以上の無音(声のない時間)で区切られた「声のある」区間です。
同期 HTTP 音声認識 API
受付可能な音声データの最大容量:16MB
同期 HTTP 音声認識 API には、一回でアップロードできる音声データの上限があります。この上限を超える音声データをアップロードする必要がある場合は、非同期 HTTP 音声認識 API を利用してください。
非音声区間による強制切断時間:50 秒
音声認識サーバに送信されてくる音声データに対する発話区間検出処理が、50 秒間にわたって発話開始を検知できなかった場合、発話を行っていないものとみなして、サーバ側から強制切断処理を行います。その場合は、再度接続してください。
ひとつの発話区間の最大時間: 30 秒
音声データの中で、発話区間が最大時間以上続く場合には、そこまでの音声でひとつの発話が終了したものとして、認識確定結果を生成・返却します。その後の音声は、新たな発話区間として認識処理が行われます。
※ 発話区間とは、1 秒弱以上の無音時間(声のない時間)で区切られた「声のある」区間です。
無通信による強制切断時間:60 秒
音声認識サーバは、60 秒間、何もデータを受信できなかった場合に接続を切断します。
非同期 HTTP 音声認識 API
受付可能な音声データの最大容量:2.14GB (話者ダイアライゼーション有効時は最大 3 時間)
非同期 HTTP 音声認識 API には、1回でアップロードできる音声データの上限があります。また、 話者ダイアライゼーションを有効にしてリクエストすると、3 時間よりも長い音声に対してエラーを返します。
ひとつの発話区間の最大時間: 60 秒
音声データの中で、発話区間が最大時間以上続く場合には、そこまでの音声でひとつの発話が終了したものとして、認識確定結果を生成・返却します。その後の音声は、新たな発話区間として認識処理が行われます。
※ 発話区間とは、1 秒弱以上の無音時間(声のない時間)で区切られた「声のある」区間です。
非音声区間による強制切断時間:制限なし
発生しません。
音声認識結果の保存期間:7 日間
音声認識処理が終わってから 7 日間サーバで保存します。
マイページの音声再生機能
マイページの音声再生機能には対応していません。
無通信による強制切断時間:60 秒
音声認識サーバは、60 秒間、何もデータを受信できなかった場合に接続を切断します。