メインコンテンツまでスキップ

制限事項

AmiVoice API の制限について説明します。

WebSocket 音声認識 API

セッション維持最大時間:24 時間

WebSocket 音声認識 API を利用する際の、セッションを維持できる最大時間は 24 時間です。音声が送信中であるかどうかに関わらず、セッション維持時間を過ぎた場合には、サーバ側から切断処理を行います。その場合は、再度接続してください。

非音声区間による強制切断時間:600 秒

音声認識サーバは、600 秒間、発話を検出できなかった場合に接続を切断します。認識処理を継続するには、接続をやり直してから音声を送信してください。

この切断が発生した場合、p 応答パケットで以下のメッセージを受け取ります。

p can’t feed audio data to recognizer server

リファレンスのpコマンド応答パケットや、利用ガイドのWebSocket インターフェースのセッションの維持も参照してください。

無通信による強制切断時間:60 秒

音声認識サーバは、60 秒間、何もデータを受信できなかった場合に接続を切断します。

この切断が発生した場合、認識処理を開始する前であれば、以下のメッセージを受け取ります。

e timeout occurred

認識処理中であれば、以下のメッセージを受け取ります。

e timeout occurred while recognizing audio data from client

リファレンスのeコマンド応答パケットや、利用ガイドのWebSocket インターフェースのセッションの維持も参照してください。

ひとつの発話区間の最大時間: 30 秒

音声データの中で、発話区間が最大時間以上続く場合には、そこまでの音声でひとつの発話が終了したものとして、認識確定結果を生成・返却します。その後の音声は、新たな発話区間として認識処理が行われます。

※ 発話区間とは、1 秒弱以上の無音(声のない時間)で区切られた「声のある」区間です。

同期 HTTP 音声認識 API

受付可能な音声データの最大容量:16MB

同期 HTTP 音声認識 API には、一回でアップロードできる音声データの上限があります。この上限を超える音声データをアップロードする必要がある場合は、非同期 HTTP 音声認識 API を利用してください。

非音声区間による強制切断時間:50 秒

音声認識サーバに送信されてくる音声データに対する発話区間検出処理が、50 秒間にわたって発話開始を検知できなかった場合、発話を行っていないものとみなして、サーバ側から強制切断処理を行います。その場合は、再度接続してください。

ひとつの発話区間の最大時間: 30 秒

音声データの中で、発話区間が最大時間以上続く場合には、そこまでの音声でひとつの発話が終了したものとして、認識確定結果を生成・返却します。その後の音声は、新たな発話区間として認識処理が行われます。

※ 発話区間とは、1 秒弱以上の無音時間(声のない時間)で区切られた「声のある」区間です。

無通信による強制切断時間:60 秒

音声認識サーバは、60 秒間、何もデータを受信できなかった場合に接続を切断します。

非同期 HTTP 音声認識 API

受付可能な音声データの最大容量:2.14GB (話者ダイアライゼーション有効時は最大 3 時間)

非同期 HTTP 音声認識 API には、1回でアップロードできる音声データの上限があります。また、 話者ダイアライゼーションを有効にしてリクエストすると、3 時間よりも長い音声に対してエラーを返します。

ひとつの発話区間の最大時間: 60 秒

音声データの中で、発話区間が最大時間以上続く場合には、そこまでの音声でひとつの発話が終了したものとして、認識確定結果を生成・返却します。その後の音声は、新たな発話区間として認識処理が行われます。

※ 発話区間とは、1 秒弱以上の無音時間(声のない時間)で区切られた「声のある」区間です。

非音声区間による強制切断時間:制限なし

発生しません。

音声認識結果の保存期間:最大 7 日間

音声認識処理が終わってから最大 7 日間サーバで保存します。ただし、保存期間が短くなる可能性があります。

マイページの音声再生機能

マイページの音声再生機能には対応していません。

無通信による強制切断時間:60 秒

音声認識サーバは、60 秒間、何もデータを受信できなかった場合に接続を切断します。