音声フォーマット
AmiVoice API が対応している音声データのフォーマットについて説明します。以下の表のフォーマット名の文字列をリクエスト送信時に指定してください。
ヒント
HTTP 音声認識 API では、ヘッダありの音声データを送信する場合、フォーマット名の指定を省略できます。省略せずにフォーマット名を指定して、音声ファイルのヘッダのフォーマットと異なってしまった場合、音声認識サーバではヘッダの情報を優先します。
注記
- フォーマット名は、大文字小文字が区別されません。
ヘッダなしの音声フォーマット
音声データ形式 | フォーマット名 |
---|---|
raw - PCM LittleEndian 16bit - 8kHz - mono | lsb8k |
raw - PCM LittleEndian 16bit - 11kHz - mono | lsb11k |
raw - PCM LittleEndian 16bit - 16kHz - mono | lsb16k |
raw - PCM LittleEndian 16bit - 22kHz - mono | lsb22k |
raw - PCM LittleEndian 16bit - 32kHz - mono | lsb32k |
raw - PCM LittleEndian 16bit - 44.1kHz - mono | lsb44k |
raw - PCM LittleEndian 16bit - 48kHz - mono | lsb48k |
raw - PCM BigEndian 16bit - 8kHz - mono | msb8k |
raw - PCM BigEndian 16bit - 11kHz - mono | msb11k |
raw - PCM BigEndian 16bit - 16kHz - mono | msb16k |
raw - PCM BigEndian 16bit - 22kHz - mono | msb22k |
raw - PCM BigEndian 16bit - 32kHz - mono | msb32k |
raw - PCM BigEndian 16bit - 44.1kHz - mono | msb44k |
raw - PCM BigEndian 16bit - 48kHz - mono | msb48k |
raw - mu-Law 8bit - 8kHz - mono | mulaw |
raw - A-Law 8bit - 8kHz - mono | alaw |
ヘッダありの音声フォーマット
音声データ形式 | フォーマット名 |
---|---|
Wave 音声 (PCM) - LittleEndian 16bit - 8kHz/11kHz - mono/stereo | 8k |
Wave 音声 (PCM) - LittleEndian 16bit - 16kHz 以上 - mono/stereo | 16k |
Wave 音声 (mu-Law) - 8kHz - mono/stereo | 8k |
Wave 音声 (A-Law) - 8kHz - mono/stereo | 8k |
Speex 音声 (Ogg コンテナ) - 8kHz/11kHz - mono/stereo | 8k |
Speex 音声 (Ogg コンテナ) - 16kHz 以上 - mono/stereo | 16k |
Opus 音声 (Ogg コンテナ) - 8kHz/11kHz - mono/stereo | 8k |
Opus 音声 (Ogg コンテナ) - 16kHz 以上 - mono/stereo | 16k |
MP3 音声 - 8kHz/11kHz - mono/stereo | 8k |
MP3 音声 - 16kHz 以上 - mono/stereo | 16k |
FLAC 音声 - 8kHz/11kHz - mono/stereo | 8k |
FLAC 音声 - 16kHz 以上 - mono/stereo | 16k |
音声についての注意
ビットレート
サポートしている音声のビットレートは、16bit です。
8kHz/11kHzのサンプリングレートの音声
16kHz 未満(8kHz/11kHz)のサンプリングレートの音声データは、日本語の「会話_汎用」エンジン(-a-general)のみ対応しています。その他のエンジンへは 16kHz 以上のサンプリングレートの音声データを送信してください。 もし、8kHz/11kHzのサンプリングレートの音声データを、汎用エンジン以外にリクエストした場合、以下のようなエラーメッセージを返します。
同期 HTTP、WebSocket インタフェースの場合
{'results': [{'tokens': [], 'tags': [], 'rulename': '', 'text': ''}], 'code': '+', 'message': 'received unsupported audio format'}
非同期 HTTP 音声認識 API インタフェースの場合
{'results': [{'tokens': [], 'tags': [], 'rulename': '', 'text': ''}], 'text': '', 'code': '!', 'message': 'failed to connect to recognizer server'}
ステレオ
音声がステレオの場合、1 チャンネル目のみが音声認識の対象となります。
Speex
quality 7 以上 、Opus :圧縮率 10 分の 1 程度を目安としてください。
mp3
mp3 には ID3 タグを含めないでください。