メインコンテンツまでスキップ

音声フォーマット

AmiVoice API が対応している音声データのフォーマットについて説明します。以下の表のフォーマット名の文字列をリクエスト送信時に指定してください。

ヒント

HTTP 音声認識 API では、ヘッダありの音声データを送信する場合、フォーマット名の指定を省略できます。省略せずにフォーマット名を指定して、音声ファイルのヘッダのフォーマットと異なってしまった場合、音声認識サーバではヘッダの情報を優先します。

注記
  • フォーマット名は、大文字小文字が区別されません。

ヘッダなしの音声フォーマット

音声データ形式フォーマット名
raw - PCM LittleEndian 16bit - 8kHz - monolsb8k
raw - PCM LittleEndian 16bit - 11kHz - monolsb11k
raw - PCM LittleEndian 16bit - 16kHz - monolsb16k
raw - PCM LittleEndian 16bit - 22kHz - monolsb22k
raw - PCM LittleEndian 16bit - 32kHz - monolsb32k
raw - PCM LittleEndian 16bit - 44.1kHz - monolsb44k
raw - PCM LittleEndian 16bit - 48kHz - monolsb48k
raw - PCM BigEndian 16bit - 8kHz - monomsb8k
raw - PCM BigEndian 16bit - 11kHz - monomsb11k
raw - PCM BigEndian 16bit - 16kHz - monomsb16k
raw - PCM BigEndian 16bit - 22kHz - monomsb22k
raw - PCM BigEndian 16bit - 32kHz - monomsb32k
raw - PCM BigEndian 16bit - 44.1kHz - monomsb44k
raw - PCM BigEndian 16bit - 48kHz - monomsb48k
raw - mu-Law 8bit - 8kHz - monomulaw
raw - A-Law 8bit - 8kHz - monoalaw

ヘッダありの音声フォーマット

音声データ形式フォーマット名
Wave 音声 (PCM) - LittleEndian 16bit - 8kHz/11kHz - mono/stereo8k
Wave 音声 (PCM) - LittleEndian 16bit - 16kHz 以上 - mono/stereo16k
Wave 音声 (mu-Law) - 8kHz - mono/stereo8k
Wave 音声 (A-Law) - 8kHz - mono/stereo8k
Speex 音声 (Ogg コンテナ) - 8kHz/11kHz - mono/stereo8k
Speex 音声 (Ogg コンテナ) - 16kHz 以上 - mono/stereo16k
Opus 音声 (Ogg コンテナ) - 8kHz/11kHz - mono/stereo8k
Opus 音声 (Ogg コンテナ) - 16kHz 以上 - mono/stereo16k
MP3 音声 - 8kHz/11kHz - mono/stereo8k
MP3 音声 - 16kHz 以上 - mono/stereo16k
FLAC 音声 - 8kHz/11kHz - mono/stereo8k
FLAC 音声 - 16kHz 以上 - mono/stereo16k

音声についての注意

ビットレート

サポートしている音声のビットレートは、16bit です。

8kHz/11kHzのサンプリングレートの音声

16kHz 未満(8kHz/11kHz)のサンプリングレートの音声データは、日本語の「会話_汎用」エンジン(-a-general)のみ対応しています。その他のエンジンへは 16kHz 以上のサンプリングレートの音声データを送信してください。 もし、8kHz/11kHzのサンプリングレートの音声データを、汎用エンジン以外にリクエストした場合、以下のようなエラーメッセージを返します。

同期 HTTP、WebSocket インタフェースの場合

{'results': [{'tokens': [], 'tags': [], 'rulename': '', 'text': ''}], 'code': '+', 'message': 'received unsupported audio format'}

非同期 HTTP 音声認識 API インタフェースの場合

{'results': [{'tokens': [], 'tags': [], 'rulename': '', 'text': ''}], 'text': '', 'code': '!', 'message': 'failed to connect to recognizer server'}

ステレオ

音声がステレオの場合、1 チャンネル目のみが音声認識の対象となります。

Speex

quality 7 以上 、Opus :圧縮率 10 分の 1 程度を目安としてください。

mp3

mp3 には ID3 タグを含めないでください。