音声フォーマット
AmiVoice API で取り扱うことができる音声データのフォーマット、および、リクエストパラメータでの設定方法について説明します。
対応している音声
AmiVoice API が対応している音声フォーマットを説明します。
エンコーディング
- Signed 16-bit PCM (リトルエンディアン、ビッグエンディアン)
- A-law (8-bit)
- mu-law (8-bit)
サンプリングレート
8kHz、11.025kHz、16kHz、22.05kHz、32kHz、44.1kHz、48kHzのサンプリングレートに対応しています。A-law、mu-law形式は、8kHz のみ対応しています。
このドキュメントの中で、11.025kHz、22.05kHzはそれぞれ、11kHz、22kHzと表記することもあります。
AmiVoice API で音声認識処理を行う音声認識エンジンは、8kHzと16kHzのサンプリングレートに対応した2種類あります。8kHzエンジンは主に電話で使われる音声に対して、16kHzはそれ以外で広く使われている音声のために用意しています。それぞれの音声認識エンジンに対応するサンプリングレートは以下の表のとおりです。
音声認識エンジン | 対応するサンプリングレート |
---|---|
8kHzに対応した音声認識エンジン | 8kHz、11.025kHz |
16kHzに対応した音声認識エンジン | 16kHz、22.05kHz、32kHz、44.1kHz、48kHz |
8kHzに対応しているのは一部の音声認識エンジンです。詳細は音声認識エンジンの一覧を参照してください。
歌や楽器の演奏などとは異なり、一般に音声認識には16kHzよりも高い周波数帯域の情報は必要ありません。16kHzよりも高い周波数でサンプリングした音声を送信しても、16kHzにダウンサンプリングしてから処理されるため、サンプリングレートを16kHzよりも高くする必要はありません。ネットワークの帯域を節約したり、送信にかかる時間を減らすためにも適切なサンプリングレートで音声データを送信することをお勧めします。なお、16kHz以外のサンプリングレートでも、音声認識の精度には全く影響しません。
8k音声に対応している音声認識エンジンを利用する場合も同様に、11kHzの音声は、8kHzにダウンサンプリングされてから処理されます。
AmiVoice TechBlogの『音声認識に必要なサンプリングレートはどのくらいか?』も参考にしてください。