음성 포맷
AmiVoice API에서 처리할 수 있는 음성 데이터의 포맷 및 요청 파라미터에서의 설정 방법에 대해 설명합니다.
지원하는 음성
AmiVoice API가 지원하는 음성 포맷에 대해 설명합니다.
인코딩
- Signed 16-bit PCM (리틀 엔디안, 빅 엔디안)
- A-law (8-bit)
- mu-law (8-bit)
샘플링 레이트
8kHz, 11.025kHz, 16kHz, 22.05kHz, 32kHz, 44.1kHz, 48kHz의 샘플링 레이트를 지원합니다. A-law, mu-law 형식은 8kHz만 지원합니다.
이 문서에서 11.025kHz, 22.05kHz는 각각 11kHz, 22kHz로 표기하기도 합니다.
AmiVoice API에서 음성 인식 처리를 수행하는 음성 인식 엔진은 8kHz와 16kHz의 샘플링 레이트에 대응하는 2종류가 있습니다. 8kHz 엔진은 주로 전화에서 사용되는 음성에 대해, 16kHz는 그 외에 널리 사용되는 음성을 위해 준비되어 있습니다. 각 음성 인식 엔진에 대응하는 샘플링 레이트는 다음 표와 같습니다.
음성 인식 엔진 | 대응하는 샘플링 레이트 |
---|---|
8kHz에 대응하는 음성 인식 엔진 | 8kHz, 11.025kHz |
16kHz에 대응하는 음성 인식 엔진 | 16kHz, 22.05kHz, 32kHz, 44.1kHz, 48kHz |
8kHz에 대응하는 것은 일부 음성 인식 엔진입니다. 자세한 내용은 음성 인식 엔진 목록을 참조하십시오.
노래나 악기 연주 등과는 달리, 일반적으로 음성 인식에는 16kHz 이상의 주파수 대역 정보가 필요하지 않습니다. 16kHz보다 높은 주파수로 샘플링한 음성을 전송해도 16kHz로 다운샘플링한 후 처리되므로, 샘플링 레이트를 16kHz 이상으로 할 필요가 없습니다. 네트워크 대역폭을 절약하거나 전송에 걸리는 시간을 줄이기 위해서도 적절한 샘플링 레이트로 음성 데이터를 전송하는 것을 권장합니다.
8k 음성에 대응하는 음성 인식 엔진을 사용하는 경우에도 마찬가지로, 11kHz의 음성은 8kHz로 다운샘플링된 후 처리됩니다.
AmiVoice TechBlog의 "음성 인식에 필요한 샘플링 레이트는 얼마인가?"도 참고해 주십시오.
채널 수
1 또는 2입니다.
2채널(스테레오)은 Wave, Ogg, FLAC 등의 파일 헤더에 음성 포맷이 포함된 "헤더 있음" 음성 파일의 경우에만 대응합니다. 단, 스테레오 음성은 1채널만 음성 인식의 대상이 됩니다.
음원이 스테레오 음성인 경우, 두 채널을 모두 음성 인식하려면 채널별로 별도의 음성 인식 요청을 수행하십시오.
AmiVoice TechBlog의 "스테레오 음성 파일을 모노 음성 파일 × 2로 변환하는 방법"도 참고해 주십시오.
음성 압축
Speex, Opus, MP3, FLAC을 지원합니다.
사람의 귀로도 듣기 어려울 정도로 강한 압축을 하면 인식 정확도에 영향을 줄 수 있습니다. 다음은 압축 방식별 압축률에 대한 가이드라인입니다.
압축 방식 | 가이드라인 |
---|---|
Speex | quality 7 이상 |
Opus | 압축률 10분의 1 정도 |