특징

AmiVoice API에는 다음과 같은 특징이 있습니다.

음성 데이터를 받아 발화 내용을 텍스트로 변환하여 반환합니다.
파일과 순차적 결과를 얻을 수 있는 스트리밍을 지원합니다. 인터페이스 종류와 사용 방법을 참조하십시오.
HTTP와 WebSocket을 이용한 텍스트 기반 프로토콜을 사용하므로, 클라이언트 동작 환경에서 TCP/IP를 이용할 수 있기만 하면 되며, 특수한 라이브러리를 포함할 필요가 없습니다.
HTTPS 및 WSS로 암호화되어 있어 통신 경로가 안전합니다.
전송된 음성 데이터에서 사람이 발화하는 부분을 추정하여 음성 인식하고, 그 음성 인식의 대상이 된 발화 시간에 대해서만 비용이 발생합니다. AmiVoice API의 가격을 참조하십시오.
음성 인식 결과는 JSON 형식으로 반환합니다. 발화 내용을 추정한 텍스트뿐만 아니라 발화의 시작 시간, 종료 시간, 토큰별 시간 정보, 신뢰도 등을 얻을 수 있습니다.
다양한 언어를 지원합니다. 지원되는 언어를 참조하십시오.
구두점을 자동으로 삽입합니다.
「えーっと」나 「あのー」 등의 채움말의 자동 삭제합니다. 콜센터에서 상담원의 응답 분석 등의 목적을 위해, 채움말을 의도적으로 남길 수도 있습니다.
음성 인식 엔진(언어 모델, 음향 모델의 조합)을 여러 개 제공하여 다양한 언어, 도메인 및 사용 상황에 최적화된 엔진을 선택할 수 있습니다.
사용자 사전 기능을 사용하여, 인식되지 않는 단어도 인식하기 쉽도록 사용자가 단어를 등록할 수 있습니다.
화자 다이어라이제이션 기능을 활성화하면 여러 화자가 말하는 음성에 대해 누가 어디서부터 어디까지 말했는지 추정한 결과를 얻을 수 있습니다.
감정 분석 기능을 활성화하면 감정 분석도 동시에 수행할 수 있습니다.