메인 콘텐츠로 건너뛰기

특징

AmiVoice API에는 다음과 같은 특징이 있습니다.

  • 음성 데이터를 받아 발화 내용을 텍스트로 변환하여 반환합니다.
  • 파일과 순차적 결과를 얻을 수 있는 스트리밍을 지원합니다. 인터페이스의 구분을 참조하십시오.
  • HTTP와 WebSocket을 이용한 텍스트 기반 프로토콜을 사용하므로, 클라이언트 동작 환경에서 TCP/IP를 이용할 수 있기만 하면 되며, 특수한 라이브러리를 포함할 필요가 없습니다.
  • HTTPS 및 WSS로 암호화되어 있어 통신 경로가 안전합니다.
  • 전송된 음성 데이터에서 사람이 발화하는 부분을 추정하여 음성 인식하고, 그 음성 인식의 대상이 된 발화 시간에 대해서만 비용이 발생합니다. AmiVoice API의 가격을 참조하십시오.
  • 음성 인식 결과는 JSON 형식으로 반환합니다. 발화 내용을 추정한 텍스트뿐만 아니라 발화의 시작 시간, 종료 시간, 토큰별 시간 정보, 신뢰도 등을 얻을 수 있습니다.
  • 다양한 언어를 지원합니다. 지원되는 언어를 참조하십시오.
  • 구두점을 자동으로 삽입합니다.
  • 「えーっと」나 「あのー」 등의 불필요한 단어를 자동으로 제거합니다. 콜센터에서 상담원의 응답 분석 등의 목적을 위해, 불필요한 단어를 의도적으로 남길 수도 있습니다.
  • 음성 인식 엔진(언어 모델, 음향 모델의 조합)을 여러 개 제공하여 다양한 언어, 도메인 및 사용 상황에 최적화된 엔진을 선택할 수 있습니다.
  • 단어 등록을 통해 인식되지 않는 단어를 사용자가 추가할 수 있습니다.
  • 화자 다이어라이제이션 기능을 활성화하면 여러 화자가 말하는 음성에 대해 누가 어디서부터 어디까지 말했는지 추정한 결과를 얻을 수 있습니다.
  • 감정 분석 기능을 활성화하면 감정 분석도 동시에 수행할 수 있습니다.