발화 검출
발화 구간이란 음성 데이터 중에서 사람이 말하는 부분을 가리킵니다. 음성 데이터에는 사람의 목소리와 그 외의 부분, 예를 들어 무음이나 배경 노이즈 등이 포함되어 있습니다. 음성 인식을 하기 전에 발화 구간을 검출하고, 발화 구간만을 대상으로 처리합니다. 이는 불필요한 음성 구간을 무시함으로써 계산량을 줄이고, 잘못 음성으로 인식되는 것을 방지하기 위함입니다. AmiVoice API에서는 심층 학습 모델을 사용하여 사람의 목소리와 그 외를 구별하며, 단순히 음량만을 사용한 발화 검출보다 더 높은 정확도로 발화를 검출합니다.
아래 그림은 클라이언트에서 AmiVoice API로 음성 데이터가 전송될 때의 흐름을 보여줍니다. 먼저 발화 검출이 이루어지고, 그 후 음성 인식 처리가 이루어집니다. 그림에서 보라색 띠가 발화 구간을 나타냅니다. 3개의 발화 구간이 검출되었고, 각각에 대해 음성 인식 처리를 수행합니다.
비동기 HTTP 인터페이스와 WebSocket 인터페이스는 발화 구간별로 시간 정보와 음성 인식 결과, 신뢰도를 얻을 수 있습니다. 자세한 내용은 발화 구간의 결과를 참조하십시오. 또한, WebSocket 인터페이스에서는 발화의 시작과 종료 타이밍을 실시간으로 받을 수 있습니다. 자세한 내용은 상태 이벤트 취득을 참조하십시오.
동기 HTTP 인터페이스에서는 발화 구간의 결과를 얻을 수 없습니다.
발화 검출 파라미터 조정
현재 AmiVoice API에서는 발화 검출 파라미터를 조정할 수 없습니다. 구술 필기나 회의 녹취 등의 애플리케이션에서는 대부분의 경우 변경이 필요하지 않습니다. 콜센터의 IVR이나 로봇과의 대화 등의 애플리케이션에서는 감도나 발화 종료 검출 시간 등 특정 파라미터의 변경이 필요한 경우가 있습니다. 이 경우에는 AmiVoice API Private를 검토해 주십시오.