소개
AmiVoice API는 음성을 텍스트로 변환하는 음성 인식 API입니다. AmiVoice API에 음성을 전송하면 발화 내용을 텍스트로 변환한 결과를 반환합니다. 회의 녹취록 작성이나 음성 대화 시스템 등의 음성 지원 애플리케이션을 만들 수 있습니다.
빠른 시작
APPKEY 취득
사용자 등록 페이지에서 등록하고, 마이페이지의 [연결 정보]에 표시된 APPKEY를 확인합니다. 다음 명령어로 환경 변수에 설정합니다.
export AMIVOICE_APPKEY=your_appkey_here
오디오 파일 준비
전사할 오디오 파일을 준비합니다. 아래의 샘플 오디오(test.wav)를 바로 사용할 수 있습니다.
지원하는 오디오 파일 형식에 대해서는 오디오 형식을 참조하세요.
음성 인식 실행
다음을 실행합니다. test.wav를 사용할 오디오 파일의 경로로 바꿔 주세요.
- curl
- Python
curl https://acp-api.amivoice.com/v1/recognize \
-F d=-a-general \
-F u=$AMIVOICE_APPKEY \
-F a=@test.wav | jq
import os
import requests
with open("test.wav", "rb") as f:
response = requests.post(
"https://acp-api.amivoice.com/v1/recognize",
data={"d": "-a-general", "u": os.environ["AMIVOICE_APPKEY"]},
files={"a": f}
)
data = response.json()
print(data["text"]) # JSON 파서가 Unicode 이스케이프를 자동으로 원래 텍스트로 변환합니다
결과 확인
성공하면 다음과 같은 JSON이 반환됩니다. text 필드에 전사 결과가 포함됩니다.
{
"results": [
{
"tokens": [ ... ],
"confidence": 0.998,
"starttime": 250,
"endtime": 8794,
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。"
}
],
"utteranceid": "20220602/14/018122d637320a301bc194c9_20220602_141433",
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。",
"code": "",
"message": ""
}
응답의 자세한 내용은 음성 인식 결과를 참조하세요.
다음 단계
API의 자세한 사용 방법은 다음 가이드를 참조하세요.
🔗 개발 가이드
인터페이스 선택, 요청 파라미터, 결과 형식 등 API 개발에 필요한 상세 정보를 설명합니다.
🔗 도입・운용 가이드
AmiVoice API를 운영 환경에 도입하고 운용하는 데 필요한 정보를 제공합니다.
고급 기능 활용
📄️ 엔진 선택
도메인에 따라 음성 인식 엔진을 선택할 수 있습니다. 의료 등 용도에 특화된 엔진을 이용할 수 있습니다.
🔗 스트리밍
WebSocket 인터페이스를 사용하면 마이크 등 실시간 음원을 바로 전사할 수 있습니다.
🔗 배치 처리
대용량 파일이나 대량의 음성을 처리할 때는 비동기 HTTP 인터페이스를 활용한 배치 처리를 이용할 수 있습니다.
📄️ 단어 등록
전문 용어나 고유 명사를 등록하여 인식 정확도를 높일 수 있습니다.
🔗 화자 다이어리제이션
여러 화자가 포함된 음성을 화자별로 분리하여 누가 언제 말했는지 식별할 수 있습니다.
🔗 발화량 집계 태그
발화량 집계 태그를 사용하여 발화 구간의 집계 정보를 가져올 수 있습니다.