메인 콘텐츠로 건너뛰기

시작하기

AmiVoice API는 음성을 텍스트로 변환하는 음성 인식 API입니다. AmiVoice API에 음성을 전송하면, 발화 내용을 텍스트로 변환한 결과를 반환합니다. 회의 녹취록 작성이나 음성 대화 시스템 등의 음성 지원 애플리케이션을 만들 수 있습니다.

그림. AmiVoice API 개요

문서 구성

도입 전 보안 및 운영을 위한 정보는 '도입 및 운용 가이드', 구현 세부 사항은 '개발 가이드', API 사양 확인은 'Reference', 어려움이 있을 때는 '도움말' 섹션을 참조하십시오.

빠른 시작

1

APPKEY 취득

사용자 등록 페이지에서 등록하고, 마이페이지의 [接続情報]에 표시된 APPKEY 를 확인합니다. 다음 명령어로 환경 변수에 설정합니다.

export APPKEY=your_appkey_here

AmiVoice Tech Blog에서는 사용자 등록을 하고 AmiVoice API를 사용하여 음성 파일을 텍스트로 변환하는 과정을 단계별로 설명하고 있으므로 참조하시기 바랍니다.

AmiVoice API 사용해보기 (일본어 블로그)

2

오디오 파일 준비

전사할 오디오 파일을 준비합니다. 아래의 샘플 음성 파일(test.wav)를 바로 사용할 수 있습니다.

지원하는 오디오 파일 형식에 대해서는 음성 포맷을 참조하세요.

3

음성 인식 실행

다음을 실행합니다. test.wav 대신에 사용하고자 하는 음성 파일의 경로로 변경하세요.

curl https://acp-api.amivoice.com/v1/recognize \
-F d=-a-general \
-F u=$APPKEY \
-F a=@test.wav | jq
노트
  • curl 명령어가 설치되어 있지 않은 경우, https://curl.se/ 에서 사용 중인 OS의 패키지를 다운로드하거나 패키지 관리자를 사용하여 curl을 설치하십시오.
  • 결과 텍스트는 Unicode 이스케이프되어 있습니다. 위 명령어에서는 응답 내용을 보기 쉽게 정리하기 위해 jq를 사용하고 있습니다. jq가 설치되어 있지 않은 경우에는 | jq 부분을 제외하고 실행해 보십시오. jq 명령어는 https://stedolan.github.io/jq/ 에서 사용 중인 OS의 패키지를 다운로드하거나 패키지 관리자를 사용하여 설치할 수 있습니다.
4

결과 확인

성공하면 다음과 같은 JSON이 반환됩니다. text 필드에 전사 결과가 포함됩니다.

{
"results": [
{
"tokens": [ ... ],
"confidence": 0.998,
"starttime": 250,
"endtime": 8794,
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。"
}
],
"utteranceid": "20220602/14/018122d637320a301bc194c9_20220602_141433",
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。",
"code": "",
"message": ""
}

응답의 자세한 내용은 음성 인식 결과 형식를 참조하시기 바랍니다.

다음 단계

빠른 시작에서는 동기식 HTTP 인터페이스를 사용하였습니다. 실시간 음원을 처리하고 싶은 경우에는 WebSocket 인터페이스, 15MB를 초과하는 큰 음성 파일을 처리하고 싶은 경우에는 비동기 HTTP 인터페이스를 사용할 수 있습니다. 각각의 유스 케이스와 사용 포인트에 대해서는 인터페이스 종류와 사용 방법을 참조하십시오.

개발을 지원하는 클라이언트 라이브러리와 샘플 프로그램도 제공하고 있습니다.

음성 인식 정확도 개선을 위한 커스터마이징에 대해서는 다음 기능을 활용할 수 있습니다.

화자 다이어라이제이션이나 감정 분석 등의 추가 기능도 제공하고 있습니다. 목적에 맞게 활용하시기 바랍니다.

구축한 서비스 운영을 지원하는 기능에 대해서도 제공하고 있습니다.

포괄적인 개발 가이드도 참고하시기 바랍니다.