시작하기

AmiVoice API는 음성을 텍스트로 변환하는 음성 인식 API입니다. AmiVoice API에 음성을 전송하면, 발화 내용을 텍스트로 변환한 결과를 반환합니다. 회의 녹취록 작성이나 음성 대화 시스템 등의 음성 지원 애플리케이션을 만들 수 있습니다.

그림. AmiVoice API 개요

문서 구성

도입 전 보안 및 운영을 위한 정보는 '도입 및 운용 가이드', 구현 세부 사항은 '개발 가이드', API 사양 확인은 'Reference', 어려움이 있을 때는 '도움말' 섹션을 참조하십시오.

📄️ 도입 및 운용 가이드

보안, 컴플라이언스, 운영에 필요한 정보를 정리했습니다.

📄️ 개발 가이드

목적에 맞는 API 사용법, 요청, 응답 등 개발에 필요한 상세 정보를 설명합니다.

📄️ Reference

API Reference조

📄️ 도움말

문제 해결 및 문의 방법

빠른 시작

APPKEY 취득

사용자 등록 페이지에서 등록하고, 마이페이지의 [接続情報]에 표시된 APPKEY 를 확인합니다. 다음 명령어로 환경 변수에 설정합니다.

macOS / Linux
Windows (PowerShell)
Windows (명령 프롬프트)

export APPKEY=your_appkey_here

$env:APPKEY = "your_appkey_here"

set APPKEY=your_appkey_here

팁

AmiVoice Tech Blog에서는 사용자 등록을 하고 AmiVoice API를 사용하여 음성 파일을 텍스트로 변환하는 과정을 단계별로 설명하고 있으므로 참조하시기 바랍니다.

AmiVoice API 사용해보기 (일본어 블로그)

오디오 파일 준비

전사할 오디오 파일을 준비합니다. 아래의 샘플 음성 파일(test.wav)를 바로 사용할 수 있습니다.

지원하는 오디오 파일 형식에 대해서는 음성 포맷을 참조하세요.

음성 인식 실행

다음을 실행합니다. test.wav 대신에 사용하고자 하는 음성 파일의 경로로 변경하세요.

curl (macOS / Linux)
curl (Windows PowerShell)
curl (Windows 명령 프롬프트)
Python

curl https://acp-api.amivoice.com/v1/recognize \
     -F d=-a-general \
     -F u=$APPKEY \
     -F a=@test.wav | jq

노트

curl 명령어가 설치되어 있지 않은 경우, https://curl.se/ 에서 사용 중인 OS의 패키지를 다운로드하거나 패키지 관리자를 사용하여 curl을 설치하십시오.
결과 텍스트는 Unicode 이스케이프되어 있습니다. 위 명령어에서는 응답 내용을 보기 쉽게 정리하기 위해 jq를 사용하고 있습니다. jq가 설치되어 있지 않은 경우에는 | jq 부분을 제외하고 실행해 보십시오. jq 명령어는 https://stedolan.github.io/jq/ 에서 사용 중인 OS의 패키지를 다운로드하거나 패키지 관리자를 사용하여 설치할 수 있습니다.

curl.exe https://acp-api.amivoice.com/v1/recognize `
     -F d=-a-general `
     -F u=$env:APPKEY `
     -F a=@test.wav | jq

노트

PowerShell에서는 curl이 Invoke-WebRequest의 별칭이 되어 있으므로 curl.exe로 명시하십시오. Windows 10 버전 1803 이상에는 curl.exe가 기본적으로 포함되어 있습니다. 포함되어 있지 않은 경우에는 https://curl.se/ 에서 설치하십시오.
결과 텍스트는 Unicode 이스케이프되어 있습니다. 위 명령어에서는 응답 내용을 보기 쉽게 정리하기 위해 jq를 사용하고 있습니다. jq가 설치되어 있지 않은 경우에는 | jq 부분을 제외하고 실행해 보십시오. jq 명령어는 https://stedolan.github.io/jq/ 에서 사용 중인 OS의 패키지를 다운로드하거나 패키지 관리자를 사용하여 설치할 수 있습니다.

curl https://acp-api.amivoice.com/v1/recognize ^
     -F d=-a-general ^
     -F u=%APPKEY% ^
     -F a=@test.wav

노트

Windows 10 버전 1803 이상에는 curl이 기본적으로 포함되어 있습니다. 포함되어 있지 않은 경우에는 https://curl.se/ 에서 설치하십시오.
결과 텍스트는 Unicode 이스케이프되어 있습니다. 위 명령어에서는 응답 내용을 보기 쉽게 정리하기 위해 jq를 사용하고 있습니다. jq가 설치되어 있지 않은 경우에는 | jq 부분을 제외하고 실행해 보십시오. jq 명령어는 https://stedolan.github.io/jq/ 에서 사용 중인 OS의 패키지를 다운로드하거나 패키지 관리자를 사용하여 설치할 수 있습니다.

import os
import requests

with open("test.wav", "rb") as f:
    response = requests.post(
        "https://acp-api.amivoice.com/v1/recognize",
        data={"d": "-a-general", "u": os.environ["APPKEY"]},
        files={"a": f}
    )
    data = response.json()  # JSON  파서가 Unicode 이스케이프를 자동으로 일본어로 변환합니다.
    print(data)

결과 확인

성공하면 다음과 같은 JSON이 반환됩니다. text 필드에 전사 결과가 포함됩니다.

{
  "results": [
    {
      "tokens": [ ... ],
      "confidence": 0.998,
      "starttime": 250,
      "endtime": 8794,
      "text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。"
    }
  ],
  "utteranceid": "20220602/14/018122d637320a301bc194c9_20220602_141433",
  "text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。",
  "code": "",
  "message": ""
}

응답의 자세한 내용은 음성 인식 결과 형식를 참조하시기 바랍니다.

다음 단계

빠른 시작에서는 동기식 HTTP 인터페이스를 사용하였습니다. 실시간 음원을 처리하고 싶은 경우에는 WebSocket 인터페이스, 15MB를 초과하는 큰 음성 파일을 처리하고 싶은 경우에는 비동기 HTTP 인터페이스를 사용할 수 있습니다. 각각의 유스 케이스와 사용 포인트에 대해서는 인터페이스 종류와 사용 방법을 참조하십시오.

시작하기

문서 구성

📄️ 도입 및 운용 가이드

📄️ 개발 가이드

📄️ Reference

📄️ 도움말

빠른 시작

APPKEY 취득

오디오 파일 준비

음성 인식 실행

결과 확인

다음 단계

📄️ 동기식 HTTP 인터페이스

📄️ WebSocket 인터페이스

📄️ 비동기 HTTP 인터페이스

📄️ 클라이언트 라이브러리

📄️ 샘플 프로그램

📄️ 음성 인식 엔진

📄️ 사용자 사전

📄️ 규칙 문법

📄️ 화자 다이어리제이션

📄️ 감정 분석

📄️ 발화량 집계 태그

문서 구성​

📄️ 도입 및 운용 가이드

📄️ 개발 가이드

📄️ Reference

📄️ 도움말

빠른 시작​

APPKEY 취득

오디오 파일 준비

음성 인식 실행

결과 확인

다음 단계​

📄️ 동기식 HTTP 인터페이스

📄️ WebSocket 인터페이스

📄️ 비동기 HTTP 인터페이스

📄️ 클라이언트 라이브러리

📄️ 샘플 프로그램

📄️ 음성 인식 엔진

📄️ 사용자 사전

📄️ 규칙 문법

📄️ 화자 다이어리제이션

📄️ 감정 분석

📄️ 발화량 집계 태그

문서 구성

빠른 시작

다음 단계