메인 콘텐츠로 건너뛰기

음성 인식 엔진

AmiVoice API는 다양한 언어와 용도에 맞춰 여러 음성 인식 엔진을 제공합니다. 인식하려는 음성에 가장 적합한 음성 인식 엔진을 선택하면 정확도를 개선할 수 있습니다. 여기서는 음성 인식 엔진이 지원하는 언어, 엔진 유형 및 사용 방법에 대해 설명합니다.

주의

2025년 2월 1일에 의료 엔진의 통합 및 폐지를 실시할 예정입니다. 통합 및 폐지 후의 설명은 "주의" 섹션에 기재되어 있습니다.

【AmiVoice API】의료 업계용 음성 인식 엔진의 통합 및 폐지 예정 안내

음성 인식 엔진 목록

AmiVoice API에서 제공하는 음성 인식 엔진 목록입니다.

언어엔진 이름언어 모델지원 샘플링 레이트연결 엔진 이름
일본어会話_汎用대화 범용8k / 16k-a-general
일본어会話_医療대화 의료16k-a-medgeneral
-a-medical로 변경예정(*2)
일본어会話_製薬대화 제약16k-a-bizmrreport
일본어会話_金融대화 금융16k-a-bizfinance
일본어会話_保険대화 보험16k-a-bizinsurance
일본어音声入力_汎用음성입력 대규모 범용16k-a-general-input
일본어音声入力_医療음성입력 의료16k-a-medgeneral-input
-a-medical-input로 변경예정(*2)
일본어音声入力_製薬음성입력 제약16k-a-bizmrreport-input
-a-medical-input로 변경예정(*2)
일본어音声入力_保険음성입력 보험16k-a-bizinsurance-input
일본어音声入力_金融음성입력 금융16k-a-bizfinance-input
일본어音声入力_電子カルテ음성입력 전자차트16k-a-medkarte-input
-a-medical-input로 통합예정(*2)
영어英語_汎用범용8k(*3) / 16k-a-general-en
중국어中国語_汎用범용8k(*3) / 16k-a-general-zh
한국어 (*1)韓国語_汎用범용8k(*3) / 16k-a-general-ko
주의
  • (*1) 한국어는 비동기 API에 대응하지 않습니다. 향후 대응 예정입니다.
  • (*2) 2025년 2월 1일에 변경 예정입니다. 2024년 10월 30일까지 기존 엔진 이름을 사용하고 있는 사용자의 요청은 변경 후에도 계속해서 기존 연결 엔진 이름으로 이용이 가능합니다. 애플리케이션의 동작에는 영향을 미치지 않지만, 새로운 엔진 이름을 사용하시는 것을 권장합니다. 새로운 엔진은 11월 1일부터 이용 가능합니다.

현재의 음성 인식 엔진과 새로운 엔진의 대응은 아래 표와 같습니다.

현재변경 후
음성 인식 엔진 이름연결 엔진 이름음성 인식 엔진 이름연결 엔진 이름
会話_医療-a-medgeneral会話_医療-a-medical
会話_製薬-a-bizmrreport
音声入力_医療-a-medgeneral-input音声入力_医療-a-medical-input
音声入力_製薬-a-bizmrreport-input
音声入力_電子カルテ-a-medkarte-input
  • (*3) 영어, 중국어, 한국어의 8k 엔진은 비동기 API에는 대응하지 않습니다. 향후 대응 예정입니다.

엔진 이름

일본어 음성 인식 엔진은 용도(음향 모델)와 언어 모델의 조합으로 여러 엔진을 제공하고 있습니다.

용도

사람과 사람이 자연스럽게 대화할 때의 음성을 텍스트로 변환하는 데 최적화된 "会話(대화)" 엔진, 사람이 기계에게 발화할 때 최적화된 "音声入力(음성입력)" 엔진이 있습니다. 각각 다른 데이터셋을 기반으로 학습된 음향 모델을 사용합니다. 단, 용도는 음향 모델의 차이뿐만 아니라 각 용도에 적합하게 최적화되어 있습니다.

특징 및 주의점

"会話(대화)" 엔진은 "えーっと"이나 "あのー"와 같은 불필요한 단어를 제거하기 쉽게 되어 있습니다. 기본 설정에서는 이러한 불필요한 단어가 인식된 후 자동으로 제거됩니다. 또한 불필요한 단어를 일부러 표시하도록 설정할 수도 있습니다. 필러 단어의 출력 지정을 참조하십시오. "音声入力(음성입력)" 엔진을 사용하는 경우, 불필요한 단어로 판단되지 않아, 제거되지 않거나 다른 단어로 오인식되는 경우가 많아집니다.

Use case
  • 회의나 전화 등의 음성을 텍스트로 변환할 경우에는 "会話(대화)" 엔진을 사용하십시오.
  • 전자 차트, 보고서, 이메일, 쇼트 메시지 등을 구술 필기하는 경우나 로봇이나 음성 챗봇 등 기계와의 대화의 경우에는 "音声入力(음성입력)" 엔진을 사용하십시오.
  • Use case를 특정할 수 없는 경우에는 "会話(대화)" 엔진을 사용하십시오.

언어 모델

의료, 제약, 금융, 보험 등의 "도메인"별로 자주 사용되는 어휘나 표현이 있습니다. 이러한 도메인별로 최적화된 "영역 특화" 언어 모델을 제공하고 있습니다.

일본어 언어 모델의 목록입니다. 용도별로 엔진으로 제공하고 있으므로, 각각의 사용 사례도 함께 설명합니다.

언어 모델
언어 모델의 설명과 용도별 엔진
범용용도를 제한하지 않는 발화 내용의 문자화에 사용할 수 있습니다. "会話(대화)" 전용입니다

会話_汎用(대화 범용)(-a-general): 회의·동영상의 문자 기록, 입력이 제한되지 않는 경우 등
대규모 범용용도를 제한하지 않는 구술 필기나 음성 대화의 문자화에 사용할 수 있습니다. 범용보다 어휘 수가 크게 증가했습니다. 잘 사용되지 않는 단어나 신사, 사원, 성, 다리, 온천, 동물원, 수족관, 미술관, 박물관, 댐, 터널과 같은 랜드마크·장소·시설의 명칭 등의 어휘가 풍부합니다. "音声入力(음성 입력)" 전용입니다

音声入力_汎用(음성입력 범용)(-a-general-input): 다양한 상황에서의 구술 필기, 음성 대화 애플리케이션 등
금융"범용" 언어 모델에 더해 금융 업계의 용어나 표현 등이 추가되어 있습니다.

会話_金融(대화 금융)(-a-bizfinance): 문자 기록이나 대면 영업 시 대화의 문자 기록 등
音声入力_金融(음성입력 금융)(-a-bizfinance-input): 일일 보고, 이메일 작성의 음성 입력 등
보험"범용" 언어 모델에 더해 보험 업계의 용어나 표현 등이 추가되어 있습니다.

会話_保険(대화 보험)(-a-bizinsurance): 문자 기록이나 대면 영업 시 대화의 문자 기록 등
音声入力_保険(음성입력 보험)(-a-bizinsurance-input): 일일 보고, 이메일 작성의 음성 입력 등
의료"범용" 언어 모델에 더해 다양한 진료 과목, 의료 관련 용어, 의료 업계 회의에서의 표현 등이 추가되어 있습니다. 많은 병명, 약품명, 병원명, 수술명, 지명 등에 대응하고 있습니다.

会話_医療(대화 의료)(-a-medgeneral ): 의료 업계 회의, 진료 시 환자와 의사의 대화, 의료 관련 동영상의 문자 기록 등
音声入力_医療(음성입력 의료)(-a-medgeneral-input): 개호 기록, 의료 관련 음성 입력 등
제약"의료" 언어 모델에 더해 많은 제약 업계의 용어나 표현 등이 추가되어 있습니다. 많은 병명, 약품명, 병원명 등에 대응하고 있습니다.

会話_製薬(대화 제약)(-a-bizmrreport): 문자 기록이나 대면 영업 시 대화의 문자 기록 등
音声入力_製薬(음성입력 제약)(-a-bizmrreport-input): 약사의 복약 지도문 작성, MR의 영업 일지 음성 입력 등
전자 차트전자 차트의 소견, 진단서, 진료 정보 제공서, 소개장 등, 각종 의료 문서 작성 등의 구술 필기에 특화되어 있습니다. "음성 입력" 전용입니다

音声入力_電子カルテ(음성입력 전자차트)(-a-medkarte-input): 다양한 진료과에서의 전자 차트 등의 구술 필기
주의

2025년 2월 1일에 의료 엔진의 통합 및 폐합을 실시할 예정입니다. 통합 및 폐합 후의 언어 모델 목록은 다음과 같습니다.

  • 새로운 "의료 회의"와 "의료 범용" 언어 모델이 추가됩니다
  • "제약" 언어 모델은 "의료 회의" 언어 모델로 통합됩니다
언어 모델
언어 모델의 설명과 용도별 엔진
범용용도를 제한하지 않는 발화 내용의 문자화에 사용할 수 있습니다. "会話(대화)" 전용입니다

会話_汎用(대화 범용)(-a-general): 회의·동영상의 문자 기록, 입력이 제한되지 않는 경우 등
대규모 범용용도를 제한하지 않는 구술 필기나 음성 대화의 문자화에 사용할 수 있습니다. 범용보다 어휘 수가 크게 증가했습니다. 잘 사용되지 않는 단어나 신사, 사원, 성, 다리, 온천, 동물원, 수족관, 미술관, 박물관, 댐, 터널과 같은 랜드마크·장소·시설의 명칭 등의 어휘가 풍부합니다. "音声入力(음성 입력)" 전용입니다

音声入力_汎用(음성입력 범용)(-a-general-input): 다양한 상황에서의 구술 필기, 음성 대화 애플리케이션 등
금융"범용" 언어 모델에 더해 금융 업계의 용어나 표현 등이 추가되어 있습니다.

会話_金融(대화 금융)(-a-bizfinance): 문자 기록이나 대면 영업 시 대화의 문자 기록 등
音声入力_金融(음성입력 금융)(-a-bizfinance-input): 일일 보고, 이메일 작성의 음성 입력 등
보험"범용" 언어 모델에 더해 보험 업계의 용어나 표현 등이 추가되어 있습니다.

会話_保険(대화 보험)(-a-bizinsurance): 문자 기록이나 대면 영업 시 대화의 문자 기록 등
音声入力_保険(음성입력 보험)(-a-bizinsurance-input): 일일 보고, 이메일 작성의 음성 입력 등
의료 회의"범용" 언어 모델에 더해 다양한 진료 과목, 의료 관련 용어, 의료 업계 회의에서의 표현 등이 추가되어 있습니다. 많은 병명, 약품명, 병원명, 수술명, 지명 등에 대응하고 있습니다. "会話(대화)" 전용입니다

会話_医療(대화 의료)(-a-medical ): 의료 업계 회의, 진료 시 환자와 의사의 대화, 의료 관련 동영상의 문자 기록, 대면 영업 대화의 문자 기록, MR의 영업 일지 등
의료 범용전자 차트의 소견, 진단서, 진료 정보 제공서, 소개장, 개호(介護) 기록, 약사의 복약 지도문 작성, 다양한 의료 문서 작성을 위한 구술 필기에 특화되어 있습니다. "音声入力(음성 입력)" 전용입니다

音声入力_医療(음성입력 의료)(-a-medical-input): 다양한 진료과의 의사, 약사 등 전문가의 구술 필기

일본어 언어 모델의 클래스명 목록

일본어 음성 인식 엔진에서 정의된 클래스명 목록입니다. 클래스는 단어 등록 시 사용됩니다. 자세한 내용은 단어 등록을 참조하십시오. API 사용자가 새로운 클래스를 추가할 수 없습니다.

클래스명범용대규모 범용금융보험제약의료전자 차트비고
固有名詞고유명사
名前일본인 이름(성)
名前(名)일본인 이름(명)
名前일본인 섬명 *1
駅名역 이름
地名지명
会社名회사명
部署名부서명
役職名직책명
記号기호
括弧開き괄호 열기
括弧閉じ괄호 닫기
元号일본 달력 연호
病名병명
薬品名약품명
病院名병원명
手術名수술명
地名_区町村지명 구촌락
地名_支庁市郡지명 지청시군
  • (*1) 이름 클래스는 전자 차트에서는 성명을 나타내지만, 다른 언어 모델에서는 성을 나타냅니다.
주의

2025년 2월 1일에 의료 엔진의 통폐합을 실시할 예정입니다. 통폐합 후 클래스 이름 목록은 다음과 같습니다.

  • 새로 "의료 회의"와 "의료 범용" 언어 모델이 추가되었습니다
  • "제약" 언어 모델은 "의료 회의" 언어 모델로 통합됩니다
클래스 이름
범용
대규모 범용
금융
보험
의료 회의
의료 범용
비고
固有名詞고유명사
名前일본인 이름(성)
名前(名)일본인 이름(명)
名前일본인 성명 *1
駅名역 이름
地名지명
会社名회사명
部署名부서명
役職名직책명
記号기호
括弧開き괄호 열기
括弧閉じ괄호 닫기
元号일본 달력 연호
病名병명
薬品名약품명
病院名병원명
手術名수술명
地名_区町村지명 구촌락
地名_支庁市郡지명 지청시군

중국어 언어 모델의 클래스 이름 목록

중국어 음성 인식 엔진에서 정의된 클래스 이름 목록입니다.

클래스 이름범용비고
固有名词一般고유명사 일반
이름(성)
이름(명)

한국어 언어 모델의 클래스 이름 목록

한국어 음성 인식 엔진에서 정의된 클래스 이름 목록입니다.

클래스 이름범용비고
固有名詞고유명사
地名지명
駅名역 이름
会社名회사명
名前(姓)이름(성)
名前(名)이름(명)

대응 샘플링 레이트

모든 음성 인식 엔진은 16kHz에 대응합니다. 일부 엔진은 전화 등에서 자주 사용되는 8kHz 샘플링 레이트의 음성에 대응합니다. 샘플링 레이트에 대해서는 음성 형식의 샘플링 레이트를 참조하십시오.

  • 음성을 직접 녹음하는 경우에는 샘플링 레이트 16kHz로 녹음하고, 16kHz 엔진을 사용하십시오.
  • 전화 음성의 경우에는 8kHz 엔진을 사용하십시오.

연결 엔진 이름

요청 파라미터연결 엔진 이름 (grammarFileNames)에는 표의 "연결 엔진 이름" 열의 문자열을 지정합니다. AmiVoice API Private에서 공개하고 있는 엔진 이름에 대해서는 마이페이지를 참조하십시오.

비용

엔진에 따라 비용이 다릅니다. 자세한 내용은 AmiVoice API의 가격을 참조하십시오.

인식 정확도에 대해

음성 인식 엔진의 어휘에 없는 단어는 출력되지 않습니다. 어휘에 없는 단어가 발화되면 발음이 비슷한 단어나, 발음이 비슷한 짧은 단어의 조합, 또는 단순히 잘못된 단어로 인식됩니다. 계산 리소스나 계산 시간의 제약으로 인해 음성 인식 엔진마다 어휘가 정해져 있습니다. "会話_汎用"이나 "音声入力_汎用" 등의 범용 엔진은 다양한 상황에서 활용할 수 있도록 많은 어휘가 등록되어 있지만, 특정 업계나 용도에 특화된 단어는 포함되어 있지 않습니다.

의료, 금융, 보험 등의 업계별로 자주 사용되는 전문 용어는 특정 업계에 특화된 엔진을 사용함으로써 해당 업계에서 자주 사용되는 단어에 대해 높은 인식률을 실현할 수 있습니다. 또한 특정 조직 등에서 자주 사용되는 단어에 대해서는 단어 등록을 통해 대응할 수 있습니다.

범용 엔진과 영역 특화 엔진에서 어느 정도의 인식률 차이가 나는지 AmiVoice Tech Blog에서 비교하여 보고하고 있습니다. AmiVoice의 영역 특화 엔진의 음성 인식 정확도를 비교해 보았습니다(범용 vs 전자 차트)【동일한 발화로 비교 검증】음성 입력 엔진과 대화 엔진의 인식 결과의 차이는?을 참조하십시오.