메인 콘텐츠로 건너뛰기

음성 인식 엔진

AmiVoice API는 다양한 언어와 용도에 맞춰 여러 음성 인식 엔진을 제공합니다. 인식하려는 음성에 가장 적합한 음성 인식 엔진을 선택하면 정확도를 개선할 수 있습니다. 여기서는 음성 인식 엔진이 지원하는 언어, 엔진 유형 및 사용 방법에 대해 설명합니다.

음성 인식 엔진 목록

AmiVoice API는 다양한 음성 인식 엔진을 제공합니다. End-to-End 엔진과 하이브리드 엔진의 차이도 참조하십시오.

End-to-End 엔진

새로운 세대의 음성 인식 엔진입니다.

언어엔진 이름지원 샘플링 레이트연결 엔진 이름
일본어일본어E2E_범용8k / 16k-a2-ja-general
중국어중국어E2E_범용8k / 16k-a2-zh-general
다국어다국어E2E_범용8k / 16k-a2-multi-general
일본어일본어E2E_범용 배치8k / 16k-a2b-ja-general
중국어중국어E2E_범용 배치8k / 16k-a2b-zh-general
다국어다국어E2E_범용 배치8k / 16k-a2b-multi-general
  • 다국어 엔진은 여러 언어가 섞인 음성도 각 언어로 문자를 변환할 수 있는 엔진입니다. 지원하는 언어는 일본어, 영어, 중국어입니다.
  • 배치 엔진은 빠흔 응답 속도를 요구하지 않는 배치 처리에 최적화된 엔진입니다. 정확도를 더 중시하고 싶은 경우에 사용하십시오. 특히 비동기 HTTP 인터페이스에는 배치용 엔진을 지정해 주십시오.

하이브리드 엔진

다양한 도메인에 최적화된 음성 인식 엔진입니다.

언어엔진 이름언어 모델지원 샘플링 레이트연결 엔진 이름
일본어会話_汎用대화 범용8k / 16k-a-general
일본어会話_医療대화 의료 회의16k-a-medical
일본어会話_金融대화 금융16k-a-bizfinance
일본어会話_保険대화 보험16k-a-bizinsurance
일본어音声入力_汎用음성입력 대규모 범용16k-a-general-input
일본어音声入力_医療음성입력 의료 범용16k-a-medical-input
일본어音声入力_保険음성입력 보험16k-a-bizinsurance-input
일본어音声入力_金融음성입력 금융16k-a-bizfinance-input
영어英語_汎用영어 범용8k / 16k-a-general-en
중국어中国語_汎用중국어 범용8k / 16k-a-general-zh
한국어韓国語_汎用한국어 범용8k / 16k-a-general-ko
일본어音声入力_氏名음성입력 성명8k / 16k-a-name-input-private(*1)
일본어音声入力_住所음성입력 주소8k / 16k-a-address-input-private(*1)
일본어音声入力_ルール없음16k-a-rule-input-private(*1) (*2)
  • (*1) AmiVoice API Private에서 사용 가능한 엔진입니다.
  • (*2) "音声入力_ルール(음성입력 규칙)" 엔진은 비동기 HTTP 인터페이스에서는 사용할 수 없습니다.

음성 인식 엔진의 요소

음성 인식 엔진을 선택할 때 구성 요소와 특성을 이해함으로써 적절한 엔진 선택과 API 사용에 도움이 됩니다.

End-to-End 엔진/하이브리드 엔진

End-to-End 엔진/하이브리드 엔진의 공통 요소에 대해 설명합니다.

지원 샘플링 레이트

모든 음성 인식 엔진은 16kHz를 지원합니다. 일부 엔진은 전화 등에서 자주 사용되는 8kHz 샘플링 레이트의 음성을 지원합니다. 샘플링 레이트에 대해서는 음성 형식의 샘플링 레이트를 참조하십시오.

  • 음성을 직접 녹음하는 경우에는 샘플링 레이트 16kHz로 녹음하고, 16kHz 엔진을 사용하십시오.
  • 전화 음성의 경우 8kHz 엔진을 사용하십시오.

연결 엔진 이름

요청 매개변수연결 엔진 이름 (grammarFileNames)에는 표의 "연결 엔진 이름" 열의 문자열을 지정합니다. AmiVoice API Private에서 공개하고 있는 엔진 이름에 대해서는 마이 페이지를 참조하십시오.

하이브리드 엔진

하이브리드 일본어 음성 인식 엔진은 용도(음향 모델)와 언어 모델의 조합으로 여러 엔진을 제공합니다. 다음은 하이브리드 엔진에 대한 설명입니다.

용도

사람과 사람이 자연스럽게 대화할 때의 음성을 텍스트로 변환하는 데 최적화된 "会話(대화)" 엔진, 사람이 기계에게 발화할 때 최적화된 "音声入力(음성입력)" 엔진이 있습니다. 각각 다른 데이터셋을 기반으로 학습된 음향 모델을 사용합니다. 단, 용도는 음향 모델의 차이뿐만 아니라 각 용도에 적합하게 최적화되어 있습니다.

특징 및 주의점

"会話(대화)" 엔진은 "えーっと"이나 "あのー"와 같은 불필요한 단어를 제거하기 쉽게 되어 있습니다. 기본 설정에서는 이러한 불필요한 단어가 인식된 후 자동으로 제거됩니다. 또한 불필요한 단어를 일부러 표시하도록 설정할 수도 있습니다. 필러 단어의 출력 지정을 참조하십시오. "音声入力(음성입력)" 엔진을 사용하는 경우, 불필요한 단어로 판단되지 않아, 제거되지 않거나 다른 단어로 오인식되는 경우가 많아집니다.

Use case
  • 회의나 전화 등의 음성을 텍스트로 변환할 경우에는 "会話(대화)" 엔진을 사용하십시오.
  • 전자 차트, 보고서, 이메일, 쇼트 메시지 등을 구술 필기하는 경우나 로봇이나 음성 챗봇 등 기계와의 대화의 경우에는 "音声入力(음성입력)" 엔진을 사용하십시오.
  • Use case를 특정할 수 없는 경우에는 "会話(대화)" 엔진을 사용하십시오.

언어 모델

의료, 제약, 금융, 보험 등의 "도메인"별로 자주 사용되는 어휘나 표현이 있습니다. 이러한 도메인별로 최적화된 "영역 특화" 언어 모델을 제공하고 있습니다.

일본어 언어 모델의 목록입니다. 용도별로 엔진으로 제공하고 있으므로, 각각의 사용 사례도 함께 설명합니다.

언어 모델
언어 모델의 설명과 용도별 엔진
범용용도를 제한하지 않는 발화 내용의 문자화에 사용할 수 있습니다. "대화" 전용입니다

会話_汎用(대화 범용)(-a-general): 회의·동영상의 문자 기록, 입력이 제한되지 않는 경우 등
대규모 범용용도를 제한하지 않는 구술 필기나 음성 대화의 문자화에 사용할 수 있습니다. 범용보다 학습 어휘 수가 크게 증가했습니다. 잘 사용되지 않는 단어나 신사, 사원, 성, 다리, 온천, 동물원, 수족관, 미술관, 박물관, 댐, 터널과 같은 랜드마크·장소·시설의 명칭 등의 어휘가 풍부합니다. "음성 입력" 전용입니다

音声入力_汎用(음성입력 범용)(-a-general-input): 다양한 상황에서의 구술 필기, 음성 대화 애플리케이션 등
금융"범용" 언어 모델에 더해 금융 업계의 용어나 표현 등이 추가되어 있습니다.

会話_金融(대화 금융)(-a-bizfinance): 문자 기록이나 대면 영업 시 대화의 문자 기록 등
音声入力_金融(음성입력 금융)(-a-bizfinance-input): 일일 보고, 이메일 작성의 음성 입력 등
보험"범용" 언어 모델에 더해 보험 업계의 용어나 표현 등이 추가되어 있습니다.

会話_保険(대화 보험)(-a-bizinsurance): 문자 기록이나 대면 영업 시 대화의 문자 기록 등
音声入力_保険(음성입력 보험)(-a-bizinsurance-input): 일일 보고, 이메일 작성의 음성 입력 등
의료 회의"범용" 언어 모델에 더해 다양한 진료 과목, 의료 관련 용어, 의료 업계 회의에서의 표현 등이 추가되어 있습니다. 많은 병명, 약품명, 병원명, 수술명, 지명 등에 대응하고 있습니다. "대화" 전용입니다

会話_医療(대화 의료)(-a-medical ): 의료 업계 회의, 진료 시 환자와 의사의 대화, 의료 관련 동영상의 문자 기록, 대면 영업 대화의 문자 기록, MR의 영업 일지 등
의료 범용전자 차트의 소견, 진단서, 진료 정보 제공서, 소개장, 개호(介護) 기록, 약사의 복약 지도문 작성, 다양한 의료 문서 작성을 위한 구술 필기에 특화되어 있습니다. "음성 입력" 전용입니다

音声入力_医療(음성입력 의료)(-a-medical-input): 다양한 진료과의 의사, 약사 등 전문가의 구술 필기
성명성명(풀네임, 성씨만, 이름만)의 인식에 특화되어 있습니다. 음성 인식 결과는 모두 가타카나로 출력됩니다. "음성 입력" 전용입니다

音声入力_氏名(-a-name-input-private): 자동 음성 응답 시스템 등
주소주소 인식에 특화되어 있습니다. 전국의 시구군촌명, 번지를 인식합니다. "음성 입력" 전용입니다

音声入力_住所(-a-address-input-private): 자동 음성 응답 시스템 등
규칙 문법규칙 문법(*3)을 이용하여, 직접 설정한 정형문이나 단어만을 인식시킬 수 있습니다. 「음성 입력」 전용입니다

音声入力_ルール(-a-rule-input-private): 제조업이나 점검 유지보수 등의 데이터 입력, 로봇 조작 등
  • (*3) 규칙 문법(Rule Grammar)은 업계 표준인 JSGF(JSpeech Grammar Format) 또는 SRGS(Speech Recognition Grammar Specification) 형식을 이용할 수 있습니다.
일본어 언어 모델의 클래스명 목록

일본어 음성 인식 엔진에서 정의된 클래스명 목록입니다. 클래스는 단어 등록 시 사용됩니다. 자세한 내용은 단어 등록을 참조하십시오. API 사용자가 새로운 클래스를 추가할 수 없습니다.

클래스 이름
범용
대규모 범용
금융
보험
의료 회의
의료 범용
성명
주소
비고
固有名詞고유명사
名前일본인 이름(성)
名前(名)일본인 이름(명)
名前일본인 성명 (*4)
駅名역 이름
地名지명
会社名회사명
部署名부서명
役職名직책명
記号기호
括弧開き괄호 열기
括弧閉じ괄호 닫기
元号일본 달력 연호
病名병명
薬品名약품명
病院名병원명
手術名수술명
地名_区町村지명 구촌락
地名_支庁市郡지명 지청시군
フィラー(文頭)필러-문두
フィラー(文末)필러-문말
  • (*4) 名前 클래스는 医療汎用 엔진에서는 일본인 성명(姓名)에 대응합니다만, 다른 언어 모델에서는 일본인 이름(성)에 대응합니다.
  • 규칙 문법(Rule Grammar)용 엔진에서는 인식시킬 단어를 규칙 문법 내에서 지정하기 때문에 별도의 단어 등록 기능을 제공하지 않습니다.
중국어 언어 모델의 클래스 이름 목록

중국어 음성 인식 엔진에서 정의된 클래스 이름 목록입니다.

클래스 이름범용비고
固有名词一般고유명사 일반
이름(성)
이름(명)
한국어 언어 모델의 클래스 이름 목록

한국어 음성 인식 엔진에서 정의된 클래스 이름 목록입니다.

클래스 이름범용비고
固有名詞고유명사
地名지명
駅名역 이름
会社名회사명
名前(姓)이름(성)
名前(名)이름(명)

End-to-End 엔진과 하이브리드 엔진의 차이

하이브리드 엔진은 전통적인 통계적 모델을 사용한 음성 인식 엔진입니다. 의료 등 업계 특유의 어휘에 다수 대응해야 하는 경우나 하이브리드 엔진 고유의 기능이 필요한 경우에는 계속해서 사용해 주시기 바랍니다. End-to-End 엔진은 새로운 세대의 AmiVoice 음성 인식 엔진입니다. 범용적인 용도에서 음성인식 정확도가 높은 경우가 많기 때문에, 처음으로 AmiVoice API를 사용하시는 경우에는 우선적으로 End-to-End 엔진을 시도해 보시기 바랍니다. 이미 AmiVoice API를 사용하고 계신 경우에는, 하이브리드 엔진에서 End-to-End 엔진으로의 변경에 따라 애플리케이션 상의 영향이 없는지 확인하신 후에 이행하실 수 있도록 사전 검토하시기 바랍니다.

하이브리드 엔진의 특징

  • 음향 모델과 언어 모델을 결합하여 음성 인식을 수행합니다. 다양한 도메인별로 최적화된 언어 모델을 사용한 음성 인식 엔진을 이용할 수 있습니다.
  • 단어 등록 시 클래스를 이용할 수 있습니다.
  • 단어 단위의 인식 결과starttimeendtime에서 단어별 정확한 시간 정보를 얻을 수 있습니다.

End-to-End 엔진의 특징

  • 범용 엔진을 제공하고 있습니다.
  • 단어 등록 시 클래스를 사용할 수 없습니다.
  • 단어 단위의 인식 결과에서는 단어별 발음 정보를 얻을 수 없습니다.
  • 단어 단위의 인식 결과starttimeendtime으로 얻을 수 있는 시간 정보는 하이브리드 방식에 비해 정확하지 않습니다.
  • 하이브리드 엔진에서는 발생하지 않는 오류 패턴으로, 일부 결과가 반복되는 경우가 있습니다. 특히 음질이 현저히 나쁜 음성이나 너무 긴 음성(20초 이상)에서 발생하기 쉬운 경향이 있습니다.
  • 필러 단어 자동 삭제의 억제는 지원되지 않습니다.필러 단어는 모두 자동으로 삭제됩니다.
노트
  • 2025-03-25 현재, End-to-End 엔진에서는 단어를 등록할 수 없습니다.단어 등록이 필요한 경우에는 하이브리드 엔진을 이용해 주세요.
  • 2025-03-25 현재, 중국어 End-to-End 엔진에서는 필러 단어의 자동 삭제 기능을 지원하지 않습니다.

비용

엔진에 따라 비용이 다릅니다. 자세한 내용은 AmiVoice API의 가격을 참조하십시오.

인식 정확도에 대해

음성 인식 엔진의 어휘에 없는 단어는 출력되지 않습니다. 어휘에 없는 단어가 발화되면 발음이 비슷한 단어나, 발음이 비슷한 짧은 단어의 조합, 또는 단순히 잘못된 단어로 인식됩니다. 계산 리소스나 계산 시간의 제약으로 인해 음성 인식 엔진마다 어휘가 정해져 있습니다. "会話_汎用"이나 "音声入力_汎用" 등의 범용 엔진은 다양한 상황에서 활용할 수 있도록 많은 어휘가 등록되어 있지만, 특정 업계나 용도에 특화된 단어는 포함되어 있지 않습니다.

의료, 금융, 보험 등의 업계별로 자주 사용되는 전문 용어는 특정 업계에 특화된 엔진을 사용함으로써 해당 업계에서 자주 사용되는 단어에 대해 높은 인식률을 실현할 수 있습니다. 또한 특정 조직 등에서 자주 사용되는 단어에 대해서는 단어 등록을 통해 대응할 수 있습니다.

범용 엔진과 영역 특화 엔진에서 어느 정도의 인식률 차이가 나는지 AmiVoice Tech Blog에서 비교하여 보고하고 있습니다. AmiVoice의 영역 특화 엔진의 음성 인식 정확도를 비교해 보았습니다(범용 vs 전자 차트)【동일한 발화로 비교 검증】음성 입력 엔진과 대화 엔진의 인식 결과의 차이는?을 참조하십시오.