음성 인식 엔진

AmiVoice API는 다양한 언어와 용도에 맞춰 여러 음성 인식 엔진을 제공합니다. 인식하려는 음성에 가장 적합한 음성 인식 엔진을 선택하면 정확도를 개선할 수 있습니다. 여기서는 음성 인식 엔진이 지원하는 언어, 엔진 유형 및 사용 방법에 대해 설명합니다.

음성 인식 엔진 목록

AmiVoice API는 다양한 음성 인식 엔진을 제공합니다. End-to-End 엔진과 하이브리드 엔진의 차이도 참조하십시오.

End-to-End 엔진

새로운 세대의 음성 인식 엔진입니다.

언어	엔진 이름	지원 샘플링 레이트	연결 엔진 이름
일본어	日本語E2E_汎用	8k / 16k	`-a2-ja-general`
중국어	中国語E2E_汎用	8k / 16k	`-a2-zh-general`
다국어	多言語E2E_汎用	8k / 16k	`-a2-multi-general`
일본어	日本語E2E_汎用バッチ	8k / 16k	`-a2b-ja-general`
중국어	中国語E2E_汎用バッチ	8k / 16k	`-a2b-zh-general`
다국어	多言語E2E_汎用バッチ	8k / 16k	`-a2b-multi-general`

다국어 엔진은 여러 언어가 섞인 음성도 각 언어로 문자를 변환할 수 있는 엔진입니다. 지원하는 언어는 일본어, 영어, 중국어입니다. 단어 단위의 인식 결과에 인식된 단어의 언어를 나타내는 언어 라벨(results[0].tokens[].language)이 부여됩니다.
배치 엔진은 빠흔 응답 속도를 요구하지 않는 배치 처리에 최적화된 엔진입니다. 정확도를 더 중시하고 싶은 경우에 사용하십시오. 특히 비동기 HTTP 인터페이스에는 배치용 엔진을 지정해 주십시오.

하이브리드 엔진

다양한 도메인에 최적화된 음성 인식 엔진입니다.

언어	엔진 이름	언어 모델	지원 샘플링 레이트	연결 엔진 이름
일본어	会話_汎用	대화 범용	8k / 16k	`-a-general`
일본어	会話_医療	대화 의료 회의	16k	`-a-medical`
일본어	会話_金融	대화 금융	16k	`-a-bizfinance`
일본어	会話_保険	대화 보험	16k	`-a-bizinsurance`
일본어	音声入力_汎用	음성입력 대규모 범용	16k	`-a-general-input`
일본어	音声入力_医療	음성입력 의료 범용	16k	`-a-medical-input`
일본어	音声入力_保険	음성입력 보험	16k	`-a-bizinsurance-input`
일본어	音声入力_金融	음성입력 금융	16k	`-a-bizfinance-input`
영어	英語_汎用	영어 범용	8k / 16k	`-a-general-en`
중국어	中国語_汎用	중국어 범용	8k / 16k	`-a-general-zh`
한국어	韓国語_汎用	한국어 범용	8k / 16k	`-a-general-ko`
일본어	音声入力_氏名	음성입력 성명	8k / 16k	`-a-name-input-private`(＊1) (＊2)
일본어	音声入力_住所	음성입력 주소	8k / 16k	`-a-address-input-private`(＊1) (＊2)
일본어	音声入力_ルール	없음	16k	`-a-rule-input-private`(＊1) (＊2)

(＊1) AmiVoice API Private에서 사용 가능한 엔진입니다.
(＊2) "音声入力_氏名(음성입력 성명)", "音声入力_住所(음성입력 주소)", "音声入力_ルール(음성입력 규칙)" 엔진은 비동기 HTTP 인터페이스에서는 사용할 수 없습니다.

음성 인식 엔진의 요소

음성 인식 엔진을 선택할 때 구성 요소와 특성을 이해함으로써 적절한 엔진 선택과 API 사용에 도움이 됩니다.

End-to-End 엔진/하이브리드 엔진

End-to-End 엔진/하이브리드 엔진의 공통 요소에 대해 설명합니다.

지원 샘플링 레이트

모든 음성 인식 엔진은 16kHz를 지원합니다. 일부 엔진은 전화 등에서 자주 사용되는 8kHz 샘플링 레이트의 음성을 지원합니다. 샘플링 레이트에 대해서는 음성 형식의 샘플링 레이트를 참조하십시오.

팁

음성을 직접 녹음하는 경우에는 샘플링 레이트 16kHz로 녹음하고, 16kHz 엔진을 사용하십시오.
전화 음성의 경우 8kHz 엔진을 사용하십시오.

연결 엔진 이름

요청 매개변수의 연결 엔진 이름 (grammarFileNames)에는 표의 "연결 엔진 이름" 열의 문자열을 지정합니다. AmiVoice API Private에서 공개하고 있는 엔진 이름에 대해서는 마이페이지를 참조하십시오.

하이브리드 엔진

하이브리드 일본어 음성 인식 엔진은 용도(음향 모델)와 언어 모델의 조합으로 여러 엔진을 제공합니다. 다음은 하이브리드 엔진에 대한 설명입니다.

용도

사람과 사람이 자연스럽게 대화할 때의 음성을 텍스트로 변환하는 데 최적화된 "会話(대화)" 엔진, 사람이 기계에게 발화할 때 최적화된 "音声入力(음성입력)" 엔진이 있습니다. 각각 다른 데이터셋을 기반으로 학습된 음향 모델을 사용합니다. 단, 용도는 음향 모델의 차이뿐만 아니라 각 용도에 적합하게 최적화되어 있습니다.

특징 및 주의점

"会話(대화)" 엔진은 "えーっと"이나 "あのー"와 같은 채움말(Filler words)을 제거하기 쉽게 되어 있습니다. 기본 설정에서는 이러한 채움말이 인식된 후 자동으로 제거됩니다. 또한 채움말을 일부러 표시하도록 설정할 수도 있습니다. 채움말의 출력 지정을 참조하십시오. "音声入力(음성입력)" 엔진을 사용하는 경우, 채움말로 판단되지 않아, 제거되지 않거나 다른 단어로 오인식되는 경우가 많아집니다.

Use case

회의나 전화 등의 음성을 텍스트로 변환할 경우에는 "会話(대화)" 엔진을 사용하십시오.
전자 차트, 보고서, 이메일, 쇼트 메시지 등을 구술 필기하는 경우나 로봇이나 음성 챗봇 등 기계와의 대화의 경우에는 "音声入力(음성입력)" 엔진을 사용하십시오.
Use case를 특정할 수 없는 경우에는 "会話(대화)" 엔진을 사용하십시오.

언어 모델

의료, 제약, 금융, 보험 등의 "도메인"별로 자주 사용되는 어휘나 표현이 있습니다. 이러한 도메인별로 최적화된 "영역 특화" 언어 모델을 제공하고 있습니다.

일본어 언어 모델의 목록입니다. 용도별로 엔진으로 제공하고 있으므로, 각각의 사용 사례도 함께 설명합니다.

언어 모델	언어 모델의 설명과 용도별 엔진
범용	용도를 제한하지 않는 발화 내용의 문자화에 사용할 수 있습니다. "대화" 전용입니다 会話_汎用(대화 범용)(`-a-general`): 회의·동영상의 문자 기록, 입력이 제한되지 않는 경우 등
대규모 범용	용도를 제한하지 않는 구술 필기나 음성 대화의 문자화에 사용할 수 있습니다. 범용보다 학습 어휘 수가 크게 증가했습니다. 잘 사용되지 않는 단어나 신사, 사원, 성, 다리, 온천, 동물원, 수족관, 미술관, 박물관, 댐, 터널과 같은 랜드마크·장소·시설의 명칭 등의 어휘가 풍부합니다. "음성 입력" 전용입니다 音声入力_汎用(음성입력 범용)(`-a-general-input`): 다양한 상황에서의 구술 필기, 음성 대화 애플리케이션 등
금융	"범용" 언어 모델에 더해 금융 업계의 용어나 표현 등이 추가되어 있습니다. 会話_金融(대화 금융)(`-a-bizfinance`): 문자 기록이나 대면 영업 시 대화의 문자 기록 등 音声入力_金融(음성입력 금융)(`-a-bizfinance-input`): 일일 보고, 이메일 작성의 음성 입력 등
보험	"범용" 언어 모델에 더해 보험 업계의 용어나 표현 등이 추가되어 있습니다. 会話_保険(대화 보험)(`-a-bizinsurance`): 문자 기록이나 대면 영업 시 대화의 문자 기록 등 音声入力_保険(음성입력 보험)(`-a-bizinsurance-input`): 일일 보고, 이메일 작성의 음성 입력 등
의료 회의	"범용" 언어 모델에 더해 다양한 진료 과목, 의료 관련 용어, 의료 업계 회의에서의 표현 등이 추가되어 있습니다. 많은 병명, 약품명, 병원명, 수술명, 지명 등에 대응하고 있습니다. "대화" 전용입니다 会話_医療(대화 의료)(`-a-medical` ): 의료 업계 회의, 진료 시 환자와 의사의 대화, 의료 관련 동영상의 문자 기록, 대면 영업 대화의 문자 기록, MR의 영업 일지 등
의료 범용	전자 차트의 소견, 진단서, 진료 정보 제공서, 소개장, 개호(介護) 기록, 약사의 복약 지도문 작성, 다양한 의료 문서 작성을 위한 구술 필기에 특화되어 있습니다. "음성 입력" 전용입니다 音声入力_医療(음성입력 의료)(`-a-medical-input`): 다양한 진료과의 의사, 약사 등 전문가의 구술 필기
성명	성명(풀네임, 성씨만, 이름만)의 인식에 특화되어 있습니다. 음성 인식 결과는 모두 가타카나로 출력됩니다. "음성 입력" 전용입니다 音声入力_氏名(`-a-name-input-private`): 자동 음성 응답 시스템 등
주소	주소 인식에 특화되어 있습니다. 전국의 시구군촌명, 번지를 인식합니다. "음성 입력" 전용입니다 音声入力_住所(`-a-address-input-private`): 자동 음성 응답 시스템 등
규칙 문법	규칙 문법(＊3)을 이용하여, 직접 설정한 정형문이나 단어만을 인식시킬 수 있습니다. 「음성 입력」 전용입니다 音声入力_ルール(`-a-rule-input-private`): 제조업이나 점검 유지보수 등의 데이터 입력, 로봇 조작 등

(＊3) 규칙 문법(Rule Grammar)은 업계 표준인 JSGF(JSpeech Grammar Format) 또는 SRGS(Speech Recognition Grammar Specification) 형식을 이용할 수 있습니다. 자세한 내용은 규칙 문법을 참조하십시오.

일본어 언어 모델의 클래스명 목록

일본어 음성 인식 엔진에서 정의된 클래스명 목록입니다. 클래스는 사용자 사전의 단어 등록 시 사용됩니다. 자세한 내용은 사용자 사전을 참조하십시오. API 사용자가 새로운 클래스를 추가할 수 없습니다.

클래스명	범용	대규모 범용	금융	보험	의료 회의	의료 범용	성명	주소	비고
固有名詞	●	●	●	●	●				고유명사
名前	●	●	●	●	●				일본인 이름(성)
名前(名)	●	●	●	●	●				일본인 이름(명)
名前						●			일본인 성명(＊4)
駅名	●	●	●	●	●				역 이름
地名	●	●	●	●					지명
会社名	●	●	●	●	●				회사명
部署名	●	●	●	●	●				부서명
役職名	●	●	●	●	●				직책명
記号	●	●	●	●	●				기호
括弧開き	●	●	●	●	●				괄호 열기
括弧閉じ	●	●	●	●	●				괄호 닫기
元号	●	●	●	●	●	●			일본 달력 연호
病名					●	●			병명
薬品名					●	●			약품명
病院名					●	●			병원명
手術名					●	●			수술명
地名_区町村					●	●			일본지명 구촌락
地名_支庁市郡					●	●			일본지명 지청시군
フィラー(文頭)							●	●	채움말-문두
フィラー(文末)							●	●	채움말-문말

(＊4) 名前 클래스는 医療汎用 엔진에서는 일본인 성명(姓名)에 대응합니다만, 다른 언어 모델에서는 일본인 이름(성)에 대응합니다.
규칙 문법(Rule Grammar)용 엔진에서는 인식시킬 단어를 규칙 문법 내에서 지정하기 때문에 별도의 단어 등록 기능을 제공하지 않습니다.

중국어 언어 모델의 클래스명 목록

중국어 음성 인식 엔진에서 정의된 클래스명 목록입니다.

클래스명	범용	비고
固有名词一般	●	고유명사 일반
姓	●	이름(성)
名	●	이름(명)

한국어 언어 모델의 클래스명 목록

한국어 음성 인식 엔진에서 정의된 클래스명 목록입니다.

클래스명	범용	비고
固有名詞	●	고유명사
地名	●	지명
駅名	●	역 이름
会社名	●	회사명
名前(姓)	●	이름(성)
名前(名)	●	이름(명)

End-to-End 엔진과 하이브리드 엔진의 차이

하이브리드 엔진은 전통적인 통계적 모델을 사용한 음성 인식 엔진입니다. 의료 등 업계 특유의 어휘에 다수 대응해야 하는 경우나 하이브리드 엔진 고유의 기능이 필요한 경우에는 계속해서 사용해 주시기 바랍니다.

End-to-End 엔진은 새로운 세대의 AmiVoice 음성 인식 엔진입니다. 범용적인 용도에서 음성인식 정확도가 높은 경우가 많기 때문에, 처음으로 AmiVoice API를 사용하시는 경우에는 우선적으로 End-to-End 엔진을 시도해 보시기 바랍니다. 이미 AmiVoice API를 사용하고 계신 경우에는, 하이브리드 엔진에서 End-to-End 엔진으로의 변경에 따라 애플리케이션 상의 영향이 없는지 확인하신 후에 이행하실 수 있도록 사전 검토하시기 바랍니다.
특히 숫자, 알파벳, 그리고 짧은 발화의 경우, End-to-End 엔진이 하이브리드 엔진보다 더 높은 인식 정확도를 보이는 경향이 있습니다. 따라서 보이스봇(VoiceBot)과 같이 짧은 발화를 주로 인식하는 용도라면 End-to-End 엔진 사용을 권장합니다.

하이브리드 엔진의 특징

음향 모델과 언어 모델을 결합하여 음성 인식을 수행합니다. 다양한 도메인별로 최적화된 언어 모델을 사용한 음성 인식 엔진을 이용할 수 있습니다.
단어 등록 시 클래스를 이용할 수 있습니다.
단어 단위의 인식 결과의 starttime과 endtime에서 단어별 정확한 시간 정보를 얻을 수 있습니다.

End-to-End 엔진의 특징

범용 엔진을 제공하고 있습니다.
단어 등록과 유사한 기능으로, 단어 강조를 사용할 수 있습니다. 자세한 내용은 End to End 엔진의 "단어 강조"를 참조하십시오.
단어 강조에서는 클래스를 사용할 수 없습니다.
단어 단위의 인식 결과에서는 단어별 발음 정보를 얻을 수 없습니다.
단어 단위의 인식 결과의 starttime과 endtime으로 얻을 수 있는 시간 정보는 하이브리드 방식에 비해 정확하지 않습니다.
하이브리드 엔진에서는 발생하지 않는 오류 패턴으로, 일부 결과가 반복되는 경우가 있습니다. 특히 음질이 현저히 나쁜 음성이나 너무 긴 음성(20초 이상)에서 발생하기 쉬운 경향이 있습니다.
채움말 자동 삭제의 억제는 지원되지 않습니다. 채움말(Filler words)은 모두 자동으로 삭제됩니다.

노트

2025-03-25 현재, 중국어 End-to-End 엔진에서는 채움말(Filler words)의 자동 삭제 기능을 지원하지 않습니다.

비용

엔진에 따라 비용이 다릅니다. 자세한 내용은 AmiVoice API의 가격을 참조하십시오.

인식 정확도에 대해

음성 인식 엔진의 어휘에 없는 단어는 출력되지 않습니다. 어휘에 없는 단어가 발화되면 발음이 비슷한 단어나, 발음이 비슷한 짧은 단어의 조합, 또는 단순히 잘못된 단어로 인식됩니다. 계산 리소스나 계산 시간의 제약으로 인해 음성 인식 엔진마다 어휘가 정해져 있습니다. "会話_汎用"이나 "音声入力_汎用" 등의 범용 엔진은 다양한 상황에서 활용할 수 있도록 많은 어휘가 등록되어 있지만, 특정 업계나 용도에 특화된 단어는 포함되어 있지 않습니다.

의료, 금융, 보험 등의 업계별로 자주 사용되는 전문 용어는 특정 업계에 특화된 엔진을 사용함으로써 해당 업계에서 자주 사용되는 단어에 대해 높은 인식률을 실현할 수 있습니다. 또한 특정 조직 등에서 자주 사용되는 단어에 대해서는 단어 등록을 통해 대응할 수 있습니다.

팁

범용 엔진과 영역 특화 엔진에서 어느 정도의 인식률 차이가 나는지 AmiVoice Tech Blog에서 비교하여 보고하고 있습니다. AmiVoice의 영역 특화 엔진의 음성 인식 정확도를 비교해 보았습니다(범용 vs 전자 차트)(일본어 블로그)와 【동일한 발화로 비교 검증】음성 입력 엔진과 대화 엔진의 인식 결과의 차이는?(일본어 블로그)을 참조하십시오.

음성 인식 엔진 목록​

End-to-End 엔진​

하이브리드 엔진​

음성 인식 엔진의 요소​

End-to-End 엔진/하이브리드 엔진​

지원 샘플링 레이트​

연결 엔진 이름​

하이브리드 엔진​

용도​

특징 및 주의점​

Use case​

언어 모델​

일본어 언어 모델의 클래스명 목록​

중국어 언어 모델의 클래스명 목록​

한국어 언어 모델의 클래스명 목록​

End-to-End 엔진과 하이브리드 엔진의 차이​

하이브리드 엔진의 특징​

End-to-End 엔진의 특징​

비용​

인식 정확도에 대해​

음성 인식 엔진 목록

End-to-End 엔진

하이브리드 엔진

음성 인식 엔진의 요소

End-to-End 엔진/하이브리드 엔진

지원 샘플링 레이트

연결 엔진 이름

하이브리드 엔진

용도

특징 및 주의점

Use case

언어 모델

일본어 언어 모델의 클래스명 목록

중국어 언어 모델의 클래스명 목록

한국어 언어 모델의 클래스명 목록

End-to-End 엔진과 하이브리드 엔진의 차이

하이브리드 엔진의 특징

End-to-End 엔진의 특징

비용

인식 정확도에 대해