음성 인식 엔진
AmiVoice API는 다양한 언어와 용도에 맞춰 여러 음성 인식 엔진을 제공합니다. 인식하려는 음성에 가장 적합한 음성 인식 엔진을 선택하면 정확도를 개선할 수 있습니다. 여기서는 음성 인식 엔진이 지원하는 언어, 엔진 유형 및 사용 방법에 대해 설명합니다.
음성 인식 엔진 목록
AmiVoice API는 다양한 음성 인식 엔진을 제공합니다. End-to-End 엔진과 하이브리드 엔진의 차이도 참조하십시오.
End-to-End 엔진
새로운 세대의 음성 인식 엔진입니다.
| 언어 | 엔진 이름 | 지원 샘플링 레이트 | 연결 엔진 이름 |
|---|---|---|---|
| 일본어 | 일본어E2E_범용 | 8k / 16k | -a2-ja-general |
| 중국어 | 중국어E2E_범용 | 8k / 16k | -a2-zh-general |
| 다국어 | 다국어E2E_범용 | 8k / 16k | -a2-multi-general |
| 일본어 | 일본어E2E_범용 배치 | 8k / 16k | -a2b-ja-general |
| 중국어 | 중국어E2E_범용 배치 | 8k / 16k | -a2b-zh-general |
| 다국어 | 다국어E2E_범용 배치 | 8k / 16k | -a2b-multi-general |
- 다국어 엔진은 여러 언어가 섞인 음성도 각 언어로 문자를 변환할 수 있는 엔진입니다. 지원하는 언어는 일본어, 영어, 중국어입니다.
- 배치 엔진은 빠흔 응답 속도를 요구하지 않는 배치 처리에 최적화된 엔진입니다. 정확도를 더 중시하고 싶은 경우에 사용하십시오. 특히 비동기 HTTP 인터페이스에는 배치용 엔진을 지정해 주십시오.
하이브리드 엔진
다양한 도메인에 최적화된 음성 인식 엔진입니다.
| 언어 | 엔진 이름 | 언어 모델 | 지원 샘플링 레이트 | 연결 엔진 이름 |
|---|---|---|---|---|
| 일본어 | 会話_汎用 | 대화 범용 | 8k / 16k | -a-general |
| 일본어 | 会話_医療 | 대화 의료 회의 | 16k | -a-medical |
| 일본어 | 会話_金融 | 대화 금융 | 16k | -a-bizfinance |
| 일본어 | 会話_保険 | 대화 보험 | 16k | -a-bizinsurance |
| 일본어 | 音声入力_汎用 | 음성입력 대규모 범용 | 16k | -a-general-input |
| 일본어 | 音声入力_医療 | 음성입력 의료 범용 | 16k | -a-medical-input |
| 일본어 | 音声入力_保険 | 음성입력 보험 | 16k | -a-bizinsurance-input |
| 일본어 | 音声入力_金融 | 음성입력 금융 | 16k | -a-bizfinance-input |
| 영어 | 英語_汎用 | 영어 범용 | 8k / 16k | -a-general-en |
| 중국어 | 中国語_汎用 | 중국어 범용 | 8k / 16k | -a-general-zh |
| 한국어 | 韓国語_汎用 | 한국어 범용 | 8k / 16k | -a-general-ko |
| 일본어 | 音声入力_氏名 | 음성입력 성명 | 8k / 16k | -a-name-input-private(*1) |
| 일본어 | 音声入力_住所 | 음성입력 주소 | 8k / 16k | -a-address-input-private(*1) |
| 일본어 | 音声入力_ルール | 없음 | 16k | -a-rule-input-private( *1) (*2) |
- (*1) AmiVoice API Private에서 사용 가능한 엔진입니다.
- (*2) "音声入力_ルール(음성입력 규칙)" 엔진은 비동기 HTTP 인터페이스에서는 사용할 수 없습니다.
음성 인식 엔진의 요소
음성 인식 엔진을 선택할 때 구성 요소와 특성을 이해함으로써 적절한 엔진 선택과 API 사용에 도움이 됩니다.
End-to-End 엔진/하이브리드 엔진
End-to-End 엔진/하이브리드 엔진의 공통 요소에 대해 설명합니다.
지원 샘플링 레이트
모든 음성 인식 엔진은 16kHz를 지원합니다. 일부 엔진은 전화 등에서 자주 사용되는 8kHz 샘플링 레이트의 음성을 지원합니다. 샘플링 레이트에 대해서는 음성 형식의 샘플링 레이트를 참조하십시오.
- 음성을 직접 녹음하는 경우에는 샘플링 레이트 16kHz로 녹음하고, 16kHz 엔진을 사용하십시오.
- 전화 음성의 경우 8kHz 엔진을 사용하십시오.
연결 엔진 이름
요청 매개변수의 연결 엔진 이름 (grammarFileNames)에는 표의 "연결 엔진 이름" 열의 문자열을 지정합니다. AmiVoice API Private에서 공개하고 있는 엔진 이름에 대해서는 마이 페이지를 참조하십시오.
하이브리드 엔진
하이브리드 일본어 음성 인식 엔진은 용도(음향 모델)와 언어 모델의 조합으로 여러 엔진을 제공합니다. 다음은 하이브리드 엔진에 대한 설명입니다.
용도
사람과 사람이 자연스럽게 대화할 때의 음성을 텍스트로 변환하는 데 최적화된 "会話(대화)" 엔진, 사람이 기계에게 발화할 때 최적화된 "音声入力(음성입력)" 엔진이 있습니다. 각각 다른 데이터셋을 기반으로 학습된 음향 모델을 사용합니다. 단, 용도는 음향 모델의 차이뿐만 아니라 각 용도에 적합하게 최적화되어 있습니다.
특징 및 주의점
"会話(대화)" 엔진은 "えーっと"이나 "あのー"와 같은 불필요한 단어를 제거하기 쉽게 되어 있습니다. 기본 설정에서는 이러한 불필요한 단어가 인식된 후 자동으로 제거됩니다. 또한 불필요한 단어를 일부러 표시하도록 설정할 수도 있습니다. 필러 단어의 출력 지정을 참조하십시오. "音声入力(음성입력)" 엔진을 사용하는 경우, 불필요한 단어로 판단되지 않아, 제거되지 않거나 다른 단어로 오인식되는 경우가 많아집니다.
Use case
- 회의나 전화 등의 음성을 텍스트로 변환할 경우에는 "会話(대화)" 엔진을 사용하십시오.
- 전자 차트, 보고서, 이메일, 쇼트 메시지 등을 구술 필기하는 경우나 로봇이나 음성 챗봇 등 기계와의 대화의 경우에는 "音声入力(음성입력)" 엔진을 사용하십시오.
- Use case를 특정할 수 없는 경우에는 "会話(대화)" 엔진을 사용하십시오.
언어 모델
의료, 제약, 금융, 보험 등의 "도메인"별로 자주 사용되는 어휘나 표현이 있습니다. 이러한 도메인별로 최적화된 "영역 특화" 언어 모델을 제공하고 있습니다.
일본어 언어 모델의 목록입니다. 용도별로 엔진으로 제공하고 있으므로, 각각의 사용 사례도 함께 설명합니다.
언어 모델 | 언어 모델의 설명과 용도별 엔진 |
|---|---|
| 범용 | 용도를 제한하지 않는 발화 내용의 문자화에 사용할 수 있습니다. "대화" 전용입니다 会話_汎用(대화 범용)( -a-general): 회의·동영상의 문자 기록, 입력이 제한되지 않는 경우 등 |
| 대규모 범용 | 용도를 제한하지 않는 구술 필기나 음성 대화의 문자화에 사용할 수 있습니다. 범용보다 학습 어휘 수가 크게 증가했습니다. 잘 사용되지 않는 단어나 신사, 사원, 성, 다리, 온천, 동물원, 수족관, 미술관, 박물관, 댐, 터널과 같은 랜드마크·장소·시설의 명칭 등의 어휘가 풍부합니다. "음성 입력" 전용입니다 音声入力_汎用(음성입력 범용)( -a-general-input): 다양한 상황에서의 구술 필기, 음성 대화 애플리케이션 등 |
| 금융 | "범용" 언어 모델에 더해 금융 업계의 용어나 표현 등이 추가되어 있습니다. 会話_金融(대화 금융)( -a-bizfinance): 문자 기록이나 대면 영업 시 대화의 문자 기록 등音声入力_金融(음성입력 금융)( -a-bizfinance-input): 일일 보고, 이메일 작성의 음성 입력 등 |
| 보험 | "범용" 언어 모델에 더해 보험 업계의 용어나 표현 등이 추가되어 있습니다. 会話_保険(대화 보험)( -a-bizinsurance): 문자 기록이나 대면 영업 시 대화의 문자 기록 등音声入力_保険(음성입력 보험)( -a-bizinsurance-input): 일일 보고, 이메일 작성의 음성 입력 등 |
| 의료 회의 | "범용" 언어 모델에 더해 다양한 진료 과목, 의료 관련 용어, 의료 업계 회의에서의 표현 등이 추가되어 있습니다. 많은 병명, 약품명, 병원명, 수술명, 지명 등에 대응하고 있습니다. "대화" 전용입니다 会話_医療(대화 의료)( -a-medical ): 의료 업계 회의, 진료 시 환자와 의사의 대화, 의료 관련 동영상의 문자 기록, 대면 영업 대화의 문자 기록, MR의 영업 일지 등 |
| 의료 범용 | 전자 차트의 소견, 진단서, 진료 정보 제공서, 소개장, 개호(介護) 기록, 약사의 복약 지도문 작성, 다양한 의료 문서 작성을 위한 구술 필기에 특화되어 있습니다. "음성 입력" 전용입니다 音声入力_医療(음성입력 의료)( -a-medical-input): 다양한 진료과의 의사, 약사 등 전문가의 구술 필기 |
| 성명 | 성명(풀네임, 성씨만, 이름만) 의 인식에 특화되어 있습니다. 음성 인식 결과는 모두 가타카나로 출력됩니다. "음성 입력" 전용입니다 音声入力_氏名( -a-name-input-private): 자동 음성 응답 시스템 등 |
| 주소 | 주소 인식에 특화되어 있습니다. 전국의 시구군촌명, 번지를 인식합니다. "음성 입력" 전용입니다 音声入力_住所( -a-address-input-private): 자동 음성 응답 시스템 등 |
| 규칙 문법 | 규칙 문법(*3)을 이용하여, 직접 설정한 정형문이나 단어만을 인식시킬 수 있습니다. 「음성 입력」 전용입니다 音声入力_ルール( -a-rule-input-private): 제조업이나 점검 유지보수 등의 데이터 입력, 로봇 조작 등 |
- (*3) 규칙 문법(Rule Grammar)은 업계 표준인 JSGF(JSpeech Grammar Format) 또는 SRGS(Speech Recognition Grammar Specification) 형식을 이용할 수 있습니다.
일본어 언어 모델의 클래스명 목록
일본어 음성 인식 엔진에서 정의된 클래스명 목록입니다. 클래스는 단어 등록 시 사용됩니다. 자세한 내용은 단어 등록을 참조하십시오. API 사용자가 새로운 클래스를 추가할 수 없습니다.
클래스 이름 | 범용 | 대규모 범용 | 금융 | 보험 | 의료 회의 | 의료 범용 | 성명 | 주소 | 비고 |
|---|---|---|---|---|---|---|---|---|---|
| 固有名詞 | ● | ● | ● | ● | ● | 고유명사 | |||
| 名前 | ● | ● | ● | ● | ● | 일본인 이름(성) | |||
| 名前(名) | ● | ● | ● | ● | ● | 일본인 이름(명) | |||
| 名前 | ● | 일본인 성명 (*4) | |||||||
| 駅名 | ● | ● | ● | ● | ● | 역 이름 | |||
| 地名 | ● | ● | ● | ● | 지명 | ||||
| 会社名 | ● | ● | ● | ● | ● | 회사명 | |||
| 部署名 | ● | ● | ● | ● | ● | 부서명 | |||
| 役職名 | ● | ● | ● | ● | ● | 직책명 | |||
| 記号 | ● | ● | ● | ● | ● | 기호 | |||
| 括弧開き | ● | ● | ● | ● | ● | 괄호 열기 | |||
| 括弧閉じ | ● | ● | ● | ● | ● | 괄호 닫기 | |||
| 元号 | ● | ● | ● | ● | ● | ● | 일본 달력 연호 | ||
| 病名 | ● | ● | 병명 | ||||||
| 薬品名 | ● | ● | 약품명 | ||||||
| 病院名 | ● | ● | 병원명 | ||||||
| 手術名 | ● | ● | 수술명 | ||||||
| 地名_区町村 | ● | ● | 지명 구촌락 | ||||||
| 地名_支庁市郡 | ● | ● | 지명 지청시군 | ||||||
| フィラー(文頭) | ● | ● | 필러-문두 | ||||||
| フィラー(文末) | ● | ● | 필러-문말 |
- (*4) 名前 클래스는 医療汎用 엔진에서는 일본인 성명(姓名)에 대응합니다만, 다른 언어 모델에서는 일본인 이름(성)에 대응합니다.
- 규칙 문법(Rule Grammar)용 엔진에서는 인식시킬 단어를 규칙 문법 내에서 지정하기 때문에 별도의 단어 등록 기능을 제공하지 않습니다.
중국어 언어 모델의 클래스 이름 목록
중국어 음성 인식 엔진에서 정의된 클래스 이름 목록입니다.
| 클래스 이름 | 범용 | 비고 |
|---|---|---|
| 固有名词一般 | ● | 고유명사 일반 |
| 姓 | ● | 이름(성) |
| 名 | ● | 이름(명) |
한국어 언어 모델의 클래스 이름 목록
한국어 음성 인식 엔진에서 정의된 클래스 이름 목록입니다.
| 클래스 이름 | 범용 | 비고 |
|---|---|---|