语音识别引擎
AmiVoice API提供 多种语音识别引擎,适用于不同的语言和用途。通过为要识别的语音选择最佳的语音识别引擎,可以提高识别精度。本文将说明语音识别引擎支持的语言、引擎类型以及选择使用的要点。
警告
计划于2025年2月1日进行医疗引擎的整合和废除。整合后的说明已在"注意"部分描述。
语音识别引擎列表
以下是AmiVoice API提供的语音识别引擎列表。
语言 | 引擎名称 | 语言模型 | 支持的采样率 | 连接引擎名 |
---|---|---|---|---|
日语 | 会話_汎用 | 通用 | 8k / 16k | -a-general |
日语 | 会話_医療 | 医疗 | 16k | -a-medgeneral -a-medical に変更予定(*2) |
日语 | 会話_製 薬 | 制药 | 16k | -a-bizmrreport |
日语 | 会話_金融 | 金融 | 16k | -a-bizfinance |
日语 | 会話_保険 | 保险 | 16k | -a-bizinsurance |
日语 | 音声入力_汎用 | 大规模通用 | 16k | -a-general-input |
日语 | 音声入力_医療 | 医疗 | 16k | -a-medgeneral-input -a-medical-input に変更予定(*2) |
日语 | 音声入力_製薬 | 制药 | 16k | -a-bizmrreport-input -a-medical-input に統合予定(*2) |
日语 | 音声入力_保険 | 保险 | 16k | -a-bizinsurance-input |
日语 | 音声入力_金融 | 金融 | 16k | -a-bizfinance-input |
日语 | 音声入力_電子カルテ | 电子病历 | 16k | -a-medkarte-input -a-medical-input に統合予定(*2) |
英语 | 英語_汎用 | 通用 | 8k(*3) / 16k | -a-general-en |
中文 | 中国語_汎用 | 通用 | 8k(*3) / 16k | -a-general-zh |
韩语 (*1) | 韓国語_汎用 | 通用 | 8k(*3) / 16k | -a-general-ko |
警告
- (*1) 韩语目前不支持异步API。未来计划支持。
- (*2) 计划于2025年2月1日变更。截至2024年10月30日使用旧引擎名称的用户,在变更后仍可继续使用旧连接引擎名称。这不会影响应用程序的运行,但我们建议您使用新的引擎名称。新引擎将从11月1日起可用。
当前语音识别引擎与新引擎的对应关系如下表所示:
当前 | 变更后 | ||
语音识别引擎名称 | 连接引擎名 | 语音识别引擎名称 | 连接引擎名 |
会話_医療 | -a-medgeneral | 会話_医療 | -a-medical |
会話_製薬 | -a-bizmrreport | ||
音声入力_医療 | -a-medgeneral-input | 音声入力_医療 | -a-medical-input |
音声入力_製薬 | -a-bizmrreport-input | ||
音声入力_電子カルテ | -a-medkarte-input |
- (*3) 英语、中文和韩语的8k引擎目前不支持异步API。未来计划支持。
引擎名称
日语语音识别引擎提供多个引擎,这些引擎是用途(声学模型)和语言模型的组合。
用途
有针对人与人之间自然对话的语音转写优化的"会話"引擎,以及针对人对机器说话的情况优化的"音声入力"引擎。每种引擎使用基于不同数据集训练的声学模型。但是,用途不仅仅是声学模型的区别,还针对各自的用途进行了最优化。
特点和注意事项
"会話"引擎更容易去除"えーっと"、"あのー"等不必要的词语。在标准设置下,这些不必要的词语会被识别出来并自动去除。也可以设置为故意显示不必要的词语。请参考填充词输出指定。使用"音声入力"引擎时,这些词语可能不会被判断为不必要而被去除,或者更容易被误识别为其他词语。
使用场景
- 会议或电话等语音转写时,请使用"会話"引擎。
- 电子病历、报告、邮件、短消息等口述录入,或与机器人、语音聊天机器人等机器对话时,请使用"音声入力"引擎。
- 如果无法确定具体使用场景,请使用"会話"引擎。
语言模型
医疗、制药、金融、保险等不同"领域"有其常用词汇和表达方式。我们为这些领域分别准备了优化的"领域特化"语言模型。
以下是日语语言模型列表。我们为每种用途提供了引擎,并同时说明各自的使用场景。
语言模型 | 语言模型说明和各用途的引擎 |
---|---|
通用 | 可用于不限定用途的语音内容转写。仅用于**"会話"** 会話_汎用( -a-general ): 会议、视频的转写,输入内容不限定的情况等 |
大规模通用 | 可用于不限定用途的口述录入或语音对话的转写。比通用模型具有更大的词汇量。包含许多不常用词以及神社、寺庙、城堡、桥梁、温泉、动物园、水族馆、美术馆、博物馆、水坝、隧道等地标、场所、设施名称的词汇。仅用于**"音声入力"** 音声入力_汎用( -a-general-input ): 各种场景的口述录入、语音对话应用等 |
金融 | 在"通用"语言模型的基础上,添加了金融行业的术语和表达方式。 会話_金融( -a-bizfinance ): 面对面营业时的会话转写等音声入力_金融( -a-bizfinance-input ): 日报、邮件创作的语音输入等 |
保险 | 在"通用"语言模型的基础上,添加了保险行业的 术语和表达方式。 会話_保険( -a-bizinsurance ): 面对面营业时的会话转写等音声入力_保険( -a-bizinsurance-input ): 日报、邮件创作的语音输入等 |
医疗 | 在"通用"语言模型的基础上,添加了各种诊疗科目、医疗相关术语、医疗行业会议中的表达方式等。涵盖了大量疾病名称、药品名称、医院名称、手术名称、地名等。 会話_医療( -a-medgeneral ): 医疗行业会议、医生与患者的诊疗对话、医疗相关视频的转写等音声入力_医療( -a-medgeneral-input ): 护理记录、医疗相关的语音输入等 |
制药 | 在"医疗"语言模型的基础上,添加了大量制药行业的术语和表达方式。涵盖了大量疾病名称、药品名称、医院名称等。 会話_製薬( -a-bizmrreport ): 面对面营业时的会话转写等音声入力_製薬( -a-bizmrreport-input ): 药剂师的用药指导文创作、医药代表的营业日报语音输入等 |
电子病历 | 专门针对电子病历的所见、诊断书、诊疗信息提供书、介绍信等各种医疗文档创作的口述录入进行了优化。仅用于**"音声入力"** 音声入力_電子カルテ( -a-medkarte-input ): 各种诊疗科的电子病历等口述录入 |
警告
计划于2025年2月1日进行医疗引擎的整合和废除。整合后的语言模型列表如下:
- 新增了"医疗会议"和"医疗通用"语言模型
- "制药"语言模型将整合到"医疗会议"语言模型中
语言模型 | 语言模型的说明和各用途的引擎 |
---|---|
通用 | 可用于不限定用途的发话内容文字化。仅用于**"会話"** 会話_汎用( -a-general ): 会议、视频的文字记录,输入不限定的情况等 |
大规模通用 | 可用于不限定用途的口述笔记或语音对话的文字化。词汇量比通用模型更大。包含较少使用的词语以及神社、寺庙、城堡、桥梁、温泉、动物园、水族馆、美术馆、博物馆、水坝、隧道等地标、场所、设施名称的丰富词汇。仅用于**"音声入力"** 音声入力_汎用( -a-general-input ): 各种场景下的口述笔记、语音对话应用等 |
金融 | 在"通用"语言模型的基础上,增加了金融行业的术语和表达方式。 会話_金融( -a-bizfinance ): 文字记录或面对面营销时的对话文字记录等音声入力_金融( -a-bizfinance-input ): 日报、邮件撰写的语音输入等 |