跳至主要内容

语音识别引擎

AmiVoice API提供多种语音识别引擎,适用于不同的语言和用途。通过为要识别的语音选择最佳的语音识别引擎,可以提高识别精度。本文将说明语音识别引擎支持的语言、引擎类型以及选择使用的要点。

警告

计划于2025年2月1日进行医疗引擎的整合和废除。整合后的说明已在"注意"部分描述。

【AmiVoice API】关于医疗行业语音识别引擎整合和废除计划的通知

语音识别引擎列表

以下是AmiVoice API提供的语音识别引擎列表。

语言引擎名称语言模型支持的采样率连接引擎名
日语会話_汎用通用8k / 16k-a-general
日语会話_医療医疗16k-a-medgeneral
-a-medicalに変更予定(*2)
日语会話_製薬制药16k-a-bizmrreport
日语会話_金融金融16k-a-bizfinance
日语会話_保険保险16k-a-bizinsurance
日语音声入力_汎用大规模通用16k-a-general-input
日语音声入力_医療医疗16k-a-medgeneral-input
-a-medical-inputに変更予定(*2)
日语音声入力_製薬制药16k-a-bizmrreport-input
-a-medical-inputに統合予定(*2)
日语音声入力_保険保险16k-a-bizinsurance-input
日语音声入力_金融金融16k-a-bizfinance-input
日语音声入力_電子カルテ电子病历16k-a-medkarte-input
-a-medical-inputに統合予定(*2)
英语英語_汎用通用8k(*3) / 16k-a-general-en
中文中国語_汎用通用8k(*3) / 16k-a-general-zh
韩语 (*1)韓国語_汎用通用8k(*3) / 16k-a-general-ko
警告
  • (*1) 韩语目前不支持异步API。未来计划支持。
  • (*2) 计划于2025年2月1日变更。截至2024年10月30日使用旧引擎名称的用户,在变更后仍可继续使用旧连接引擎名称。这不会影响应用程序的运行,但我们建议您使用新的引擎名称。新引擎将从11月1日起可用。

当前语音识别引擎与新引擎的对应关系如下表所示:

当前变更后
语音识别引擎名称连接引擎名语音识别引擎名称连接引擎名
会話_医療-a-medgeneral会話_医療-a-medical
会話_製薬-a-bizmrreport
音声入力_医療-a-medgeneral-input音声入力_医療-a-medical-input
音声入力_製薬-a-bizmrreport-input
音声入力_電子カルテ-a-medkarte-input
  • (*3) 英语、中文和韩语的8k引擎目前不支持异步API。未来计划支持。

引擎名称

日语语音识别引擎提供多个引擎,这些引擎是用途(声学模型)和语言模型的组合。

用途

有针对人与人之间自然对话的语音转写优化的"会話"引擎,以及针对人对机器说话的情况优化的"音声入力"引擎。每种引擎使用基于不同数据集训练的声学模型。但是,用途不仅仅是声学模型的区别,还针对各自的用途进行了最优化。

特点和注意事项

"会話"引擎更容易去除"えーっと"、"あのー"等不必要的词语。在标准设置下,这些不必要的词语会被识别出来并自动去除。也可以设置为故意显示不必要的词语。请参考填充词输出指定。使用"音声入力"引擎时,这些词语可能不会被判断为不必要而被去除,或者更容易被误识别为其他词语。

使用场景
  • 会议或电话等语音转写时,请使用"会話"引擎。
  • 电子病历、报告、邮件、短消息等口述录入,或与机器人、语音聊天机器人等机器对话时,请使用"音声入力"引擎。
  • 如果无法确定具体使用场景,请使用"会話"引擎。

语言模型

医疗、制药、金融、保险等不同"领域"有其常用词汇和表达方式。我们为这些领域分别准备了优化的"领域特化"语言模型。

以下是日语语言模型列表。我们为每种用途提供了引擎,并同时说明各自的使用场景。

语言模型
语言模型说明和各用途的引擎
通用可用于不限定用途的语音内容转写。仅用于**"会話"**

会話_汎用(-a-general): 会议、视频的转写,输入内容不限定的情况等
大规模通用可用于不限定用途的口述录入或语音对话的转写。比通用模型具有更大的词汇量。包含许多不常用词以及神社、寺庙、城堡、桥梁、温泉、动物园、水族馆、美术馆、博物馆、水坝、隧道等地标、场所、设施名称的词汇。仅用于**"音声入力"**

音声入力_汎用(-a-general-input): 各种场景的口述录入、语音对话应用等
金融在"通用"语言模型的基础上,添加了金融行业的术语和表达方式。

会話_金融(-a-bizfinance): 面对面营业时的会话转写等
音声入力_金融(-a-bizfinance-input): 日报、邮件创作的语音输入等
保险在"通用"语言模型的基础上,添加了保险行业的术语和表达方式。

会話_保険(-a-bizinsurance): 面对面营业时的会话转写等
音声入力_保険(-a-bizinsurance-input): 日报、邮件创作的语音输入等
医疗在"通用"语言模型的基础上,添加了各种诊疗科目、医疗相关术语、医疗行业会议中的表达方式等。涵盖了大量疾病名称、药品名称、医院名称、手术名称、地名等。

会話_医療(-a-medgeneral ): 医疗行业会议、医生与患者的诊疗对话、医疗相关视频的转写等
音声入力_医療(-a-medgeneral-input): 护理记录、医疗相关的语音输入等
制药在"医疗"语言模型的基础上,添加了大量制药行业的术语和表达方式。涵盖了大量疾病名称、药品名称、医院名称等。

会話_製薬(-a-bizmrreport): 面对面营业时的会话转写等
音声入力_製薬(-a-bizmrreport-input): 药剂师的用药指导文创作、医药代表的营业日报语音输入等
电子病历专门针对电子病历的所见、诊断书、诊疗信息提供书、介绍信等各种医疗文档创作的口述录入进行了优化。仅用于**"音声入力"**

音声入力_電子カルテ(-a-medkarte-input): 各种诊疗科的电子病历等口述录入
警告

计划于2025年2月1日进行医疗引擎的整合和废除。整合后的语言模型列表如下:

  • 新增了"医疗会议"和"医疗通用"语言模型
  • "制药"语言模型将整合到"医疗会议"语言模型中
语言模型
语言模型的说明和各用途的引擎
通用可用于不限定用途的发话内容文字化。仅用于**"会話"**

会話_汎用(-a-general): 会议、视频的文字记录,输入不限定的情况等
大规模通用可用于不限定用途的口述笔记或语音对话的文字化。词汇量比通用模型更大。包含较少使用的词语以及神社、寺庙、城堡、桥梁、温泉、动物园、水族馆、美术馆、博物馆、水坝、隧道等地标、场所、设施名称的丰富词汇。仅用于**"音声入力"**

音声入力_汎用(-a-general-input): 各种场景下的口述笔记、语音对话应用等
金融在"通用"语言模型的基础上,增加了金融行业的术语和表达方式。

会話_金融(-a-bizfinance): 文字记录或面对面营销时的对话文字记录等
音声入力_金融(-a-bizfinance-input): 日报、邮件撰写的语音输入等
保险在"通用"语言模型的基础上,增加了保险行业的术语和表达方式。

会話_保険(-a-bizinsurance): 文字记录或面对面营销时的对话文字记录等
音声入力_保険(-a-bizinsurance-input): 日报、邮件撰写的语音输入等
医疗会议在"通用"语言模型的基础上,增加了各种诊疗科目、医疗相关术语、医疗行业会议中的表达方式等。适用于大量疾病名称、药品名称、医院名称、手术名称、地名等。仅用于**"会話"**

会話_医療(-a-medical ): 医疗行业的会议、医生与患者的诊疗对话、医疗相关视频的文字记录、面对面营销的对话文字记录、MR的销售日报等
医疗通用专门用于电子病历的所见、诊断书、诊疗信息提供书、介绍信、护理记录、药剂师的用药指导文的撰写,以及各种医疗文件撰写的口述笔记。仅用于**"音声入力"**

音声入力_医療(-a-medical-input): 各种诊疗科的医生、药剂师等专业人士的口述笔记

日语语言模型的类名列表

以下是日语语音识别引擎中定义的类名列表。类名用于进行单词注册。详情请参阅单词注册。API用户无法添加新的类。

类名通用大规模通用金融保险制药医疗电子病历补充
固有名詞
名前姓を表します
名前(名)名を表します
名前姓名を表します *1
駅名
地名
会社名
部署名
役職名
記号
括弧開き
括弧閉じ
元号
病名
薬品名
病院名
手術名
地名_区町村
地名_支庁市郡
  • (*1) 名字类在电子病历中表示姓名,而在其他语言模型中表示姓。
警告

计划在2025年2月1日进行医疗引擎的合并和重组。合并后的类名列表如下:

  • 新增了"医疗会议"和"医疗通用"语言模型
  • "制药"语言模型将并入"医疗会议"语言模型
类名
通用
大规模通用
金融
保险
医疗会议
医疗通用
补充
固有名詞
名前姓を表します
名前(名)名を表します
名前姓名を表します *1
駅名
地名
会社名
部署名
役職名
記号
括弧開き
括弧閉じ
元号
病名
薬品名
病院名
手術名
地名_区町村
地名_支庁市郡

中文语言模型的类名列表

以下是中文语音识别引擎中定义的类名列表。

类名通用
固有名词一般

韩语语言模型的类名列表

以下是韩语语音识别引擎中定义的类名列表。

类名通用
固有名詞
地名
駅名
会社名
名前(姓)
名前(名)

支持的采样率

所有语音识别引擎都支持16kHz采样率。部分引擎还支持电话等常用的8kHz采样率音频。关于采样率的详细信息,请参阅音频格式的采样率部分。

提示
  • 如果自己录音,请以16kHz采样率录音,并使用16kHz的引擎。
  • 对于电话音频,请使用8kHz的引擎。

连接引擎名

请求参数连接引擎名 (grammarFileNames)中,指定表中"连接引擎名"列的字符串。关于AmiVoice API Private公开的引擎名,请参阅您的个人页面。

费用

不同引擎的费用有所不同。详情请参阅AmiVoice API的价格

关于识别精度

语音识别引擎单词表中没有的单词不会被输出。当说出词汇表中没有的单词时,会被识别为发音相似的单词、发音相似的短单词组合或simply错误的单词。由于计算资源和计算时间的限制,每个语音识别引擎都有固定的词汇表。像"会話_汎用"和"音声入力_汎用"这样的通用引擎注册了大量词汇,以便在各种场景中使用,但不包含特定行业或用途的专门词汇。

对于医疗、金融、保险等行业常用的专业术语,使用特定行业的专门引擎可以实现对该行业常用词汇的高识别率。对于特定组织常用的词汇,可以通过进行单词注册来应对。

提示

关于通用引擎和领域特化引擎的识别率差异,AmiVoice Tech Blog中有比较报告。请参阅比较AmiVoice领域特化引擎的语音识别精度(通用 vs 电子病历)【使用相同发言比较验证】语音输入引擎和对话引擎的识别结果差异