跳至主要内容

TIPS

本文介绍使用 AmiVoice API 进行开发时的有用提示。

客户端程序相关

防止意外进行语音识别

由于语音识别结束后忘记断开连接或误操作等原因,有时会意外进行语音识别。建议在客户端程序中实现机制,以防止因此类事故导致包含重要信息的语音数据被意外发送或产生不必要的费用。 例如,可以考虑以下机制:

  • 通过屏幕显示等方式,清晰地向用户告知正在进行语音录音或语音识别。
  • 对于实时语音识别,如果会话时间超过一定时间,则显示对话框并向用户确认。

语音数据相关

建议确认录音质量

如果语音识别结果明显很差,甚至无法保持句子的结构,可能是录音质量不佳。为了避免进行语音识别后得到的识别结果无法使用,建议提醒最终用户确认录音质量。 例如,请检查以下几点:

  • 要识别的语音音量是否足够。大致标准是,对于 16-bit 音频,振幅应该在3000左右。同时也要注意不要音量过大导致音频失真。
  • 语音是否听起来闷闷的,难以辨识。
  • 环境噪音或其他说话者的声音等杂音是否过大,淹没了要识别的语音。

当语音识别请求参数适当且录音质量没有问题时,语音识别结果通常不会明显变差。即使无法事先确认录音质量,也应该实时检查识别结果,如果出现异常的识别结果,请重新检查录音,以确保使用适当质量的录音。 特别注意,在宽敞的会议室进行面对面会议等情况下,即使室内安静,根据录音设备的放置位置和性能,也可能出现上述录音质量不佳的情况。(例如:录音设备离要识别的说话者太远,录音设备附近有打字声或翻动纸张的杂音等)

关于语音数据处理的注意事项

对于要进行语音识别的音频数据,人耳越容易听清(音量、音质、说话方式等),语音识别的准确度通常也越高。然而,对于经过处理的音频,即使人耳听起来更清晰,语音识别的准确度也可能下降。以下列出了有关语音数据处理的注意事项。

噪声消除・回声消除

根据使用的方法,噪声消除和回声消除可能会扭曲语音信号,改变语音识别引擎所学习的声音特征,从而降低语音识别的准确度。虽然在噪音严重时可能有效,但通常不建议使用。

自动增益控制(AGC)

自动增益控制(AGC,自动增益控制)用于保持语音信号电平恒定,对语音识别可能产生负面影响,但对检测语音段的过程可能有积极影响。在完全无法检测到语音导致准确度降低的情况下,使用 AGC 可能会改善准确度。此外,语音段的检测灵敏度等也可以通过请求参数进行调整。

压缩

用于语音识别的音频数据不一定需要使用 FLAC 等无损压缩格式。通常,即使进行压缩,对准确度的影响也很小,但请注意,如果施加强烈的压缩使得人耳也难以听清,可能会影响识别准确度。

提示

AmiVoice Tech Blog 介绍了关于采样率和压缩率对语音识别准确度影响的验证。请参考以下内容:

【实际验证!】采样率和压缩率如何影响语音识别的准确度?