语音检测
语音段指的是音频数据中人在说话的部分。音频数据包含人声以及其他部分,例如,静音或背景噪音等。在进行语音识别之前,会先检测语音段,并只针对语音段进行处理。这是为了忽略不必要的音频段,从而减少计算量,并防止错误地将非语音部分识别为语音。AmiVoice API 使用深度学习模型来区分人声和其他声音,相比仅使用音量的语音检测方法,能够以更高的精度检测语音。
下图显示了客户端向 AmiVoice API 发送音频数据时的流程。首先进行语音检测,然后进行语音识别处理。图中紫色带表示语音段。检测到 3 个语音段,并对每个语音段进行语音识别处理。
异步 HTTP 接口和 WebSocket 接口可以获取每个语音段的时间信息、语音识别结果和置信度。详情请参阅语音段结果。此外,WebSocket 接口可以实时接收语音开始和结束的时间。详情请参阅获取状态事件。
备注
同步 HTTP 接口无法获取语音段结果。
调整语音检测参数
目前,AmiVoice API 不允许调整语音检测参数。对于口述记录或会议文字转录等应用,在大多数情况下无需更改。对于呼叫中心 IVR 或与机器人对话等应用,可能需要更改特定参数,如灵敏度或语音结束检测时间。在这种情况下,请考虑使用 AmiVoice API Private。