语音检测

语音段指的是音频数据中人在说话的部分。音频数据包含人声以及其他部分，例如，静音或背景噪音等。在进行语音识别之前，会先检测语音段，并只针对语音段进行处理。这是为了忽略不必要的音频段，从而减少计算量，并防止错误地将非语音部分识别为语音。AmiVoice API 使用深度学习模型来区分人声和其他声音，相比仅使用音量的语音检测方法，能够以更高的精度检测语音。

下图显示了客户端向 AmiVoice API 发送音频数据时的流程。首先进行语音检测，然后进行语音识别处理。图中紫色带表示语音段。检测到 3 个语音段，并对每个语音段进行语音识别处理。

图. 语音识别流程

异步 HTTP 接口和 WebSocket 接口可以获取每个语音段的时间信息、语音识别结果和置信度。详情请参阅语音段结果。此外，WebSocket 接口可以实时接收语音开始和结束的时间。详情请参阅获取状态事件。

备注

同步 HTTP 接口无法获取语音段结果。

调整语音检测参数

目前，AmiVoice API 不允许调整语音检测参数。对于口述记录或会议文字转录等应用，在大多数情况下无需更改。对于呼叫中心 IVR 或与机器人对话等应用，可能需要更改特定参数，如灵敏度或语音结束检测时间。在这种情况下，请考虑使用 AmiVoice API Private。

调整语音检测参数​

调整语音检测参数