跳至主要内容

开发指南

通过 HTTP 或 WebSocket 连接到语音识别服务器的 endpoint,并与请求参数一起发送语音数据,即可获得语音识别结果。 本文将按顺序向开发者说明如何使用 AmiVoice API 创建应用程序。

基本功能

通常,使用 AmiVoice API 进行语音识别的客户端应用程序需要实现以下功能:

  1. 从录音设备或网络获取语音数据
  2. 将语音数据转换为支持的格式(如果是支持的音频格式则无需转换)
  3. 将语音数据发送到语音识别 API 的 endpoint
  4. 接收语音识别结果
  5. 解释并使用语音识别结果(例如,作为字幕显示在屏幕上,理解意图并生成语音机器人的响应,作为会议记录等摘要处理的输入等)

以下是客户端程序和语音识别服务器之间交互的概述:

图. AmiVoice API 概述

接口类型和使用方法

AmiVoice API 提供了三种语音识别接口。我们将解释所需的特性和预期的用例,以帮助用户进行选择。

请求方法

为了获得语音识别结果,需要在向服务器发送请求时进行各种设置并发送语音文件。

请求的发送方法因 HTTP 和 WebSocket 而异,我们将依次说明每个接口。

关于发送的数据和语音识别结果在服务器上的日志处理,请参阅日志保留

响应

从语音识别服务器获得的是对发送的语音进行转写的文本。除了文本之外,关于可以获得的各种信息,请参阅语音识别结果以了解详细信息。 关于错误处理,请参阅响应代码和消息

扩展功能等

本节介绍如何更好地利用 AmiVoice API 开发应用程序的信息,以及客户端库、示例程序和限制。

图. AmiVoice API 概述

扩展功能

用于改善语音识别精度的功能。

我们还提供说话人区分和情感分析等附加功能。请根据目的使用。

我们还提供了创建安全认证密钥和支持构建服务运营的功能。

客户端库

介绍从各种语言轻松使用 AmiVoice API 的客户端库。

示例程序

介绍使用 AmiVoice API 的各种编程语言的示例程序。

限制

说明使用 AmiVoice API 时应该了解的限制。