使用指南
通过 HTTP 或 WebSocket 连接到语音识别服务器的 endpoint,并与请求参数一起发送语音数据,即可获得语音识别结果。 本文将按顺序向开发者说明如何使用 AmiVoice API 创建应用程序。
基本功能
通常,使用 AmiVoice API 进行语音识别的客户端应用程序需要实现以下功能:
- 从录音设备或网络获取语音数据
- 将语音数据转换为支持的格式(如果是支持的音频格式则无需转换)
- 将语音数据发送到语音识别 API 的 endpoint
- 接收语音识别结果
- 解释并使用语音识别结果(例如,作为字幕显示在屏幕上,理解意图并生成语音机器人的响应,作为会议记录等摘要处理的输入等)
以下是客户端程序和语音识别服务器之间交互的概述:
A. 接口的选择
AmiVoice API 提供了三种语音识别接口。我们将说明每种接口的必要特征和预期用例,以帮助用户选择适合的接口。
B. 请求方法
为了获得语音识别结果,需要在向服务器发送请求时进行各种设置并发送语音文件。
请求的发送方法因 HTTP 和 WebSocket 而异,我们将依次说明每个接口。
关于发送的数据和语音识别结果在服务器上的日志处理,请参阅日志保留。
C. 结果处理
从语音识别服务器获得的是对发送的语音进行转写的文本。除了文本之外,关于可以获得的各种信息,请参阅语音识别结果以了解详细信息。 关于错误处理,请参阅响应代码和消息。
高级功能等
本节介绍如何更好地利用 AmiVoice API 开发 应用程序的信息,以及客户端库、示例程序和限制。
D. AmiVoice API 的功能
说明 AmiVoice API 的各种功能。
E. 客户端库
介绍从各种语言轻松使用 AmiVoice API 的客户端库。
F. 示例程序
介绍使用 AmiVoice API 的各种编程语言的示例程序。
G. 限制
说明使用 AmiVoice API 时应该了解的限制。