开发指南
通过 HTTP 或 WebSocket 连接到语音识别服务器的 endpoint,并与请求参数一起发送语音数据,即可获得语音识别结果。 本文将按顺序向开发者说明如何使用 AmiVoice API 创建应用程序。
基本功能
通常,使用 AmiVoice API 进行语音识别的客户端应用程序需要实现以下功能:
- 从录音设备或网络获取语音数据
- 将语音数据转换为支持的格式(如果是支持的音频格式则无需转换)
- 将语音数据发送到语音识别 API 的 endpoint
- 接收语音识别结果
- 解释并使用语音识别结果(例如,作为字幕显示在屏幕上,理解意图并生成语音机器人的响应,作为会议记录等摘要处理的输入等)
以下是客户端程序和语音识别服务器之间交互的概述:
接口类型和使用方法
AmiVoice API 提供了三种语音识别接口。我们将解释所需的特性和预期的用例,以帮助用户进行选择。
请求方法
为了获得语音识别结果,需要在向服务器发送请求时进行各种设置并发送语音文件。
请求的发送方法因 HTTP 和 WebSocket 而异,我们将依次说明每个接口。
关于发送的数据和语音识别结果在服务器上的日志处理,请参阅日志保留。
响应
从语音识别服务器获得的是对发送的语音进行转写的文本。除了文本之外,关于可以获得的各种信息,请参阅语音识别结果以了解详细信息。 关于错误处理,请参阅响应代码和消息。
扩展功能等
本节介绍如何更好地利用 AmiVoice API 开发应用程序的信息,以及客户端库、示例程序和限制。
扩展功能
用于改善语音识别精度的功能。
我们还提供说话人区分和情感分析等附加功能。请根据目的使用。
我们还提供了创建安全认证密钥和支持构建服务运营的功能。
客户端库
介绍从各种语言轻松使用 AmiVoice API 的客户端库。
示例程序
介绍使用 AmiVoice API 的各种编程语言的示例程序。
限制
说明使用 AmiVoice API 时应该了解的限制。