跳至主要内容

入门

AmiVoice API 是一个将语音转换为文本的语音识别 API。当您发送语音时,它会返回将语音内容转换为文本的结果。您可以创建支持语音的应用程序,如会议记录或语音对话系统。

图. AmiVoice API 概述

文档结构

请参阅"引入和运营指南"部分了解引入前的安全和运营信息,"开发指南"部分了解实施详情,"参考"部分确认 API 规格,如遇困难请参阅"帮助"部分。

快速入门

1

获取 APPKEY

用户注册页面注册,并记下在我的页面的[连接信息]中显示的 APPKEY。使用以下命令将其设置为环境变量。

export APPKEY=your_appkey_here
提示

AmiVoice Tech Blog 提供了从用户注册到使用 AmiVoice API 将音频文件转换为文本的逐步说明,请参考以下链接:

Let's try using the speech recognition API "AmiVoice API"

2

准备音频文件

准备要转录的音频文件。您可以直接使用以下示例音频(test.wav)。

关于支持的音频文件格式,请参阅关于音频格式

3

执行语音识别

请执行以下操作。将 test.wav 替换为您要使用的音频文件的路径。

curl https://acp-api.amivoice.com/v1/recognize \
-F d=-a-general \
-F u=$APPKEY \
-F a=@test.wav | jq
备注
  • 如果未安装 curl 命令,请从 https://curl.se/ 下载适用于您的操作系统的软件包,或使用软件包管理器安装 curl。
  • 结果文本是 Unicode 转义的。上述命令使用 jq 来格式化响应,使其更易读。如果未安装 jq,请尝试删除 | jq 部分执行。您可以从 https://stedolan.github.io/jq/ 下载适用于您的操作系统的软件包,或使用软件包管理器安装 jq 命令。
4

确认结果

成功时会返回如下 JSON。转录结果包含在 text 字段中。

{
"results": [
{
"tokens": [ ... ],
"confidence": 0.998,
"starttime": 250,
"endtime": 8794,
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。"
}
],
"utteranceid": "20220602/14/018122d637320a301bc194c9_20220602_141433",
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。",
"code": "",
"message": ""
}

关于详细的响应内容,请参阅语音识别结果格式

下一步

快速入门使用了同步 HTTP 接口。如果要处理实时音频源,可以使用 WebSocket 接口;如果要处理超过 15MB 的大音频文件,可以使用异步 HTTP 接口。有关各种用例和使用要点,请参阅接口类型和使用方法

我们还提供支持开发的客户端库和示例程序。

为了提高语音识别精度,可以利用以下功能进行自定义:

我们还提供说话人分类和情感分析等附加功能。请根据目的使用。

我们还提供支持构建服务运营的功能。

请同时参阅全面的开发指南