入门
AmiVoice API 是一种将语音转换为文本的语音识别 API。当您向 AmiVoice API 发送语音时,它会返回将语音内容转换为文本的结果。您可以使用它来创建会议转录或语音对话系统等语音应用程序。
快速入门
1
获取 APPKEY
注册用户后,在我的页面的 [连接信息] 中找到您的 APPKEY。使用以下命令将其设置为环境变量。
export AMIVOICE_APPKEY=your_appkey_here
2
准备音频文件
准备要转录的音频文件。您可以直接使用以下示例音频(test.wav)。
有关支持的音频文件格式,请参阅音频格式。
3
执行语音识别
运行以下命令。请将 test.wav 替换为音频文件的路径。
- curl
- Python
curl https://acp-api.amivoice.com/v1/recognize \
-F d=-a-general \
-F u=$AMIVOICE_APPKEY \
-F a=@test.wav | jq
import os
import requests
with open("test.wav", "rb") as f:
response = requests.post(
"https://acp-api.amivoice.com/v1/recognize",
data={"d": "-a-general", "u": os.environ["AMIVOICE_APPKEY"]},
files={"a": f}
)
data = response.json()
print(data["text"]) # JSON 解析器自动将 Unicode 转义序列转换为可读文本
4
查看结果
成功后,将收到如下 JSON。text 字段包含转录结果。
{
"results": [
{
"tokens": [ ... ],
"confidence": 0.998,
"starttime": 250,
"endtime": 8794,
"text": "アドバンスト・メディアは、人と 機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。"
}
],
"utteranceid": "20220602/14/018122d637320a301bc194c9_20220602_141433",
"text": "アドバンスト・メディアは、人と機械との自然なコミュニケーションを実現し、豊かな未来を創造していくことを目指します。",
"code": "",
"message": ""
}
有关响应详细信息,请参阅语音识别结果。
下一步
有关 API 的详细使用方法,请参阅以下指南。
🔗 开发指南
API 开发所需的详细信息,包括接口选择、请求参数和结果格式等。
🔗 导入・运营指南
将 AmiVoice API 部署到生产环境并进行运营所需的必要信息。
高级功能
📄️ 引擎选择
根据使用领域选择专用引擎,例如医疗等。
🔗 流式传输
使用 WebSocket 接口,可以实时转录麦克风等音源。
🔗 批量处理
处理大文件或大量音频时,可使用异步 HTTP 接口进行批量处理。
📄️ 词语注册
注册专业术语和专有名词,以提高识别精度。
🔗 说话人分离
分离包含多个说话人的音频,识别每个说话人的发言时段。
🔗 发话量统计标签
使用发话量统计标签,可以获取语音片段的汇总信息。