同步 HTTP 接口
同步 HTTP 接口是一个可以轻松将短音频文件转换为文本的 Web API。
endpoint
用于请求语音识别的 endpoint。根据是否保存日志,endpoint 不同。详情请参考日志保存。
POST https://acp-api.amivoice.com/v1/recognize (保存日志)
POST https://acp-api.amivoice.com/v1/nolog/recognize (不保存日志)
请求
请求参数列表
参数名 | 必须 | 说明 |
---|---|---|
u | ● | 指定在 My Page 上显示的 APPKEY,或者一次性 APPKEY。 |
d | ● | 设置与语音识别请求相关的各种参数。请参考 d 参数。 |
a | ● | 设置二进制音频数据。此数据必须作为 HTTP multipart 的最后一个部分。关于可发送的音频数据,请参考使用指南中的音频格式。 |
c | 发送 RAW 数据(PCM)时的格式名称。可设置的值请参考音频格式。 |
备注
- 除音频数据外,可以通过查询参数或 multipart 发送。由于在查询参数中设置 d 参数可能会超出请求行的上限,因此建议通过 multipart 发送。
- 如果在查询参数和 multipart 中都指定了相同的参数,则优先使用查询参数中设置的值。
d 参数
在 d
参数中,以半角空格分隔指定 key-value 格式的参数。d
参数的格式如下:
例:
<key>=<value> <key>=<value> <key>=<value> ...
包含空格的<value>请进行 URL 编码。以下示例指定了 grammarFileNames
和 profileWords
两个参数。在 profileWords
中设置了一个显示为 "www",读音为 "とりぷるだぶる" 的单词。
grammarFileNames=-a-general profileWords=www%20%E3%81%A8%E3%82%8A%E3%81%B7%E3%82%8B%E3%81%A0%E3%81%B6%E3%82%8B
可以在 d
参数中指定以下内容。连接引擎名称(grammarFileNames
)是必需的。
参数名 | value | 说明 |
---|---|---|
grammarFileNames | {连接引擎名称} | 指定连接引擎名称。可用的连接引擎名称列表显示在 My Page 上。另请参考语音识别引擎列表。 |
profileId | 字符串 | 用于指定注册词的 ID。详情请参考单词注册。 |
profileWords | 字符串 | 仅在会话期间有效的注册词列表。指定格式为 {显示} {读音} 或 {显示} {读音} {类名} 。指定多个单词时用 | 连接。详情请参考单词注册。 |
keepFillerToken | 0|1 | 指定是否输出填充词。设为 1 时不会删除填充词。默认为 0,自动从识别结果中删除填充词。请参考指定填充词输出。 |
警告
- profileId 可以使用由半角英数字和 "-"(半角减号)、"_"(半角下划线)组成的字符串。但是,以 "__"(两个半角下划线)开头的字符串被语音识别引擎保留,因此请不要指定以 "__"(两个半角下划线)开头的字符串。
- 同时指定
profileId
和profileWords
时,需要先指定 profileId。
响应
响应结构
<result> 中包含以下 JSON:
说明 | |||
---|---|---|---|
results | "发言区间识别结果"的数组 ※虽然是数组形式,但元素数量始终为 1 个。 | ||
confidence | 置信度(0 到 1 的 value。 0: 置信度低, 1: 置信度高) | ||
starttime | 发话开始时间(音频数据开头为 0) | ||
endtime | 发话结束时间(音频数据开头为 0) | ||
tags | 未使用(空数组) | ||
rulename | 未使用(空字符串) | ||
text | 识别结果文本 | ||
tokens | 识别结果文本的形态素数组 | ||
written | 形态素(单词)的显示 | ||
confidence | 形态素的置信度(识别结果的似然度) | ||
starttime | 形态素的开始时间(音频数据开头为 0) | ||
endtime | 形态素的结束时间(音频数据开头为 0) | ||
spoken | 形态素的读音 *3 | ||
utteranceid | 识别结果信息 ID *1 | ||
text | 连接所有" |