填充词自动删除
像"あのー"和"えーっと"这样的填充词(不必要的词)会自动从语音识别结果中删除。
例如,假设以下面的方式说话:
えーっと、会議があるので、えー、それまでに、あのー、資料を作成しておきます。
这段语音的识别结果如下:
会議があるのでそれまでに資料を作成しておきます。
以下类型的词被视为填充词:
| 语言 | 填充词示例 |
|---|---|
| 日语 | あー, あのー, えー, おー, えっと |
| 英语 | ah, urm, hmm |
| 中文 | 呃, 啊, 哎呀 |
| 韩语 | 어, 으, 음 |
备注
- 除一些特殊引擎外,用户无法添加填充词。
- 填充词可能会在提高准确性的过程中发生变化,我们不公开填充词列表。
- 「音声入力_氏名」引擎和「音声入力_住所」引擎默认没有设置任何填充词。用户可以将不需要的词注册为「フィラー(文頭)」或「フィラー(文末)」类,这些词将被视为填充词。有关详细信息,请参阅单词注册组件中的特殊单词注册。
如果一个名为test-with-filler.wav的音频文件包含上述发言内容,可以通过执行以下curl命令来确认填充词的自动删除。有关此过程的详细信息,请参阅短语音文件的转写。对于WebSocket,请参阅语音识别请求。
curl -sS https://acp-api.amivoice.com/v1/recognize \
-F u={APPKEY} \
-F "d=-a-general" \
-F a=@test-with-filler.wav | jq
响应
{
"results": [
{
"tokens": [
{
"written": "会議",
"confidence": 0.99,
"starttime": 656,
"endtime": 1184,
"spoken": "かいぎ"
},
{
"written": "が",
"confidence": 1,
"starttime": 1184,
"endtime": 1312,
"spoken": "が"
},
{
"written": "ある",
"confidence": 1,
"starttime": 1312,
"endtime": 1536,
"spoken": "ある"
},
{
"written": "ので",
"confidence": 1,
"starttime": 1536,
"endtime": 1920,
"spoken": "ので"
},
{
"written": "