필러 단어의 자동 삭제
「あのー」나 「えーっと」 등의 필러 단어(불필요한 단어)는 자동으로 음성 인식 결과에서 제거됩니다.
예를 들어, 다음과 같이 발화했다고 가정합니다.
えーっと、会議があるので、えー、それまでに、あのー、資料を作成しておきます。
이 음성의 인식 결과는 다음과 같습니다.
会議があるのでそれまでに資料を作成しておきます。
다음과 같은 단어가 필러 단어로 취급됩니다.
언어 | 필러 단어의 예 |
---|---|
일본어 | あー, あのー, えー, おー, えっと |
영어 | ah, urm, hmm |
중국어 | 呃, 啊, 哎呀 |
한국어 | 어, 으, 음 |
- 사용자가 필러 단어를 추가할 수 없습니다.
- 필러 단어는 정확도 향상 과정에서 변경될 수 있으며, 필러 단어 목록은 공개하지 않습니다.
test-with-filler.wav라는 음성 파일에 위의 발화 내용이 포함되어 있는 경우, 다음과 같이 curl 명령어를 실행하면 필러 단어의 자동 삭제를 확인할 수 있습니다. 이 절차의 자세한 내용은 짧은 음성 파일의 받아쓰기를 참조하십시오. WebSocket의 경우는 음성 인식 요청을 참조하십시오.
curl -sS https://acp-api.amivoice.com/v1/recognize \
-F u={APPKEY} \
-F "d=-a-general" \
-F a=@test-with-filler.wav | jq
응답
{
"results": [
{
"tokens": [
{
"written": "会議",
"confidence": 0.99,
"starttime": 656,
"endtime": 1184,
"spoken": "かいぎ"
},
{
"written": "が",
"confidence": 1,
"starttime": 1184,
"endtime": 1312,
"spoken": "が"
},
{
"written": "ある",
"confidence": 1,
"starttime": 1312,
"endtime": 1536,
"spoken": "ある"
},
{
"written": "ので",
"confidence": 1,
"starttime": 1536,
"endtime": 1920,
"spoken": "ので"
},
{
"written": "それ",
"confidence": 1,
"starttime": 2384,
"endtime": 2736,
"spoken": "それ"
},
{
"written": "まで",
"confidence": 1,
"starttime": 2736,
"endtime": 3024,
"spoken": "まで"
},
{
"written": "に",
"confidence": 1,
"starttime": 3024,
"endtime": 3296,
"spoken": "に"
},
{
"written": "資料",
"confidence": 0.97,
"starttime": 3920,
"endtime": 4384,
"spoken": "しりょう"
},
{
"written": "を",
"confidence": 1,
"starttime": 4384,
"endtime": 4544,
"spoken": "を"
},
{
"written": "作成",
"confidence": 0.98,
"starttime": 4576,
"endtime": 5136,
"spoken": "さくせい"
},
{
"written": "して",
"confidence": 1,
"starttime": 5136,
"endtime": 5392,
"spoken": "して"
},
{
"written": "おき",
"confidence": 0.99,
"starttime": 5392,
"endtime": 5664,
"spoken": "おき"
},
{
"written": "ます",
"confidence": 0.98,
"starttime": 5664,
"endtime": 5952,
"spoken": "ます"
},
{
"written": "。",
"confidence": 0.21,
"starttime": 5952,
"endtime": 5984,
"spoken": "_"
}
],
"confidence": 0.993,
"starttime": 0,
"endtime": 5984,
"tags": [],
"rulename": "",
"text": "会議があるのでそれまでに資料を作成しておきます。"
}
],
"utteranceid": "20240801/08/01910b1c09cc0a303c1094c9_20240801_082432",
"text": "会議があるのでそれまでに資料を作成しておきます。",
"code": "",
"message": ""
}
필러 단어의 자동 삭제 억제
요청 파라미터에서 keepFillerToken=1
을 설정하면 필러 단어의 자동 삭제가 되지 않습니다. 예를 들어, 콜센터 상담원의 말하기 방식에 대해 필러 단어를 너무 많이 사용하고 있는지 확인하고 싶은 경우 등에 이 설정을 사용할 수 있습니다.
위의 음성에 대한 인식 결과의 예:
%えっと%会議があるので%えー%それまでに%あのー%資料を作成しておきます。
필러 단어는 앞뒤를 반각 「%」로 둘러싸고 있습니다. 프로그램에서 이 표기법을 사용하여 적절히 처리하십시오. 다음은 인식 결과의 응답 예입니다.
{
"results": [
{
"tokens": [
{
"written": "%えっと%",
"confidence": 0.95,
"starttime": 0,
"endtime": 592,
"spoken": "えっと"
},
/* 생략 */
],
"text": "%えっと%会議があるので%えー%それまでに%あのー%資料を作成しておきます。",
/* 생략 */
}
],
"text": "%えっと%会議があるので%えー%それまでに%あのー%資料を作成しておきます。",
/* 생략 */
}
「ぱーせんと」라고 발화한 경우는 「%」가 1개의 단어가 됩니다. results[0].tokens[].written
이 「%」라는 1문자가 되어 필러 단어의 「%」와 구별할 수 있습니다.
{
"results": [
{
"tokens": [
{
"written": "%",
"confidence": 1,
"starttime": 0,
"endtime": 800,
"spoken": "ぱーせんと"
}
/* 생략 */
}
}
앞서 언급한 test-with-filler.wav라는 음성 파일에 대해 keepFillerToken=1
을 설정합니다. 다음과 같이 curl 명령어를 실행하면 필러 단어를 포함한 결과를 얻을 수 있습니다. 이 절차의 자세한 내용은 짧은 음성 파일의 받아쓰기를 참조하십시오. WebSocket의 경우는 음성 인식 요청을 참조하십시오.
curl 명령어로 실행했을 때의 예
curl -sS https://acp-api.amivoice.com/v1/recognize \
-F u={APPKEY} \
-F "d=-a-general keepFillerToken=1" \
-F a=@test-with-filler.wav | jq
응답
{
"results": [
{
"tokens": [
{
"written": "%えっと%",
"confidence": 0.95,
"starttime": 0,
"endtime": 592,
"spoken": "えっと"
},
{
"written": "会議",
"confidence": 0.99,
"starttime": 656,
"endtime": 1184,
"spoken": "かいぎ"
},
{
"written": "が",
"confidence": 1,
"starttime": 1184,
"endtime": 1312,
"spoken": "が"
},
{
"written": "ある",
"confidence": 1,
"starttime": 1312,
"endtime": 1536,
"spoken": "ある"
},
{
"written": "ので",
"confidence": 1,
"starttime": 1536,
"endtime": 1920,
"spoken": "ので"
},
{
"written": "%えー%",
"confidence": 0.99,
"starttime": 1968,
"endtime": 2224,
"spoken": "えー"
},
{
"written": "それ",
"confidence": 1,
"starttime": 2224,
"endtime": 2528,
"spoken": "それ"
},
{
"written": "まで",
"confidence": 1,
"starttime": 2528,
"endtime": 2800,
"spoken": "まで"
},
{
"written": "に",
"confidence": 1,
"starttime": 2800,
"endtime": 3088,
"spoken": "に"
},
{
"written": "%あのー%",
"confidence": 1,
"starttime": 3120,
"endtime": 3600,
"spoken": "あのー"
},
{
"written": "資料",
"confidence": 1,
"starttime": 3712,
"endtime": 4176,
"spoken": "しりょう"
},
{
"written": "を",
"confidence": 1,
"starttime": 4176,
"endtime": 4336,
"spoken": "を"
},
{
"written": "作成",
"confidence": 1,
"starttime": 4368,
"endtime": 4928,
"spoken": "さくせい"
},
{
"written": "し て",
"confidence": 1,
"starttime": 4928,
"endtime": 5184,
"spoken": "して"
},
{
"written": "おき",
"confidence": 0.99,
"starttime": 5184,
"endtime": 5456,
"spoken": "おき"
},
{
"written": "ます",
"confidence": 0.98,
"starttime": 5456,
"endtime": 5744,
"spoken": "ます"
},
{
"written": "。",
"confidence": 0.32,
"starttime": 5744,
"endtime": 5776,
"spoken": "_"
}
],
"confidence": 0.993,
"starttime": 0,
"endtime": 5776,
"tags": [],
"rulename": "",
"text": "%えっと%会議があるので%えー%それまでに%あのー%資料を作成しておきます。"
}
],
"utteranceid": "20240801/08/01910b1dde010a301e8894c2_20240801_082632",
"text": "%えっと%会議があるので%えー%それまでに%あのー%資料を作成しておきます。",
"code": "",
"message": ""
}