요청 파라미터
AmiVoice API로 음성 인식을 요청할 때 설정하는 파라미터에 대해 설명합니다. HTTP, WebSocket 인터페이스에서 각각 전송 방법이 다르지만, 설정할 수 있는 파라미터는 동일합니다.
파라미터 목록
authorization(인증 정보)와 grammarFileNames(연결 엔진 이름)는 필수입니다. 그 외의 파라미터는 선택사항입니다. 인터페이스마다 지원되지 않는 것도 있으므로 아래 표를 참조하십시오.
| 파라미터 이름 | 설명 | 필수 | 동기식 HTTP | WebSocket | 비동기 HTTP |
|---|---|---|---|---|---|
| authorization | 인증 정보 | ● | ● | ● | ● |
| grammarFileNames | 연결 엔진 이름 | ● | ● | ● | ● |
| profileId | 프로파일 ID | ● | ● | ● | |
| profileWords | 단어 등록 목록 | ● | ● | ● | |
| keepFillerToken | 채움말(Filler words) 자동 삭제의 억제 | ● | ● | ● | |
| segmenterProperties | 발화 구간 검출・화자 다이어라이제이션 파라미터 | ● | ● | ● (*1) | |
| extension | 사용량 집계 태그 | ● | ● | ● | |
| maxDecodingTime | 최대 인식 처리 시간 | ● | ● | ● | |
| maxResponseTime | 최대 응답 시간 | ● | ● | ● | |
| maxDecodingRate | 최대 RT | ● | ● | ● | |
| targetResponseTime | 목표 응답 시간 | ● | ● | ● | |
| targetDecodingRate | 목표 RT | ● | ● | ● | |
| recognitionTimeout | 인식 완료 타임아웃 | ● | ● | ● | |
| resultUpdatedInterval | 인식 중 이벤트 간격 | ● | |||
| noInputTimeout | 발화 시작 대기 타임아웃 | ● | |||
| loggingOptOut | 로그 저장 여부 변경 | ● | |||
| contentId | 사용자 정의 ID | ● | |||
| compatibleWithSync | 결과 포맷의 호환성 | ● | |||
| speakerDiarization | 화자 다이어라이제이션 활성화 옵션 | ● | |||
| diarizationMinSpeaker | 화자 다이어라이제이션의 최소 추정 화자 수 | ● | |||
| diarizationMaxSpeaker | 화자 다이어라이제이션의 최대 추정 화자 수 | ● | |||
| sentimentAnalysis | 감정 분석 활성화 옵션 | ● |
(*1) 비동기 HTTP 인터페이스에서는 화자 다이어라이제이션 관련 파라미터를 사용할 수 없습니다.
이러한 요청 파라미터의 전송 방법에 대해서는 다음 섹션을 참조하십시오.
파라미터 상세
다음은 파라미터의 상세 설명입니다.
필수 파라미터
authorization
인증 정보
API를 사용하려면 반드시 인증 정보를 설정해야 합니다. 인증 정보는 마이페이지에 기재된 [APPKEY] 또는 원타임 APPKEY 발행 API로 취득한 원타임 APPKEY입니다.
브라우저 애플리케이션에서 음성 인식 서버에 연결할 경우, HTML 파일에 APPKEY를 작성하는 것을 피하기 위해 원타임 APPKEY를 사용하도록 하십시오. 자세한 내용은 원타임 APPKEY를 참조하십시오.
grammarFileNames
연결 엔진 이름
해당 세션에서 사용하고자 하는 음성 인식 엔진을 지정합니다. 1회 세션에 1개를 지정합니다. 설정할 수 있는 값은 연결 엔진 이름 목록표나 마이페이지를 참조하십시오. 자세한 내용은 음성 인식 엔진을 참조하십시오.
선택 파라미터
profileId
프로파일 ID
프로파일은 음성 인식 서버 상에 존재하는 사용자별 데이터 파일로, 사용자가 이름을 지정하여 등록한 단어를 저장할 수 있습니다. 프로파일 ID는 해당 데이터 파일을 지정하기 위한 식별자입니다. 자세한 내용은 사용자 사전을 참조하십시오.
profileWords
사용자 사전 단어 목록
세션에서 유효한 사용자 사전의 단어를 등록할 수 있습니다. 하이브리드 엔진의 단어 등록의 경우, 하나의 단어는 "표기<반각 공백>읽기" 형식으로 등록합니다. 클래스명을 지정하는 경우 "표기<반각 공백>읽기 <반각 공백>클래스명"으로 지정하십시오. End to End 엔진의 단어 강조의 경우、"표기<반각 공백>대체 표기<반각 골백>단어 강조도』의 형식으로 지정합니다. 대체 표기와 단어 강조도는 생략 가능합니다만, 대체 표기만을 생략하는 경우는, "표기<반각 공백><반각 공백>단어 강조도"로 지정합니다. 단어 등록 및 단어 강조에서 여러 개의 단어를 등록하는 경우, 단어와 단어 사이를 "|"(세로줄)로 구분합니다. 값의 포맷은 다음과 같습니다 (단어 등록 시, 클래스명을 지정하지 않은 경우의 예입니다).
표기1 읽기1|표기2 읽기2|표기3 읽기3|표기4 읽기4
자세한 내용은 사용자 사전을 참조하십시오.
keepFillerToken
채움말(Filler words) 자동 삭제의 억제
1 또는 0을 지정합니다. 기본값은 0입니다. 음성 인식 결과에 포함된 채움말(예를 들어, 「あー」 또는 「えー」 등)을 자동으로 제거하고 싶지 않을 때 1을 지정합니다. 채움말의 자동 삭제도 참조하십시오.
채움말(Filler words)은 단어의 앞뒤를 반각 "%"로 둘러싸여 있습니다. 다음은 채움말의 예입니다.
%あー%
%えー%
%おー%
%えっと%
AmiVoice Tech Blog의 AmiVoice API로 채움말(Filler words)을 표시할지 제거할지 선택하는 방법 (일본어 블로그)도 참조하십시오.
segmenterProperties
발화 구간 검출 파라미터
발화를 얼마나 쉽게 검출할 수 있을지 등을 조정하는 파라미터입니다. 먼저 기본값으로 테스트한 후, 필요에 따라 조정하시기 바랍니다. 설정 가능한 파라미터는 다음과 같습니다.
기본값은 동기식 HTTP 인터페이스 및 WebSocket 인터페이스가 공통이며, 비동기 HTTP 인터페이스는 일부 다른 값이 설정되어 있습니다. 후자는 ()안에 기재되어 있습니다.
기본값은 예고 없이 변경될 수 있습니다.
threshold- 발화 여부를 판단하기 위한 점수의 임계값입니다. 점수가 설정값 이상인 경우, 발화로 간주됩니다. 설정값을 작게 할수록 발화가 더 잘 검출되어, 발화가 끊기거나 끝부분이 잘리는 현상이 줄어듭니다. 하지만 잘못 검출될 가능성도 높아집니다. 노이즈가 많은 환경에서 이러한 오검출이 두드러지는 경우에는 이 값을 크게 설정합니다.
- 기본값은 5000(8000)입니다.
preTime- 발화로 간주된 시간이 일정 시간 지속되면 발화 구간 검출 상태로 전환되는데, 이 "