요청 파라미터
AmiVoice API로 음성 인식을 요청할 때 설정하는 파라미터에 대해 설명합니다. HTTP, WebSocket 인터페이스에서 각각 전송 방법이 다르지만, 설정할 수 있는 파라미터는 동일합니다.
파라미터 목록
authorization
(인증 정보)와 grammarFileNames
(연결 엔진 이름)는 필수입니다. 그 외의 파라미터는 선택사항입니다. 인터페이스마다 지원되지 않는 것도 있으므로 아래 표를 참조하십시오.
파라미터 이름 | 설명 | 필수 | 동기 HTTP | WebSocket | 비동기 HTTP |
---|---|---|---|---|---|
authorization | 인증 정보 | ● | ● | ● | ● |
grammarFileNames | 연결 엔진 이름 | ● | ● | ● | ● |
profileId | 프로파일 ID | ● | ● | ● | |
profileWords | 단어 등록 목록 | ● | ● | ● | |
keepFillerToken | 필러 단어(불필요한 단어)의 자동 삭제 억제 | ● | ● | ● | |
segmenterProperties | 발화 구간 검출 파라미터 | ● | ● | ||
resultUpdatedInterval | 인식 중 이벤트 간격 | ● | |||
loggingOptOut | 로그 저장 여부 변경 | ● | |||
contentId | 사용자 정의 ID | ● | |||
compatibleWithSync | 결과 포맷의 호환성 | ● | |||
speakerDiarization | 화자 다이어라이제이션 활성화 옵션 | ● | |||
diarizationMinSpeaker | 화자 다이어라이제이션의 최소 추정 화자 수 | ● | |||
diarizationMaxSpeaker | 화자 다이어라이제이션의 최대 추정 화자 수 | ● | |||
sentimentAnalysis | 감정 분석 활성화 옵션 | ● |
이러한 요청 파라미터의 전송 방법에 대해서는 다음 섹션을 참조하십시오.
파라미터 상세
다음은 파라미터의 상세 설명입니다.
필수 파라미터
authorization
인증 정보
API를 사용하려면 반드시 인증 정보를 설정해야 합니다. 인증 정보는 마이페이지에 기재된 [APPKEY] 또는 원타임 APPKEY 발행 API로 취득한 원타임 APPKEY입니다.
브라우저 애플리케이션에서 음성 인식 서버에 연결할 경우, HTML 파일에 APPKEY를 작성하는 것을 피하기 위해 원타임 APPKEY를 사용하도록 하십시오. 자세한 내용은 원타임 APPKEY를 참조하십시오.
grammarFileNames
연결 엔진 이름
해당 세션에서 사용하고자 하는 음성 인식 엔진을 지정합니다. 1회 세션에 1개를 지정합니다. 설정할 수 있는 값은 연결 엔진 이름 목록표나 마이페이지를 참조하십시오. 자세한 내용은 음성 인식 엔진을 참조하십시오.
선택 파라미터
profileId
프로파일 ID
프로파일은 음성 인식 서버 상에 존재하는 사용자별 데이터 파일로, 사용자가 이름을 지정하여 등록한 단어를 저장할 수 있습니다. 프로파일 ID는 해당 데이터 파일을 지정하기 위한 식별자입니다. 자세한 내용은 단어 등록을 참조하십시오.
profileWords
단어 등록 목록
세션에서 유효한 단어를 등록할 수 있습니다. 하나의 단어는 "표기 (반각 공백) 읽기" 형식으로 등록합니다. 클래스명을 지정할 경우 "표기 (반각 공백) 읽기 (반각 공백) 클래스명"으로 하십시오. 여러 개를 등록할 경우 단어와 단어를 "|"(반각 수직선)으로 구분합니다. 값의 포맷은 다음과 같습니다 (클래스명을 지정하지 않은 경우의 예입니다).
표기1 읽기1|표기2 읽기2|표기3 읽기3|표기4 읽기4
자세한 내용은 단어 등록을 참조하십시오.
keepFillerToken
필러 단어(불필요한 단어)의 자동 삭제 억제
1
또는 0
을 지정합니다. 기본값은 0
입니다. 음성 인식 결과에 포함된 필러 단어 ("아", "어" 등)를 자동으로 제거하고 싶지 않을 때 1
을 지정합니다. 필러 단어의 자동 삭제도 참조하십시오.
필러 단어는 단어의 앞뒤를 반각 "%"로 둘러싸여 있습니다. 다음은 필러 단어의 예입니다.
%あー%
%えー%
%おー%
%えっと%
AmiVoice Tech Blog의 AmiVoice API로 불필요한 단어(필러)를 표시할지 제거할지 선택하는 방법도 참조하십시오.
segmenterProperties
발화 구간 검출 파라미터
다음 파라미터를 설정할 수 있습니다.
useDiarizer
1
을 설정하면 동기 HTTP나 WebSocket 인터페이스에서 화자 다이어 라이제이션을 활성화합니다. 기본값은 비활성화입니다. 자세한 내용은 화자 다이어라이제이션을 참조하십시오.
diarizerAlpha
- 동기 HTTP나 WebSocket 인터페이스에서의 화자 다이어라이제이션의 새로운 화자 출현 용이성을 제어하는 파라미터입니다. 큰 값을 지정할수록 새로운 화자가 출현하기 쉽고, 작은 값을 지정할수록 새로운 화자가 출현하기 어려워집니다.
diarizerAlpha=0
은 특별하여 1e0, 즉 1이 지정된 것으로 취급됩니다. 아무것도 설정하지 않으면diarizerAlpha=0
이 지정된 것으로 간주됩니다.
- 동기 HTTP나 WebSocket 인터페이스에서의 화자 다이어라이제이션의 새로운 화자 출현 용이성을 제어하는 파라미터입니다. 큰 값을 지정할수록 새로운 화자가 출현하기 쉽고, 작은 값을 지정할수록 새로운 화자가 출현하기 어려워집니다.
diarizerTransitionBias
- 동기 HTTP나 WebSocket 인터페이스에서의 화자 다이어라이제이션의 화자 전환 용이성을 제어하는 파라미터입니다. 큰 값을 지정할수록 화자가 전환되기 쉽고, 작은 값을 지정할수록 화자가 전환되기 어려워집니다.
diarizerTransitionBias=0
은 특별하여 1e-40이 지정된 것으로 취급됩니다. 단, 8kHz 음성에 대응하는 엔진, 예를 들어 범용 엔진(-a-general
)을 사용하고 샘플링 레이트가 8k인 음성을 전송한 경우는 1e-20이 지정된 것으로 취급됩니다. 아무것도 설정하지 않으면diarizerTransitionBias=0
이 지정된 것으로 간주됩니다.
- 동기 HTTP나 WebSocket 인터페이스에서의 화자 다이어라이제이션의 화자 전환 용이성을 제어하는 파라미터입니다. 큰 값을 지정할수록 화자가 전환되기 쉽고, 작은 값을 지정할수록 화자가 전환되기 어려워집니다.
WebSocket API 고유 파라미터
resultUpdatedInterval
인식 중 이벤트 간격
인식 중 이벤트를 발행하는 간격을 밀리초 단위로 지정합니다.
- 0으로 설정하면 인식 중 이벤트를 발행하지 않습니다.
- 지정된 시간의 음성 데이터를 인식 처리할 때마다 인식 중 이벤트를 발행합니다. 인식 중 이벤트는 실제로 경과한 시간에 따라 발행되는 것이 아니라, 인식 처리된 음성 데이터의 처리량에 따라 발행됩니다. 100 미만의 소수를 포함한 값이 지정된 경우 100의 배수로 올림한 값이 지정된 것으로 취급합니다.
비동기 HTTP 인터페이스 고유 파라미터
loggingOptOut
로그 저장 여부 변경
loggingOptOut=<True|False>
로그 저장 여부를 지정합니다. True로 설정하면 세션 중 시스템은 로그를 저장하지 않습니다. 기본값은 False입니다.
contentId
사용자 정의 ID
contentId=<임의의 문자열>
사용자 측에서 정의한 임의의 문자열을 지정할 수 있습니다. 해당 세션 중의 상태, 결과 응답에 포함됩니다. 기본값은 None입니다.
compatibleWithSync
결과 포맷의 호환성
compatibleWithSync=<True|False>
동기 HTTP 인터페이스와 호환되는 형태로 결과를 포맷합니다. 기본값은 False입니다.
speakerDiarization
화자 다이어라이제이션 활성화 옵션
speakerDiarization=<True|False>
화자 다이어라이제이션을 활성화합니다. 기본값은 False입니다. 자세한 내용은 화자 다이어라이제이션을 참조하십시오.
diarizationMinSpeaker
화자 다이어라이제이션의 최소 추정 화자 수
diarizationMinSpeaker=<int>
화자 다이어라이제이션이 활성화되었을 때만 유효하며, 음성에 포함된 최소 화자 수를 지정할 수 있습니다. 1 이상으로 설정해야 합니다. 기본값은 1입니다. 자세한 내용은 화자 다이어라이제이션을 참조하십시오.
diarizationMaxSpeaker
화자 다이어라이제이션의 최대 추정 화자 수
diarizationMaxSpeaker=<int>
화자 다이어라이제이션이 활성화되어 있을 때만 유효하며, 음성에 포함된 최대 화자 수를 지정할 수 있습니다. diarizationMinSpeaker 이상으로 설정해야 합니다. 기본값은 10입니다. 자세한 내용은 화자 다이어라이제이션을 참조하십시오.
sentimentAnalysis
감정 분석 활성화 옵션
sentimentAnalysis=<True|False>
감정 분석을 활성화합니다. 기본값은 False입니다.
자세한 내용은 감정 분석을 참조하십시오.