メインコンテンツまでスキップ

リクエストパラメータ

AmiVoice API で音声認識をリクエストするときに設定するパラメータについて説明します。HTTP、WebSocket インタフェースでそれぞれ送信方法が異なりますが、設定できるパラメータは同じです。

以下は必ず送信する必要があります。

対応している音声データのフォーマットは、音声フォーマットを参照してください。

また、音声認識サーバを制御するために以下のパラメータを必要に応じて設定できます。

WebSocket 音声認識 API にのみ設定できるパラメータです。

非同期 HTTP 音声認識 API にのみ設定できるパラメータです。

note

これらのリクエストパラメータの送信方法については、次のセクションを参照してください。

以下ではパラメータの詳細について説明します。

必須パラメータ

認証情報 (authorization)

API を利用するためには必ず認証情報を設定する必要があります。認証情報は、マイページに記載された[APPKEY]、または、ワンタイム AppKey 発行 APIで取得したワンタイム AppKey です。

caution

ブラウザアプリケーションから音声認識サーバに接続する場合には、HTML ファイルに AppKey を書き込むことを避けるために、ワンタイム AppKey を使用するようにしてください。詳細は、ワンタイムAppKeyを参照してください。

接続エンジン名 (grammarFileNames)

このセッションで使用したい「接続エンジン名」(認識エンジン)を指定します。1 回のセッションで使用可能な接続エンジン名は、1 個です。使用可能な接続エンジン名の一覧は、マイページに表示されています。

オプションパラメータ

プロファイル ID (profileId)

プロファイルとは、音声認識サーバ上に存在するユーザーごとのデータファイルで、ユーザが名前をつけて、登録した単語を保存できます。プロファイル ID はそのデータファイルを指定するための識別子です。詳細は、単語登録プロファイルと単語登録についてを参照してください。

単語登録リスト (profileWords)

セッションで有効な単語を登録できます。ひとつの単語は『表記 (半角スペース)読み』という形式で登録します。クラス名を指定する場合は、『表記<半角スペース>読み <半角スペース> クラス名』としてください。複数登録する場合は、単語と単語を「|」(半角縦棒)で区切ります。値のフォーマットは以下のようになります (クラス名を指定していない場合の例です)。

表記1 読み1|表記2 読み2|表記3 読み3|表記4 読み4

詳細は、単語登録プロファイルと単語登録についてを参照してください。

フィラー単語の出力指定 (keepFillerToken)

発話に含まれるフィラー単語 (「あー」や「えー」など)を自動的に除去したくないときに指定します。フィラー単語の前後は半角の「%」で囲まれています。

例) %あー% %えー% %おー% %えーっと%

keepFillerToken=1 の指定をしていない場合、フィラー単語は認識結果から除去されています。

WebSocket API 固有のパラメータ

認識中イベントの間隔 (resultUpdatedInterval)

認識中イベントを発行する間隔をミリ秒単位で指定します。

  • 0 に設定すると認識中イベントを発行しません。
  • 指定された時間の音声データを認識処理する毎に認識中イベントを発行します。認識中イベントは、実際に経過した時間に応じて発行されるのではなく、認識処理された音声データの処理量に応じて発行されます。100 未満の端数を含む値が指定された場合は、100 の倍数に切り上げた値が指定されたものとして扱います。

非同期 HTTP 音声認識 API 固有のパラメータ

ログ保存のあり、なしの変更 (loggingOptOut)

loggingOptOut=<True|False> ログの保存のあり、なしを指定します。True に設定するとセッション中、システムはログを保存しません。デフォルトは False です。

ユーザ定義 ID (contentId)

contentId=<任意の文字列> ユーザ側で定義した任意の文字列を指定できます。そのセッション中の状態、結果のレスポンスに含まれます。デフォルトは None です。

結果フォーマットの互換性 (compatibleWithSync)

compatibleWithSync=<True|False> 同期 HTTP 音声認識 API と互換性のある形で結果をフォーマットします。デフォルトは False です。

話者ダイアライゼーションの有効化オプション (speakerDiarization)

speakerDiarization=<True|False> 話者ダイアライゼーションを有効にします。デフォルトは False です。

話者ダイアライゼーションの最小推定話者人数 (diarizationMinSpeaker)

diarizationMinSpeaker=<int> 話者ダイアライゼーションが有効になっているときのみ有効で、音声に含まれる最小話者数を指定できます。1 以上に設定する必要があります。デフォルトは 1 です。

話者ダイアライゼーションの最大推定話者人数 (diarizationMaxSpeaker)

diarizationMaxSpeaker=<int> 話者ダイアライゼーションが有効になっているときのみ有効で、音声に含まれる最大話者数を指定できます。diarizationMinSpeaker 以上に設定する必要があります。デフォルトは 10 です。

感情解析の有効化オプション(sentimentAnalysis)

sentimentAnalysis=<True|False> 感情解析を有効にします。デフォルトは False です。

詳細は、感情解析を参照してください。