特徴

AmiVoice APIには以下の特徴があります。

音声データを受け取り、発話内容をテキストに変換して返します。
ファイルと逐次結果を得られるストリーミングに対応しています。インタフェースの使い分けを参照してください。
HTTP や WebSocket によるテキストベースのプロトコルを利用しているので、クライアント動作環境でTCP/IPが利用できるだけでよく、特殊なライブラリを組み込む必要がありません。
HTTPS および WSS によって暗号化されているため、通信経路は安全です。
送信された音声データから、人が発話している部分を推定して音声認識し、その音声認識の対象となった発話時間のみに費用がかかります。AmiVoice APIの価格を参照してください
音声認識の結果は、JSON 形式で返します。発話内容を推定したテキストだけではなく、発話の開始時間、終了時間、トークンごとの時間情報、信頼度などが得られます。
様々な言語に対応しています。対応している言語を参照してください。
句読点を自動的に挿入します。
「えーっと」や「あのー」などの不要語に自動的に削除します。コールセンターで従業員の話し方の分析をするためなどの目的で敢えて不要語を残すこともできます。
音声認識エンジン(言語モデル、音響モデルの組み合わせ)を複数提供しており、様々な言語、ドメインや利用シーンに最適なエンジンを選択できます。
単語登録することで認識しない単語を利用者が追加できます。
話者ダイアライゼーション機能を有効にすると、複数の話者が話をしている音声に対して、どこからどこまでを誰が話しているのか推定した結果が得られます。
感情分析機能を有効にすると、感情分析も同時に行うことができます。