開発ガイド

音声認識サーバのエンドポイントに、HTTP や WebSocket で接続し、リクエストパラメータとともに音声データを送信することで、音声認識の結果を得ることができます。ここでは、AmiVoice APIを使ってアプリケーションを作る開発者に向けた利用方法を順に説明します。

基本的な機能

一般にAmiVoice APIを使って音声認識を行うクライアントアプリケーションは以下の実装が必要になります。

音声データを録音デバイスやネットワークから取得する
音声データを対応するフォーマットに変換する (対応している音声フォーマットの場合は不要です)
音声認識APIのエンドポイントに音声データを送信する
音声認識結果を受け取る
音声認識結果を解釈し、利用する (例えば、キャプションとして画面に表示する、意図理解して音声ボットの応答を生成する、会議の議事録など要約処理の入力とする、など)

以下は、クライアントプログラムと音声認識サーバのやり取りの概要です。

図. AmiVoice API の概要

インタフェースの種類と使い方

AmiVoice APIは3つの音声認識インタフェースを用意しています。必要な特徴や想定しているユースケースについて説明し、利用者が使い分けることを助けます。

インタフェースの種類と使い方

リクエスト

音声認識結果を得るために、サーバへのリクエスト時に様々な設定を行い、音声ファイルを送信する必要があります。

API キーでは、AmiVoice API を利用する際の認証に必要となる API キーについて説明します。
リクエストパラメータでは、リクエスト時に設定する必要のある項目を説明します。
対応している音声データについては、音声フォーマットを参照してください。
利用可能な音声認識エンジンや対応している言語については、音声認識エンジンを参照してください。

リクエストの送信方法は、HTTP や WebSocket によって異なりますので、それぞれのインタフェースについて順に説明します。

送信したデータや音声認識結果のサーバ上のログの取り扱いについては、ログ保存を参照してください。

レスポンス

音声認識サーバからは、送信した音声を書き起こしたテキストが得られます。また、テキスト以外に得られる様々な情報については、音声認識の結果で詳細を説明します。エラー処理についてはレスポンスコードとメッセージを参照してください。

開発リソース

AmiVoice APIをより使いこなしてアプリケーションを開発するための情報や、クライアントライブラリ、サンプルプログラム、制限事項について説明します。

図. AmiVoice API の概要

発展的な機能

音声認識精度の改善のための機能です。

話者ダイアライゼーションや感情分析などの追加機能も提供しています。目的に応じて活用してください。

構築したサービスの運用をサポートする機能についても提供しています。

使用量集計タグ

クライアントライブラリ

AmiVoice API を様々な言語から簡単に利用するためのクライアントライブラリを紹介します。

クライアントライブラリ

サンプルプログラム

AmiVoice API を使った様々なプログラム言語のサンプルプログラムを紹介します。

サンプルプログラム

制限事項

AmiVoice API を利用するうえで、知っておくべき制限事項について説明します。

制限事項

基本的な機能​

インタフェースの種類と使い方​

リクエスト​

レスポンス​

開発リソース​

発展的な機能​

クライアントライブラリ​

サンプルプログラム​

制限事項​