跳至主要内容

特点

AmiVoice API具有以下特点：

接收语音数据，并将语音内容转换为文本返回。
支持文件和获取实时结果的流式处理。请参阅接口的类型和用途。
使用基于HTTP和WebSocket的文本协议，因此客户端运行环境只需支持TCP/IP，无需集成特殊库。
通过HTTPS和WSS加密，确保通信路径安全。
从发送的语音数据中推测人类发声部分并进行语音识别，只对作为语音识别对象的发声时间收费。请参阅AmiVoice API Price
语音识别结果以JSON格式返回。不仅包括推测的语音内容文本，还包括发声开始时间、结束时间、每个标记的时间信息、置信度等。
支持多种语言。请参阅支持的语言。
自动插入标点符号。
自动删除"えーっと"和"あのー"等无意义词语。为了分析呼叫中心员工的说话方式等目的，也可以选择保留无意义词语。
提供多个语音识别引擎(语言模型和声学模型的组合)，可以选择最适合各种语言、领域和使用场景的引擎。
使用用户词典功能，用户可以注册单词，使原本无法识别的单词更容易被识别。
启用说话人区分功能后，可以对多人对话的语音估计出谁在什么时间段说话。
启用情感分析功能后，可以同时进行情感分析。