跳至主要内容

特点

AmiVoice API具有以下特点:

  • 接收语音数据,并将语音内容转换为文本返回。
  • 支持文件和获取实时结果的流式处理。请参阅接口使用区分
  • 使用基于HTTP和WebSocket的文本协议,因此客户端运行环境只需支持TCP/IP,无需集成特殊库。
  • 通过HTTPS和WSS加密,确保通信路径安全。
  • 从发送的语音数据中推测人类发声部分并进行语音识别,只对作为语音识别对象的发声时间收费。请参阅AmiVoice API的价格
  • 语音识别结果以JSON格式返回。不仅包括推测的语音内容文本,还包括发声开始时间、结束时间、每个标记的时间信息、置信度等。
  • 支持多种语言。请参阅支持的语言
  • 自动插入标点符号。
  • 自动删除"えーっと"和"あのー"等无意义词语。为了分析呼叫中心员工的说话方式等目的,也可以选择保留无意义词语。
  • 提供多个语音识别引擎(语言模型和声学模型的组合),可以选择最适合各种语言、领域和使用场景的引擎。
  • 通过单词注册,用户可以添加未被识别的单词。
  • 启用说话人区分功能后,可以对多人对话的语音估计出谁在什么时间段说话。
  • 启用情感分析功能后,可以同时进行情感分析。