你能构建什么
同一条流水线的四种形态。
每种形态都把一个 ASR + 一个说话人分离器 + 可选的说话人识别注册库串起来。组件可互换;具体选哪个,取决于音频来源和延迟预算。
会议纪要
只需一份 Zoom 导出文件,就能得到「Alice 说……」/「Bob 说……」的归属。
呼叫中心分析
坐席与来电方的轮次、按说话人分情绪,端侧运行以满足合规。
播客转录
整集中识别主持人与嘉宾,带词级时间戳。
法律/采访记录
法庭级归属,音频从不离开设备。
深入阅读
每种形态都把一个 ASR + 一个说话人分离器 + 可选的说话人识别注册库串起来。组件可互换;具体选哪个,取决于音频来源和延迟预算。
只需一份 Zoom 导出文件,就能得到「Alice 说……」/「Bob 说……」的归属。
坐席与来电方的轮次、按说话人分情绪,端侧运行以满足合规。
整集中识别主持人与嘉宾,带词级时间戳。
法庭级归属,音频从不离开设备。