用例 · 流水线

带说话人分离的转录。
每位说话人都有名字。

从会议录音或通话文件生成带完整归属的转录 —— 语音识别、说话人分离和说话人识别集成于一条端侧流水线。无云端 API、无按分钟计费、数据从不离开设备。

开始使用阅读 ASR 指南

你能构建什么

同一条流水线的四种形态。

每种形态都把一个 ASR + 一个说话人分离器 + 可选的说话人识别注册库串起来。组件可互换；具体选哪个,取决于音频来源和延迟预算。

会议纪要

只需一份 Zoom 导出文件,就能得到「Alice 说……」/「Bob 说……」的归属。

呼叫中心分析

坐席与来电方的轮次、按说话人分情绪,端侧运行以满足合规。

播客转录

整集中识别主持人与嘉宾,带词级时间戳。

法律/采访记录

法庭级归属,音频从不离开设备。

深入阅读

组件指南。

Speaker Diarization

Speaker Embeddings

Forced Alignment

Speech Enhancement