ユースケース · パイプライン
話者分離付き文字起こし。
すべての話者を識別。
会議録音や通話ファイルから話者帰属付きの完全な書き起こしへ —— 音声認識、話者分離、話者識別を 1 つのオンデバイス・パイプラインに統合。クラウド API なし、分単位課金なし、データはデバイスから出ません。
作れるもの
同じパイプラインの 4 つの形。
いずれも ASR + 話者分離 + 任意の話者識別レジストリを組み合わせます。コンポーネントは差し替え可能で、選択は音声ソースとレイテンシ予算次第です。
議事録
一つの Zoom 書き出しから「Alice さんが…」/「Bob さんが…」の帰属を生成。
コールセンター分析
エージェント対顧客のターン、話者ごとの感情、コンプライアンス重視のオンデバイス。
ポッドキャストの書き起こし
エピソード全体を通してホストとゲストを識別、語単位タイムスタンプ付き。
法廷・インタビュー記録
音声がデバイスから出ない、法廷品質の帰属。
さらに読む
