ユースケース · パイプライン

話者分離付き文字起こし。
すべての話者を識別。

会議録音や通話ファイルから話者帰属付きの完全な書き起こしへ —— 音声認識、話者分離、話者識別を 1 つのオンデバイス・パイプラインに統合。クラウド API なし、分単位課金なし、データはデバイスから出ません。

作れるもの

同じパイプラインの 4 つの形。

いずれも ASR + 話者分離 + 任意の話者識別レジストリを組み合わせます。コンポーネントは差し替え可能で、選択は音声ソースとレイテンシ予算次第です。

議事録

一つの Zoom 書き出しから「Alice さんが…」/「Bob さんが…」の帰属を生成。

コールセンター分析

エージェント対顧客のターン、話者ごとの感情、コンプライアンス重視のオンデバイス。

ポッドキャストの書き起こし

エピソード全体を通してホストとゲストを識別、語単位タイムスタンプ付き。

法廷・インタビュー記録

音声がデバイスから出ない、法廷品質の帰属。

さらに読む