Diarisation de locuteurs

Identifiez qui a parlé et quand dans un enregistrement multi-locuteurs. Deux moteurs de diarisation sont disponibles : un pipeline Pyannote en deux étapes (segmentation + chaînage de locuteurs basé sur l'activité, puis empreinte post-hoc) et un modèle de bout en bout Sortformer (CoreML, Neural Engine).

Moteurs

Sélectionnez le moteur avec --engine pyannote (par défaut) ou --engine sortformer.

Pyannote (par défaut)

Pipeline en deux étapes : la segmentation Pyannote traite des fenêtres qui se chevauchent avec un chaînage de locuteurs basé sur l'activité (corrélation de Pearson dans les zones de chevauchement) pour assigner des étiquettes de locuteurs globales. L'extraction post-hoc d'empreintes WeSpeaker permet l'identification d'un locuteur cible via un audio d'enrôlement.

Sortformer (CoreML)

Le modèle de diarisation neuronale de bout en bout de NVIDIA. Prédit directement l'activité par trame pour jusqu'à 4 locuteurs sans étapes séparées d'empreinte ou de clustering. S'exécute sur Neural Engine via CoreML avec des buffers d'état en streaming (FIFO + cache de locuteurs).

Note

Sortformer ne produit pas d'empreintes de locuteur. Les options --target-speaker et --embedding-engine ne sont disponibles qu'avec le moteur Pyannote.

Pipeline Pyannote

Le pipeline par défaut s'exécute en deux étapes :

Étape 1 : segmentation + chaînage de locuteurs

Pyannote segmentation-3.0 traite des fenêtres glissantes de 10 secondes avec 50 % de chevauchement. Un décodeur powerset convertit la sortie à 7 classes en probabilités par locuteur (jusqu'à 3 locuteurs locaux par fenêtre). Les fenêtres adjacentes partagent un chevauchement de 5 secondes — l'identité du locuteur est propagée entre les fenêtres en calculant la corrélation de Pearson entre les pistes de probabilités dans la zone de chevauchement, avec un appariement exclusif glouton pour des IDs de locuteur globaux cohérents.

Étape 2 : empreinte post-hoc

WeSpeaker ResNet34-LM extrait une empreinte centroïde de 256 dimensions par locuteur. Ces empreintes permettent l'extraction de locuteur cible (--target-speaker) mais ne pilotent pas l'assignation des locuteurs elle-même.

Migration depuis pyannote.audio

Si vous venez de la bibliothèque Python pyannote.audio — remplacement d'une sous-classe Pipeline qui définit pipeline.segmentation = ..., ou migration depuis un serveur hébergeant pyannote/speaker-diarization-3.1 — Soniqo enveloppe le même modèle Pyannote-Segmentation-3.0 et l'exécute entièrement sur l'appareil sur Apple Silicon. Pas de runtime Python, pas de CUDA, pas de jeton Hugging Face à l'inférence.

pyannote.audio (Python)	Soniqo (Swift)
`Pipeline.from_pretrained("pyannote/speaker-diarization-3.1")`	`DiarizationPipeline.fromPretrained()`
`pipeline(audio_file)`	`pipeline.diarize(audio: samples, sampleRate: 16000)`
`pipeline.segmentation = ...` (sous-classe personnalisée)	Fixe : Pyannote-Segmentation-3.0 (MLX ou CoreML, sélection automatique)
`diarization.itertracks(yield_label=True)`	`for seg in result.segments { ... }`
`diarization.write_rttm(file)`	CLI : `--rttm`
`pyannote.metrics.diarization.DiarizationErrorRate`	CLI : `--score-against reference.rttm`

Les poids Pyannote-Segmentation-3.0 sont convertis depuis le checkpoint amont sur HuggingFace, de sorte que les logits de segmentation sont numériquement équivalents à la tolérance de précision flottante près. Le chaînage post-segmentation (corrélation de Pearson sur fenêtres chevauchantes + appariement exclusif glouton) et les étapes d'empreinte post-hoc avec WeSpeaker sont réimplémentés en Swift, mais produisent une sortie RTTM comparable au pipeline Python de référence.

Pas encore pris en charge

Il n'existe pas d'équivalent streaming à OnlineSpeakerDiarization pour le moteur Pyannote. Pour la diarisation en temps réel, utilisez --engine sortformer, qui exécute le modèle Sortformer avec des buffers d'état FIFO et cache de locuteurs.

Utilisation en CLI

# Diarisation basique (pyannote, par défaut)
.build/release/speech diarize meeting.wav

# Sortformer de bout en bout (CoreML)
.build/release/speech diarize meeting.wav --engine sortformer

# Format de sortie RTTM (pour l'évaluation)
.build/release/speech diarize meeting.wav --rttm

# Sortie JSON
.build/release/speech diarize meeting.wav --json

Extraction de locuteur cible

Fournissez un audio d'enrôlement d'un locuteur connu pour n'extraire que ses segments d'un enregistrement. Le pipeline calcule l'empreinte du locuteur de l'audio d'enrôlement et trouve le cluster avec la plus haute similarité cosinus.

# Extraire les segments pour un locuteur spécifique
.build/release/speech diarize meeting.wav --target-speaker enrollment.wav

Évaluation DER

Évaluez la qualité de la diarisation en comparant à un fichier RTTM de référence. Le pipeline calcule le Diarization Error Rate (DER), qui mesure la proportion de temps incorrectement attribuée.

# Évaluer par rapport à un RTTM de référence
.build/release/speech diarize meeting.wav --score-against reference.rttm

Sortie RTTM

L'option --rttm produit une sortie Rich Transcription Time Marked, un format standard utilisé pour l'évaluation de la diarisation. Chaque ligne suit le format :

SPEAKER filename 1 start_time duration <NA> <NA> speaker_id <NA> <NA>

Options

Option	Description
`--target-speaker`	Audio d'enrôlement pour l'extraction de locuteur cible (pyannote uniquement)
`--embedding-engine`	Moteur d'empreintes de locuteur : `mlx` ou `coreml` (pyannote uniquement)
`--vad-filter`	Pré-filtrage avec Silero VAD (pyannote uniquement)
`--rttm`	Sortie au format RTTM
`--json`	Sortie au format JSON
`--score-against`	Fichier RTTM de référence pour l'évaluation DER

Important

La diarisation fonctionne mieux avec des enregistrements qui ont des tours de parole clairs. Une parole fortement chevauchante peut réduire la précision. Le nombre de locuteurs est déterminé automatiquement.

Téléchargements des modèles

Les modèles sont téléchargés automatiquement à la première utilisation :

Composant	Modèle	Taille	HuggingFace
Segmentation	Pyannote-Segmentation-3.0	~5,7 Mo	aufklarer/Pyannote-Segmentation-MLX
Empreinte de locuteur	WeSpeaker-ResNet34-LM (MLX)	~25 Mo	aufklarer/WeSpeaker-ResNet34-LM-MLX
Empreinte de locuteur	WeSpeaker-ResNet34-LM (CoreML)	~25 Mo	aufklarer/WeSpeaker-ResNet34-LM-CoreML
Sortformer	Sortformer Diarization (CoreML)	~240 Mo	aufklarer/Sortformer-Diarization-CoreML

API Swift

import SpeechVAD

let pipeline = try await DiarizationPipeline.fromPretrained()
let result = pipeline.diarize(audio: samples, sampleRate: 16000)
for seg in result.segments {
    print("Speaker \(seg.speakerId): [\(seg.startTime)s - \(seg.endTime)s]")
}

// Extraction de locuteur cible
let targetEmb = pipeline.embeddingModel.embed(audio: enrollmentAudio, sampleRate: 16000)
let segments = pipeline.extractSpeaker(
    audio: meetingAudio, sampleRate: 16000,
    targetEmbedding: targetEmb
)