Restauración de voz — Sidon

Restaura voz ruidosa, reverberante o de ancho de banda limitado a audio limpio de 48 kHz con Sidon: un único modelo que combina supresión de ruido, dereverberación y extensión de ancho de banda. Se ejecuta por completo en el dispositivo (CoreML en Apple Silicon, ONNX Runtime en el resto). Como reconstruye la voz a partir de representaciones aprendidas en lugar de limitarse a enmascarar el ruido, resulta especialmente apto para preparar una referencia de clonación de voz: limpia la grabación a la vez que preserva la identidad del hablante.

Cuándo usar Sidon frente a DeepFilterNet3

La Mejora de voz (DeepFilterNet3) es un diminuto supresor de ruido en tiempo real. Sidon es un modelo de restauración generativa más pesado: también elimina la reverberación y reconstruye el detalle de alta frecuencia hasta 48 kHz. Usa DeepFilterNet3 para la eliminación de ruido en vivo y Sidon para la limpieza offline de referencias y grabaciones de archivo.

Arquitectura

Sidon es un pipeline de dos etapas: un predictor de características autosupervisado depura la representación de la voz y un vocoder neuronal resintetiza una forma de onda limpia a partir de ella.

EtapaDetalles
Front-endCaracterísticas log-mel de w2v-BERT 2.0 SeamlessM4T (16 kHz → 160 dimensiones)
Predictorw2v-BERT 2.0 (8 capas) con una cabeza de depuración ajustada con LoRA → características depuradas
VocoderEl decodificador DAC resintetiza audio a 48 kHz a partir de las características depuradas

El pipeline es 16 kHz audio → features → predictor → DAC decoder → 48 kHz audio. En total ≈ 246M parámetros (193,6M del predictor + 52,4M del vocoder).

Pipeline de procesamiento

  1. Extracción de características — Calcula las características log-mel de w2v-BERT 2.0 a partir de la entrada a 16 kHz (Accelerate/vDSP en Apple, C++ en otras plataformas)
  2. Predictor — El encoder w2v-BERT adaptado con LoRA mapea las características ruidosas/reverberantes a características limpias
  3. Vocoder — El decodificador DAC reconstruye una forma de onda limpia de 48 kHz a partir de las características depuradas
  4. Segmentación — El audio más largo se procesa en ventanas fijas (~10 s) y se ensambla en la línea de tiempo de 48 kHz

Calidad

En un clip de referencia reverberante, la restauración eleva la calidad perceptual a la vez que mantiene intacta la identidad del hablante (MOS sin referencia):

AudioDNSMOS OVRLUTMOSCoseno de hablante
Entrada (reverberante)2.902.99
Restaurado con Sidon3.293.400.79

La mayor mejora está en la puntuación de fondo (reverberación eliminada). La similitud del hablante se preserva, que es lo que importa al limpiar una referencia de clonación.

Variantes del modelo

La cuantización comprime el predictor; el vocoder DAC se mantiene en mayor precisión (calidad de audio). En Apple, int8 usa palettización por k-means; en ONNX, int8 es por canal solo de pesos.

FormatoPrecisiónTamaño del paquete
CoreMLint8 (predictor) + FP16 (vocoder)~407 MB
CoreMLFP16~713 MB
ONNXint8 (predictor) + FP16 (vocoder)~286 MB
ONNXFP16~470 MB
ONNXFP32~939 MB

Uso desde la CLI

# Restore audio (denoise + dereverb) to clean 48 kHz
.build/release/speech restore noisy.wav -o clean.wav

# Clean a voice-cloning reference before TTS
.build/release/speech speak "Hello world" --voice-sample ref.wav --clean-reference
Importante

Sidon produce audio a 48 kHz con independencia de la frecuencia de muestreo de entrada (sobremuestrea y restaura el ancho de banda). Es un modelo de restauración offline —más pesado que DeepFilterNet3— y conviene ejecutarlo sobre un archivo en lugar de un flujo en vivo.

Descargas de modelos

ModeloFormatoHuggingFace
Sidon (CoreML)fp16 + int8aufklarer/Sidon-CoreML
Sidon (ONNX)int8 + fp16 + fp32soniqo/Sidon-ONNX

Combinación con otros modelos

Sidon es más útil como paso de preprocesamiento:

API Swift

import SpeechRestoration

let restorer = try await SpeechRestorer.fromPretrained()
let cleanAudio = try restorer.restore(audio: noisySamples, sampleRate: 16000)

También disponible en Android, Linux y Windows vía Speech Core (ONNX Runtime). Construido sobre Sidon (MIT).