स्पीच रिस्टोरेशन — Sidon
noisy, reverberant या band-limited स्पीच को साफ़ 48 kHz ऑडियो में बहाल करें Sidon के साथ — एक ऐसा मॉडल जो denoising, dereverberation और bandwidth extension को एक साथ जोड़ता है। यह पूरी तरह डिवाइस-पर चलता है (Apple Silicon पर CoreML, अन्यत्र ONNX Runtime)। चूँकि यह केवल नॉइज़ को मास्क करने के बजाय learned representations से स्पीच का पुनर्निर्माण करता है, यह वॉयस-क्लोनिंग रेफ़रेंस तैयार करने में विशेष रूप से अच्छा है: यह रिकॉर्डिंग को साफ़ करता है जबकि स्पीकर की पहचान को संरक्षित रखता है।
स्पीच एन्हांसमेंट (DeepFilterNet3) एक छोटा, रीयल-टाइम नॉइज़ सप्रेसर है। Sidon एक भारी generative restoration मॉडल है: यह reverberation को भी हटाता है और 48 kHz तक high-frequency detail का पुनर्निर्माण करता है। लाइव नॉइज़ हटाने के लिए DeepFilterNet3 का उपयोग करें, और रेफ़रेंस एवं archival रिकॉर्डिंग की ऑफ़लाइन सफ़ाई के लिए Sidon का।
आर्किटेक्चर
Sidon एक two-stage पाइपलाइन है: एक self-supervised feature predictor स्पीच representation को साफ़ करता है, और एक neural vocoder उससे साफ़ waveform को फिर से संश्लेषित करता है।
| चरण | विवरण |
|---|---|
| Front-end | w2v-BERT 2.0 SeamlessM4T log-mel features (16 kHz → 160-dim) |
| Predictor | w2v-BERT 2.0 (8 layers) एक LoRA-fine-tuned cleanse head के साथ → cleansed features |
| Vocoder | DAC decoder cleansed features से 48 kHz ऑडियो को फिर से संश्लेषित करता है |
पाइपलाइन है 16 kHz audio → features → predictor → DAC decoder → 48 kHz audio। कुल ≈ 246M पैरामीटर (193.6M predictor + 52.4M vocoder)।
प्रोसेसिंग पाइपलाइन
- Feature extraction — 16 kHz इनपुट से w2v-BERT 2.0 log-mel features की गणना करें (Apple पर Accelerate/vDSP, अन्य प्लेटफ़ॉर्म पर C++)
- Predictor — LoRA-adapted w2v-BERT encoder noisy/reverberant features को साफ़ features में मैप करता है
- Vocoder — DAC decoder cleansed features से एक साफ़ 48 kHz waveform का पुनर्निर्माण करता है
- Chunking — लंबे ऑडियो को निश्चित windows (~10 s) में प्रोसेस किया जाता है और 48 kHz timeline पर जोड़ा जाता है
गुणवत्ता
एक reverberant रेफ़रेंस क्लिप पर, रिस्टोरेशन स्पीकर की पहचान को बरकरार रखते हुए perceptual गुणवत्ता को बढ़ाता है (no-reference MOS):
| ऑडियो | DNSMOS OVRL | UTMOS | Speaker cosine |
|---|---|---|---|
| इनपुट (reverberant) | 2.90 | 2.99 | — |
| Sidon द्वारा बहाल | 3.29 | 3.40 | 0.79 |
सबसे बड़ी बढ़त background score में है (reverberation हटाया गया)। स्पीकर समानता संरक्षित रहती है, जो किसी cloning रेफ़रेंस को साफ़ करते समय सबसे महत्वपूर्ण है।
मॉडल वेरिएंट
Quantization predictor को संपीड़ित करता है; DAC vocoder उच्च प्रिसिज़न पर रहता है (ऑडियो गुणवत्ता)। Apple पर, int8 k-means palettization का उपयोग करता है; ONNX पर, int8 weight-only per-channel है।
| फ़ॉर्मैट | प्रिसिज़न | बंडल आकार |
|---|---|---|
| CoreML | int8 (predictor) + FP16 (vocoder) | ~407 MB |
| CoreML | FP16 | ~713 MB |
| ONNX | int8 (predictor) + FP16 (vocoder) | ~286 MB |
| ONNX | FP16 | ~470 MB |
| ONNX | FP32 | ~939 MB |
CLI उपयोग
# Restore audio (denoise + dereverb) to clean 48 kHz
.build/release/speech restore noisy.wav -o clean.wav
# Clean a voice-cloning reference before TTS
.build/release/speech speak "Hello world" --voice-sample ref.wav --clean-reference
Sidon इनपुट sample rate की परवाह किए बिना 48 kHz ऑडियो आउटपुट करता है (यह upsample करता है और bandwidth को बहाल करता है)। यह एक ऑफ़लाइन रिस्टोरेशन मॉडल है — DeepFilterNet3 से भारी — और इसे live stream के बजाय किसी फ़ाइल पर चलाना सबसे अच्छा है।
मॉडल डाउनलोड
| मॉडल | फ़ॉर्मैट | HuggingFace |
|---|---|---|
| Sidon (CoreML) | fp16 + int8 | aufklarer/Sidon-CoreML |
| Sidon (ONNX) | int8 + fp16 + fp32 | soniqo/Sidon-ONNX |
अन्य मॉडलों के साथ संयोजन
Sidon एक प्रीप्रोसेसिंग चरण के रूप में सबसे उपयोगी है:
- वॉयस क्लोनिंग से पहले — किसी noisy/reverberant रेफ़रेंस को साफ़ करें ताकि clone कमरे की नहीं, बल्कि आवाज़ की विरासत ग्रहण करे
- ट्रांसक्रिप्शन से पहले — ASR सटीकता में सुधार करने के लिए archival या far-field रिकॉर्डिंग को बहाल करें
- स्पीकर एम्बेडिंग से पहले — साफ़ ऑडियो अधिक विश्वसनीय embeddings उत्पन्न करता है
Swift API
import SpeechRestoration
let restorer = try await SpeechRestorer.fromPretrained()
let cleanAudio = try restorer.restore(audio: noisySamples, sampleRate: 16000)
Speech Core (ONNX Runtime) के माध्यम से Android, Linux और Windows पर भी उपलब्ध। Sidon (MIT) पर निर्मित।