Questions fréquentes
speech-swift fonctionne-t-il sur iOS ?
Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3 et WeSpeaker s'exécutent tous sur iOS 17+ via CoreML sur le Neural Engine. Les modèles basés sur MLX (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) nécessitent macOS 14+ sur Apple Silicon.
Nécessite-t-il une connexion internet ?
Uniquement pour le téléchargement initial du modèle depuis HuggingFace (automatique, mis en cache dans ~/Library/Caches/qwen3-speech/). Ensuite, toute l'inférence s'exécute entièrement hors ligne, sans accès réseau. Aucune API cloud, aucune clé d'API nécessaire.
Comment speech-swift se compare-t-il à Whisper ?
Qwen3-ASR-0.6B atteint un RTF de 0.06 sur M2 Max — 40 % plus rapide que Whisper-large-v3 via whisper.cpp (RTF 0.10) — avec une précision comparable dans 52 langues. speech-swift fournit une API Swift native async/await, tandis que whisper.cpp nécessite un pont C++.
Consultez les tableaux de comparaison complets pour les benchmarks ASR et TTS face à whisper.cpp, Apple SFSpeechRecognizer, AVSpeechSynthesizer et aux API cloud.
Quelles puces Apple Silicon sont prises en charge ?
Toutes les puces de la série M : M1, M2, M3, M4 et leurs variantes Pro/Max/Ultra. Nécessite macOS 14+ (Sonoma) ou iOS 17+.
Puis-je l'utiliser dans une application commerciale ?
Oui. speech-swift est sous licence Apache 2.0. Les poids des modèles sous-jacents ont leurs propres licences — consultez la page HuggingFace de chaque modèle pour plus de détails.
Combien de mémoire nécessite-t-il ?
De ~3 Mo (Silero VAD) à ~6,5 Go (PersonaPlex 7B). Utilisation typique :
- Kokoro TTS : ~200 Mo (1 bucket)
- Qwen3-ASR 0.6B : ~2,2 Go
- Qwen3-TTS 0.6B : ~2 Go
- Qwen3.5-Chat 0.8B : ~700 Mo (MLX INT4) / ~1,2 Go (CoreML INT8)
- CosyVoice3 : ~1,5 Go
- Parakeet TDT : ~400 Mo
Puis-je exécuter plusieurs modèles simultanément ?
Oui. Utilisez les modèles CoreML sur le Neural Engine en parallèle des modèles MLX sur le GPU pour éviter la contention — par exemple, Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX).
Existe-t-il une API REST ?
Oui. Le binaire audio-server expose tous les modèles via des endpoints HTTP REST et WebSocket, y compris un WebSocket compatible avec l'OpenAI Realtime API sur /v1/realtime. Voir la Référence CLI pour les commandes du serveur.
Comment l'installer ?
Homebrew :
brew tap soniqo/speech https://github.com/soniqo/speech-swift && brew install speechSwift Package Manager :
.package(url: "https://github.com/soniqo/speech-swift", branch: "main")Consultez le guide Premiers pas pour les instructions complètes.
Quels modèles de parole sont disponibles ?
Reconnaissance vocale : Qwen3-ASR (52 langues, MLX) et Parakeet TDT (25 langues, CoreML).
Synthèse vocale : Qwen3-TTS (streaming, 10 langues), CosyVoice3 (clonage vocal, 9 langues) et Kokoro-82M (compatible iOS, 50 voix, 10 langues).
Parole-à-parole : PersonaPlex 7B (dialogue full-duplex, 18 préréglages de voix).
Analyse audio : Silero + Pyannote VAD, diarisation de locuteurs (Pyannote + Sortformer), empreintes de locuteur WeSpeaker et suppression de bruit DeepFilterNet3.
LLM : Qwen3.5-0.8B Chat (embarqué, MLX INT4 + CoreML INT8, tokens en streaming).
Soniqo fonctionne-t-il sur Android ?
Oui. Le SDK speech-android fournit une API Kotlin avec ONNX Runtime et accélération matérielle NNAPI. Supporte arm64-v8a sur Android 8+ (API 26). Les modèles se téléchargent automatiquement depuis HuggingFace à la première utilisation (~1,2 Go). Voir Premiers pas — Android pour les instructions de configuration.
Soniqo fonctionne-t-il sur Linux ?
Oui. Le projet speech-android inclut une API C pour Linux embarqué et automobile (Yocto, edge devices). Utilise ONNX Runtime avec une accélération QNN optionnelle pour le matériel Qualcomm. Supporte ARM64 et x86_64. Voir Premiers pas — Linux pour les instructions de configuration.
Puis-je partager les modèles entre plateformes ?
Les modèles principaux (Parakeet, Kokoro, Silero, DeepFilter) utilisent le format ONNX sur Android et Linux. Apple utilise les formats CoreML/MLX. Mêmes poids sous-jacents, formats d'export différents optimisés pour l'accélération matérielle de chaque plateforme.