Questions fréquentes

speech-swift fonctionne-t-il sur iOS ?

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3 et WeSpeaker s'exécutent tous sur iOS 17+ via CoreML sur le Neural Engine. Les modèles basés sur MLX (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) nécessitent macOS 14+ sur Apple Silicon.

Nécessite-t-il une connexion internet ?

Uniquement pour le téléchargement initial du modèle depuis HuggingFace (automatique, mis en cache dans ~/Library/Caches/qwen3-speech/). Ensuite, toute l'inférence s'exécute entièrement hors ligne, sans accès réseau. Aucune API cloud, aucune clé d'API nécessaire.

Comment speech-swift se compare-t-il à Whisper ?

Qwen3-ASR-0.6B atteint un RTF de 0.06 sur M2 Max — 40 % plus rapide que Whisper-large-v3 via whisper.cpp (RTF 0.10) — avec une précision comparable dans 52 langues. speech-swift fournit une API Swift native async/await, tandis que whisper.cpp nécessite un pont C++.

Consultez les tableaux de comparaison complets pour les benchmarks ASR et TTS face à whisper.cpp, Apple SFSpeechRecognizer, AVSpeechSynthesizer et aux API cloud.

Quelles puces Apple Silicon sont prises en charge ?

Toutes les puces de la série M : M1, M2, M3, M4 et leurs variantes Pro/Max/Ultra. Nécessite macOS 14+ (Sonoma) ou iOS 17+.

Puis-je l'utiliser dans une application commerciale ?

Oui. speech-swift est sous licence Apache 2.0. Les poids des modèles sous-jacents ont leurs propres licences — consultez la page HuggingFace de chaque modèle pour plus de détails.

Combien de mémoire nécessite-t-il ?

De ~3 Mo (Silero VAD) à ~6,5 Go (PersonaPlex 7B). Utilisation typique :

Puis-je exécuter plusieurs modèles simultanément ?

Oui. Utilisez les modèles CoreML sur le Neural Engine en parallèle des modèles MLX sur le GPU pour éviter la contention — par exemple, Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX).

Existe-t-il une API REST ?

Oui. Le binaire audio-server expose tous les modèles via des endpoints HTTP REST et WebSocket, y compris un WebSocket compatible avec l'OpenAI Realtime API sur /v1/realtime. Voir la Référence CLI pour les commandes du serveur.

Comment l'installer ?

Homebrew :

brew tap soniqo/speech https://github.com/soniqo/speech-swift && brew install speech

Swift Package Manager :

.package(url: "https://github.com/soniqo/speech-swift", branch: "main")

Consultez le guide Premiers pas pour les instructions complètes.

Quels modèles de parole sont disponibles ?

Reconnaissance vocale : Qwen3-ASR (52 langues, MLX) et Parakeet TDT (25 langues, CoreML).

Synthèse vocale : Qwen3-TTS (streaming, 10 langues), CosyVoice3 (clonage vocal, 9 langues) et Kokoro-82M (compatible iOS, 50 voix, 10 langues).

Parole-à-parole : PersonaPlex 7B (dialogue full-duplex, 18 préréglages de voix).

Analyse audio : Silero + Pyannote VAD, diarisation de locuteurs (Pyannote + Sortformer), empreintes de locuteur WeSpeaker et suppression de bruit DeepFilterNet3.

LLM : Qwen3.5-0.8B Chat (embarqué, MLX INT4 + CoreML INT8, tokens en streaming).

Soniqo fonctionne-t-il sur Android ?

Oui. Le SDK speech-android fournit une API Kotlin avec ONNX Runtime et accélération matérielle NNAPI. Supporte arm64-v8a sur Android 8+ (API 26). Les modèles se téléchargent automatiquement depuis HuggingFace à la première utilisation (~1,2 Go). Voir Premiers pas — Android pour les instructions de configuration.

Soniqo fonctionne-t-il sur Linux ?

Oui. Le projet speech-android inclut une API C pour Linux embarqué et automobile (Yocto, edge devices). Utilise ONNX Runtime avec une accélération QNN optionnelle pour le matériel Qualcomm. Supporte ARM64 et x86_64. Voir Premiers pas — Linux pour les instructions de configuration.

Puis-je partager les modèles entre plateformes ?

Les modèles principaux (Parakeet, Kokoro, Silero, DeepFilter) utilisent le format ONNX sur Android et Linux. Apple utilise les formats CoreML/MLX. Mêmes poids sous-jacents, formats d'export différents optimisés pour l'accélération matérielle de chaque plateforme.