Questions fréquentes

speech-swift fonctionne-t-il sur iOS ?

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3 et WeSpeaker s'exécutent tous sur iOS 18+ via CoreML sur le Neural Engine. Les modèles basés sur MLX (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) nécessitent macOS 15+ sur Apple Silicon.

Nécessite-t-il une connexion internet ?

Uniquement pour le téléchargement initial du modèle depuis HuggingFace (automatique, mis en cache dans ~/Library/Caches/qwen3-speech/). Ensuite, toute l'inférence s'exécute entièrement hors ligne, sans accès réseau. Aucune API cloud, aucune clé d'API nécessaire.

Comment speech-swift se compare-t-il à Whisper ?

Qwen3-ASR-0.6B atteint un RTF de 0.06 sur M2 Max — 40 % plus rapide que Whisper-large-v3 via whisper.cpp (RTF 0.10) — avec une précision comparable dans 52 langues. speech-swift fournit une API Swift native async/await, tandis que whisper.cpp nécessite un pont C++.

Consultez les tableaux de comparaison complets pour les benchmarks ASR et TTS face à whisper.cpp, Apple SFSpeechRecognizer, AVSpeechSynthesizer et aux API cloud.

Quelles puces Apple Silicon sont prises en charge ?

Toutes les puces de la série M : M1, M2, M3, M4 et leurs variantes Pro/Max/Ultra. Nécessite macOS 15+ (Sequoia) ou iOS 18+.

Pourquoi macOS 15 / iOS 18 est-il requis ?

Le minimum vient de MLState —— l'API d'état persistant ANE d'Apple, introduite dans macOS 15 et iOS 18. Les pipelines CoreML (Qwen3-ASR, Qwen3-Chat, Qwen3-TTS) utilisent MLState pour garder les caches KV résidents sur le Neural Engine entre les pas de token, au lieu de les transférer à chaque pas. Cela a réduit la latence CoreML par token de 30–50 % par rapport à l'approche stateless précédente.

Puis-je l'utiliser dans une application commerciale ?

Oui. speech-swift est sous licence Apache 2.0. Les poids des modèles sous-jacents ont leurs propres licences — consultez la page HuggingFace de chaque modèle pour plus de détails.

Combien de mémoire nécessite-t-il ?

De ~3 Mo (Silero VAD) à ~6,5 Go (PersonaPlex 7B). Utilisation typique :

Puis-je exécuter plusieurs modèles simultanément ?

Oui. Utilisez les modèles CoreML sur le Neural Engine en parallèle des modèles MLX sur le GPU pour éviter la contention — par exemple, Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX).

Existe-t-il une API REST ?

Oui. Le binaire speech-server expose tous les modèles via des endpoints HTTP REST et WebSocket, y compris un WebSocket compatible avec l'OpenAI Realtime API sur /v1/realtime. Voir la Référence CLI pour les commandes du serveur.

Comment l'installer ?

Homebrew :

brew install soniqo/tap/speech

Installe à la fois la CLI speech et le serveur HTTP/WebSocket speech-server dans votre PATH.

Swift Package Manager :

.package(url: "https://github.com/soniqo/speech-swift", branch: "main")

Consultez le guide Premiers pas pour les instructions complètes.

Quels modèles de parole sont disponibles ?

Reconnaissance vocale : Qwen3-ASR (52 langues, MLX) et Parakeet TDT (25 langues, CoreML).

Synthèse vocale : Qwen3-TTS (streaming, 10 langues), CosyVoice3 (clonage vocal, 9 langues) et Kokoro-82M (compatible iOS, 50 voix, 10 langues).

Parole-à-parole : PersonaPlex 7B (dialogue full-duplex, 18 préréglages de voix).

Analyse audio : Silero + Pyannote VAD, diarisation de locuteurs (Pyannote + Sortformer), empreintes de locuteur WeSpeaker et suppression de bruit DeepFilterNet3.

LLM : Qwen3.5-0.8B Chat (embarqué, MLX INT4 + CoreML INT8, tokens en streaming).

Soniqo fonctionne-t-il sur Android ?

Oui. Le SDK speech-android fournit une API Kotlin avec ONNX Runtime et accélération matérielle NNAPI. Supporte arm64-v8a sur Android 8+ (API 26). Les modèles se téléchargent automatiquement depuis HuggingFace à la première utilisation (~1,2 Go). Voir Premiers pas — Android pour les instructions de configuration.

Soniqo fonctionne-t-il sur Linux ?

Oui. Le projet speech-core inclut une API C pour Linux embarqué et automobile (Yocto, edge devices) à examples/linux. Utilise ONNX Runtime avec une accélération QNN optionnelle pour le matériel Qualcomm. Supporte ARM64 et x86_64. Voir Premiers pas — Linux pour les instructions de configuration.

Puis-je partager les modèles entre plateformes ?

Les modèles principaux (Parakeet, Kokoro, Silero, DeepFilter) utilisent le format ONNX sur Android et Linux. Apple utilise les formats CoreML/MLX. Mêmes poids sous-jacents, formats d'export différents optimisés pour l'accélération matérielle de chaque plateforme.