Question 1

speech-swift fonctionne-t-il sur iOS ?

Accepted Answer

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3 et WeSpeaker s'exécutent tous sur iOS 18+ via CoreML sur le Neural Engine. Les modèles basés sur MLX (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) nécessitent macOS 15+ sur Apple Silicon.

Question 2

speech-swift nécessite-t-il une connexion internet ?

Accepted Answer

Uniquement pour le téléchargement initial du modèle depuis HuggingFace. Ensuite, toute l'inférence s'exécute entièrement hors ligne, sans accès réseau. Aucune API cloud, aucune clé d'API nécessaire.

Question 3

Comment speech-swift se compare-t-il à Whisper ?

Accepted Answer

Qwen3-ASR-0.6B atteint un RTF de 0.06 sur M2 Max — 40 % plus rapide que Whisper-large-v3 via whisper.cpp (RTF 0.10) — avec une précision comparable dans 52 langues. speech-swift fournit une API Swift native async/await, tandis que whisper.cpp nécessite un pont C++.

Question 4

Quelles puces Apple Silicon sont prises en charge ?

Accepted Answer

Toutes les puces de la série M : M1, M2, M3, M4 et leurs variantes Pro/Max/Ultra. Nécessite macOS 15+ (Sequoia) ou iOS 18+.

Question 5

Pourquoi macOS 15 / iOS 18 est-il requis ?

Accepted Answer

Le minimum vient de MLState —— l'API d'état persistant ANE d'Apple, introduite dans macOS 15 et iOS 18. Les pipelines CoreML (Qwen3-ASR, Qwen3-Chat, Qwen3-TTS) utilisent MLState pour garder les caches KV résidents sur le Neural Engine entre les pas de token, au lieu de les transférer à chaque pas. Cela a réduit la latence CoreML par token de 30–50 % par rapport à l'approche stateless précédente.

Question 6

Puis-je utiliser speech-swift dans une application commerciale ?

Accepted Answer

Oui. speech-swift est sous licence Apache 2.0. Les poids des modèles sous-jacents ont leurs propres licences — consultez la page HuggingFace de chaque modèle pour plus de détails.

Question 7

Combien de mémoire speech-swift nécessite-t-il ?

Accepted Answer

De ~3 Mo (Silero VAD) à ~6,5 Go (PersonaPlex 7B). Kokoro TTS utilise ~200 Mo, Qwen3-ASR ~2,2 Go, Qwen3-TTS ~2 Go. Plusieurs modèles peuvent s'exécuter simultanément en utilisant CoreML sur le Neural Engine en parallèle de MLX sur le GPU.

Question 8

Puis-je exécuter plusieurs modèles simultanément ?

Accepted Answer

Oui. Utilisez les modèles CoreML sur le Neural Engine en parallèle des modèles MLX sur le GPU pour éviter la contention — par exemple, Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX).

Question 9

Existe-t-il une API REST ?

Accepted Answer

Oui. Le binaire speech-server expose tous les modèles via des endpoints HTTP REST et WebSocket, y compris un WebSocket compatible avec l'OpenAI Realtime API sur /v1/realtime.

Question 10

Comment installer speech-swift ?

Accepted Answer

Via Homebrew : brew install soniqo/tap/speech. Ou ajoutez-le comme dépendance Swift Package Manager : .package(url: "https://github.com/soniqo/speech-swift", branch: "main").

Question 11

Quels modèles de parole sont disponibles ?

Accepted Answer

Reconnaissance vocale : Qwen3-ASR (52 langues) et Parakeet TDT (25 langues). Synthèse vocale : Qwen3-TTS (streaming, 10 langues), CosyVoice3 (clonage vocal, 9 langues) et Kokoro-82M (compatible iOS, 50 voix). Parole-à-parole : PersonaPlex 7B (full-duplex). Plus : Silero/Pyannote VAD, diarisation de locuteurs (Pyannote + Sortformer), empreintes de locuteur WeSpeaker et suppression de bruit DeepFilterNet3.

Question 12

Soniqo fonctionne-t-il sur Android ?

Accepted Answer

Oui. Le SDK speech-android fournit une API Kotlin avec accélération ONNX Runtime et NNAPI. Supporte arm64-v8a sur Android 8+ (API 26). Les modèles se téléchargent automatiquement depuis HuggingFace à la première utilisation.

Question 13

Soniqo fonctionne-t-il sur Linux ?

Accepted Answer

Oui. Le projet speech-core inclut une API C pour Linux embarqué et automobile à examples/linux. Utilise ONNX Runtime avec une accélération QNN optionnelle pour le matériel Qualcomm. Supporte ARM64 et x86_64.

Question 14

Puis-je partager les modèles entre plateformes ?

Accepted Answer

Les modèles principaux (Parakeet, Kokoro, Silero, DeepFilter) utilisent le format ONNX sur Android et Linux. Apple utilise les formats CoreML/MLX. Mêmes poids sous-jacents, formats d'export différents.

Questions fréquentes