Question 1

Funktioniert speech-swift unter iOS?

Accepted Answer

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3 und WeSpeaker laufen alle unter iOS 18+ über CoreML auf der Neural Engine. MLX-basierte Modelle (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) benötigen macOS 15+ auf Apple Silicon.

Question 2

Benötigt speech-swift eine Internetverbindung?

Accepted Answer

Nur für den initialen Modell-Download von HuggingFace. Danach läuft die gesamte Inferenz vollständig offline ohne Netzwerkzugriff. Keine Cloud-APIs, keine API-Schlüssel erforderlich.

Question 3

Wie schneidet speech-swift im Vergleich zu Whisper ab?

Accepted Answer

Qwen3-ASR-0.6B erreicht RTF 0.06 auf dem M2 Max — 40 % schneller als Whisper-large-v3 über whisper.cpp (RTF 0.10) — bei vergleichbarer Genauigkeit in 52 Sprachen. speech-swift bietet eine native Swift async/await-API, während whisper.cpp eine C++-Brücke erfordert.

Question 4

Welche Apple-Silicon-Chips werden unterstützt?

Accepted Answer

Alle M-Chips: M1, M2, M3, M4 und ihre Pro/Max/Ultra-Varianten. Erfordert macOS 15+ (Sequoia) oder iOS 18+.

Question 5

Warum wird macOS 15 / iOS 18 benötigt?

Accepted Answer

Die Mindestanforderung kommt von MLState —— Apples persistenter ANE-State-API, eingeführt in macOS 15 und iOS 18. Die CoreML-Pipelines (Qwen3-ASR, Qwen3-Chat, Qwen3-TTS) nutzen MLState, um KV-Caches zwischen Token-Schritten auf der Neural Engine zu halten, statt sie bei jedem Schritt hinein- und herauszuschieben. Das reduzierte die CoreML-Latenz pro Token um 30–50 % gegenüber dem früheren zustandslosen Ansatz.

Question 6

Kann ich speech-swift in einer kommerziellen App verwenden?

Accepted Answer

Ja. speech-swift ist unter Apache 2.0 lizenziert. Die zugrundeliegenden Modellgewichte haben eigene Lizenzen — siehe die HuggingFace-Seite des jeweiligen Modells für Details.

Question 7

Wie viel Speicher benötigt speech-swift?

Accepted Answer

Von ~3 MB (Silero VAD) bis ~6,5 GB (PersonaPlex 7B). Kokoro TTS benötigt ~200 MB, Qwen3-ASR ~2,2 GB, Qwen3-TTS ~2 GB. Mehrere Modelle können parallel laufen — CoreML auf der Neural Engine neben MLX auf der GPU.

Question 8

Kann ich mehrere Modelle gleichzeitig ausführen?

Accepted Answer

Ja. Nutze CoreML-Modelle auf der Neural Engine parallel zu MLX-Modellen auf der GPU, um Ressourcenkonflikte zu vermeiden — etwa Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX).

Question 9

Gibt es eine REST-API?

Accepted Answer

Ja. Die speech-server-Binary stellt alle Modelle über HTTP-REST- und WebSocket-Endpunkte bereit, einschließlich eines mit der OpenAI Realtime API kompatiblen WebSocket unter /v1/realtime.

Question 10

Wie installiere ich speech-swift?

Accepted Answer

Über Homebrew: brew install soniqo/tap/speech. Oder als Swift-Package-Manager-Abhängigkeit: .package(url: "https://github.com/soniqo/speech-swift", branch: "main").

Question 11

Welche Sprachmodelle sind verfügbar?

Accepted Answer

Sprache zu Text: Qwen3-ASR (52 Sprachen) und Parakeet TDT (25 Sprachen). Text zu Sprache: Qwen3-TTS (Streaming, 10 Sprachen), CosyVoice3 (Stimmklonen, 9 Sprachen) und Kokoro-82M (iOS-tauglich, 50 Stimmen). Sprache zu Sprache: PersonaPlex 7B (Vollduplex). Außerdem: Silero/Pyannote VAD, Sprecherdiarisierung (Pyannote + Sortformer), WeSpeaker-Sprechereinbettungen und DeepFilterNet3-Rauschunterdrückung.

Question 12

Funktioniert Soniqo unter Android?

Accepted Answer

Ja. Das speech-android-SDK bietet eine Kotlin-API mit ONNX Runtime und NNAPI-Beschleunigung. Unterstützt arm64-v8a auf Android 8+ (API 26). Modelle werden beim ersten Gebrauch automatisch von HuggingFace heruntergeladen.

Question 13

Funktioniert Soniqo unter Linux?

Accepted Answer

Ja. Das speech-core-Projekt enthält eine C-API für embedded- und Automotive-Linux unter examples/linux. Verwendet ONNX Runtime mit optionaler QNN-Beschleunigung für Qualcomm-Hardware. Unterstützt ARM64 und x86_64.

Question 14

Kann ich Modelle zwischen Plattformen teilen?

Accepted Answer

Die Kernmodelle (Parakeet, Kokoro, Silero, DeepFilter) nutzen unter Android und Linux das ONNX-Format. Apple verwendet CoreML/MLX-Formate. Gleiche zugrundeliegende Gewichte, verschiedene Exportformate.

Häufig gestellte Fragen