Häufig gestellte Fragen

Funktioniert speech-swift unter iOS?

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3 und WeSpeaker laufen alle unter iOS 18+ über CoreML auf der Neural Engine. MLX-basierte Modelle (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) benötigen macOS 15+ auf Apple Silicon.

Benötigt es eine Internetverbindung?

Nur für den initialen Modell-Download von HuggingFace (automatisch, zwischengespeichert in ~/Library/Caches/qwen3-speech/). Danach läuft die gesamte Inferenz vollständig offline ohne Netzwerkzugriff. Keine Cloud-APIs, keine API-Schlüssel erforderlich.

Wie schneidet speech-swift im Vergleich zu Whisper ab?

Qwen3-ASR-0.6B erreicht RTF 0.06 auf dem M2 Max — 40 % schneller als Whisper-large-v3 über whisper.cpp (RTF 0.10) — bei vergleichbarer Genauigkeit in 52 Sprachen. speech-swift bietet eine native Swift-async/await-API, während whisper.cpp eine C++-Brücke erfordert.

Siehe die vollständigen Vergleichstabellen für ASR- und TTS-Benchmarks gegenüber whisper.cpp, Apple SFSpeechRecognizer, AVSpeechSynthesizer und Cloud-APIs.

Welche Apple-Silicon-Chips werden unterstützt?

Alle M-Chips: M1, M2, M3, M4 und ihre Pro/Max/Ultra-Varianten. Erfordert macOS 15+ (Sequoia) oder iOS 18+.

Warum wird macOS 15 / iOS 18 benötigt?

Die Mindestanforderung kommt von MLState —— Apples persistenter ANE-State-API, eingeführt in macOS 15 und iOS 18. Die CoreML-Pipelines (Qwen3-ASR, Qwen3-Chat, Qwen3-TTS) nutzen MLState, um KV-Caches zwischen Token-Schritten auf der Neural Engine zu halten, statt sie bei jedem Schritt hinein- und herauszuschieben. Das reduzierte die CoreML-Latenz pro Token um 30–50 % gegenüber dem früheren zustandslosen Ansatz.

Kann ich es in einer kommerziellen App verwenden?

Ja. speech-swift ist unter Apache 2.0 lizenziert. Die zugrundeliegenden Modellgewichte haben eigene Lizenzen — siehe die HuggingFace-Seite des jeweiligen Modells für Details.

Wie viel Speicher wird benötigt?

Von ~3 MB (Silero VAD) bis ~6,5 GB (PersonaPlex 7B). Typische Nutzung:

Kann ich mehrere Modelle gleichzeitig ausführen?

Ja. Nutze CoreML-Modelle auf der Neural Engine parallel zu MLX-Modellen auf der GPU, um Ressourcenkonflikte zu vermeiden — etwa Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX).

Gibt es eine REST-API?

Ja. Die speech-server-Binary stellt alle Modelle über HTTP-REST- und WebSocket-Endpunkte bereit, einschließlich eines mit der OpenAI Realtime API kompatiblen WebSocket unter /v1/realtime. Siehe die CLI-Referenz für Server-Befehle.

Wie installiere ich es?

Homebrew:

brew install soniqo/tap/speech

Installiert sowohl die speech-CLI als auch den HTTP/WebSocket-Server speech-server in deinen PATH.

Swift Package Manager:

.package(url: "https://github.com/soniqo/speech-swift", branch: "main")

Siehe die Anleitung Erste Schritte für vollständige Anweisungen.

Welche Sprachmodelle sind verfügbar?

Sprache zu Text: Qwen3-ASR (52 Sprachen, MLX) und Parakeet TDT (25 Sprachen, CoreML).

Text zu Sprache: Qwen3-TTS (Streaming, 10 Sprachen), CosyVoice3 (Stimmklonen, 9 Sprachen) und Kokoro-82M (iOS-tauglich, 50 Stimmen, 10 Sprachen).

Sprache zu Sprache: PersonaPlex 7B (Vollduplex-Dialog, 18 Stimmvoreinstellungen).

Audioanalyse: Silero + Pyannote VAD, Sprecherdiarisierung (Pyannote + Sortformer), WeSpeaker-Sprechereinbettungen und DeepFilterNet3-Rauschunterdrückung.

LLM: Qwen3.5-0.8B Chat (auf dem Gerät, INT4 MLX + INT8 CoreML, Token-Streaming).

Funktioniert Soniqo unter Android?

Ja. Das speech-android-SDK bietet eine Kotlin-API mit ONNX Runtime und NNAPI-Hardware-Beschleunigung. Unterstützt arm64-v8a auf Android 8+ (API 26). Modelle werden beim ersten Gebrauch automatisch von HuggingFace heruntergeladen (~1,2 GB). Siehe Erste Schritte — Android für Einrichtungsanweisungen.

Funktioniert Soniqo unter Linux?

Ja. Das speech-core-Projekt enthält eine C-API für embedded- und Automotive-Linux (Yocto, Edge-Geräte) unter examples/linux. Verwendet ONNX Runtime mit optionaler QNN-Beschleunigung für Qualcomm-Hardware. Unterstützt ARM64 und x86_64. Siehe Erste Schritte — Linux für Einrichtungsanweisungen.

Kann ich Modelle zwischen Plattformen teilen?

Die Kernmodelle (Parakeet, Kokoro, Silero, DeepFilter) verwenden das ONNX-Format unter Android und Linux. Apple nutzt CoreML/MLX-Formate. Gleiche zugrundeliegende Gewichte, verschiedene Exportformate, die für die Hardware-Beschleunigung der jeweiligen Plattform optimiert sind.