Häufig gestellte Fragen

Funktioniert speech-swift unter iOS?

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3 und WeSpeaker laufen alle unter iOS 17+ über CoreML auf der Neural Engine. MLX-basierte Modelle (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) benötigen macOS 14+ auf Apple Silicon.

Benötigt es eine Internetverbindung?

Nur für den initialen Modell-Download von HuggingFace (automatisch, zwischengespeichert in ~/Library/Caches/qwen3-speech/). Danach läuft die gesamte Inferenz vollständig offline ohne Netzwerkzugriff. Keine Cloud-APIs, keine API-Schlüssel erforderlich.

Wie schneidet speech-swift im Vergleich zu Whisper ab?

Qwen3-ASR-0.6B erreicht RTF 0.06 auf dem M2 Max — 40 % schneller als Whisper-large-v3 über whisper.cpp (RTF 0.10) — bei vergleichbarer Genauigkeit in 52 Sprachen. speech-swift bietet eine native Swift-async/await-API, während whisper.cpp eine C++-Brücke erfordert.

Siehe die vollständigen Vergleichstabellen für ASR- und TTS-Benchmarks gegenüber whisper.cpp, Apple SFSpeechRecognizer, AVSpeechSynthesizer und Cloud-APIs.

Welche Apple-Silicon-Chips werden unterstützt?

Alle M-Chips: M1, M2, M3, M4 und ihre Pro/Max/Ultra-Varianten. Erfordert macOS 14+ (Sonoma) oder iOS 17+.

Kann ich es in einer kommerziellen App verwenden?

Ja. speech-swift ist unter Apache 2.0 lizenziert. Die zugrundeliegenden Modellgewichte haben eigene Lizenzen — siehe die HuggingFace-Seite des jeweiligen Modells für Details.

Wie viel Speicher wird benötigt?

Von ~3 MB (Silero VAD) bis ~6,5 GB (PersonaPlex 7B). Typische Nutzung:

Kann ich mehrere Modelle gleichzeitig ausführen?

Ja. Nutze CoreML-Modelle auf der Neural Engine parallel zu MLX-Modellen auf der GPU, um Ressourcenkonflikte zu vermeiden — etwa Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX).

Gibt es eine REST-API?

Ja. Die audio-server-Binary stellt alle Modelle über HTTP-REST- und WebSocket-Endpunkte bereit, einschließlich eines mit der OpenAI Realtime API kompatiblen WebSocket unter /v1/realtime. Siehe die CLI-Referenz für Server-Befehle.

Wie installiere ich es?

Homebrew:

brew tap soniqo/speech https://github.com/soniqo/speech-swift && brew install speech

Swift Package Manager:

.package(url: "https://github.com/soniqo/speech-swift", branch: "main")

Siehe die Anleitung Erste Schritte für vollständige Anweisungen.

Welche Sprachmodelle sind verfügbar?

Sprache zu Text: Qwen3-ASR (52 Sprachen, MLX) und Parakeet TDT (25 Sprachen, CoreML).

Text zu Sprache: Qwen3-TTS (Streaming, 10 Sprachen), CosyVoice3 (Stimmklonen, 9 Sprachen) und Kokoro-82M (iOS-tauglich, 50 Stimmen, 10 Sprachen).

Sprache zu Sprache: PersonaPlex 7B (Vollduplex-Dialog, 18 Stimmvoreinstellungen).

Audioanalyse: Silero + Pyannote VAD, Sprecherdiarisierung (Pyannote + Sortformer), WeSpeaker-Sprechereinbettungen und DeepFilterNet3-Rauschunterdrückung.

LLM: Qwen3.5-0.8B Chat (auf dem Gerät, INT4 MLX + INT8 CoreML, Token-Streaming).

Funktioniert Soniqo unter Android?

Ja. Das speech-android-SDK bietet eine Kotlin-API mit ONNX Runtime und NNAPI-Hardware-Beschleunigung. Unterstützt arm64-v8a auf Android 8+ (API 26). Modelle werden beim ersten Gebrauch automatisch von HuggingFace heruntergeladen (~1,2 GB). Siehe Erste Schritte — Android für Einrichtungsanweisungen.

Funktioniert Soniqo unter Linux?

Ja. Das speech-android-Projekt enthält eine C-API für embedded- und Automotive-Linux (Yocto, Edge-Geräte). Verwendet ONNX Runtime mit optionaler QNN-Beschleunigung für Qualcomm-Hardware. Unterstützt ARM64 und x86_64. Siehe Erste Schritte — Linux für Einrichtungsanweisungen.

Kann ich Modelle zwischen Plattformen teilen?

Die Kernmodelle (Parakeet, Kokoro, Silero, DeepFilter) verwenden das ONNX-Format unter Android und Linux. Apple nutzt CoreML/MLX-Formate. Gleiche zugrundeliegende Gewichte, verschiedene Exportformate, die für die Hardware-Beschleunigung der jeweiligen Plattform optimiert sind.