Question 1

¿Funciona speech-swift en iOS?

Accepted Answer

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3 y WeSpeaker se ejecutan en iOS 18+ mediante CoreML en el Neural Engine. Los modelos basados en MLX (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) requieren macOS 15+ en Apple Silicon.

Question 2

¿Necesita speech-swift conexión a internet?

Accepted Answer

Solo para la descarga inicial del modelo desde HuggingFace. Después, toda la inferencia se ejecuta completamente sin conexión y sin acceso a la red. Sin APIs en la nube, sin claves de API.

Question 3

¿Cómo se compara speech-swift con Whisper?

Accepted Answer

Qwen3-ASR-0.6B alcanza un RTF de 0.06 en M2 Max — un 40% más rápido que Whisper-large-v3 a través de whisper.cpp (RTF 0.10) — con una precisión comparable en 52 idiomas. speech-swift ofrece una API Swift nativa async/await, mientras que whisper.cpp requiere un puente C++.

Question 4

¿Qué chips de Apple Silicon son compatibles?

Accepted Answer

Todos los chips de la serie M: M1, M2, M3, M4 y sus variantes Pro/Max/Ultra. Requiere macOS 15+ (Sequoia) o iOS 18+.

Question 5

¿Por qué requiere macOS 15 / iOS 18?

Accepted Answer

El mínimo viene de MLState —— la API de estado persistente de ANE de Apple, introducida en macOS 15 e iOS 18. Los pipelines CoreML (Qwen3-ASR, Qwen3-Chat, Qwen3-TTS) usan MLState para mantener las cachés KV residentes en el Neural Engine entre pasos de token, en lugar de moverlas dentro y fuera en cada paso. Esto redujo la latencia CoreML por token en un 30–50% frente al enfoque stateless anterior.

Question 6

¿Puedo usar speech-swift en una aplicación comercial?

Accepted Answer

Sí. speech-swift está licenciado bajo Apache 2.0. Los pesos de los modelos subyacentes tienen sus propias licencias — consulta la página de HuggingFace de cada modelo para más detalles.

Question 7

¿Cuánta memoria necesita speech-swift?

Accepted Answer

Desde ~3 MB (Silero VAD) hasta ~6.5 GB (PersonaPlex 7B). Kokoro TTS usa ~200 MB, Qwen3-ASR ~2.2 GB, Qwen3-TTS ~2 GB. Se pueden ejecutar varios modelos a la vez usando CoreML en el Neural Engine junto con MLX en la GPU.

Question 8

¿Puedo ejecutar varios modelos simultáneamente?

Accepted Answer

Sí. Usa modelos CoreML en el Neural Engine junto con modelos MLX en la GPU para evitar contención — por ejemplo, Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX).

Question 9

¿Existe una API REST?

Accepted Answer

Sí. El binario speech-server expone todos los modelos a través de endpoints HTTP REST y WebSocket, incluyendo un WebSocket compatible con OpenAI Realtime API en /v1/realtime.

Question 10

¿Cómo instalo speech-swift?

Accepted Answer

Vía Homebrew: brew install soniqo/tap/speech. O añádelo como dependencia de Swift Package Manager: .package(url: "https://github.com/soniqo/speech-swift", branch: "main").

Question 11

¿Qué modelos de voz están disponibles?

Accepted Answer

Voz a texto: Qwen3-ASR (52 idiomas) y Parakeet TDT (25 idiomas). Texto a voz: Qwen3-TTS (streaming, 10 idiomas), CosyVoice3 (clonación de voz, 9 idiomas) y Kokoro-82M (listo para iOS, 50 voces). Voz a voz: PersonaPlex 7B (full-duplex). Además: VAD Silero/Pyannote, diarización de hablantes (Pyannote + Sortformer), embeddings de hablante WeSpeaker y supresión de ruido DeepFilterNet3.

Question 12

¿Funciona Soniqo en Android?

Accepted Answer

Sí. El SDK speech-android proporciona una API Kotlin con aceleración mediante ONNX Runtime y NNAPI. Soporta arm64-v8a en Android 8+ (API 26). Los modelos se descargan automáticamente desde HuggingFace en el primer uso.

Question 13

¿Funciona Soniqo en Linux?

Accepted Answer

Sí. El proyecto speech-core incluye una API en C para Linux embebido y de automoción en examples/linux. Usa ONNX Runtime con aceleración QNN opcional para hardware Qualcomm. Soporta ARM64 y x86_64.

Question 14

¿Puedo compartir modelos entre plataformas?

Accepted Answer

Los modelos principales (Parakeet, Kokoro, Silero, DeepFilter) usan el formato ONNX tanto en Android como en Linux. Apple usa los formatos CoreML/MLX. Mismos pesos subyacentes, distintos formatos de exportación.

Preguntas frecuentes