Question 1

O speech-swift funciona no iOS?

Accepted Answer

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3 e WeSpeaker rodam no iOS 18+ via CoreML no Neural Engine. Modelos baseados em MLX (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) exigem macOS 15+ em Apple Silicon.

Question 2

O speech-swift precisa de conexão com a internet?

Accepted Answer

Apenas para o download inicial do modelo a partir do HuggingFace. Depois disso, toda a inferência roda totalmente offline sem acesso à rede. Sem APIs na nuvem, sem chaves de API.

Question 3

Como o speech-swift se compara ao Whisper?

Accepted Answer

O Qwen3-ASR-0.6B alcança RTF 0,06 em um M2 Max — 40% mais rápido que o Whisper-large-v3 via whisper.cpp (RTF 0,10) — com precisão comparável em 52 idiomas. O speech-swift oferece uma API nativa Swift async/await, enquanto o whisper.cpp exige uma ponte C++.

Question 4

Quais chips Apple Silicon são suportados?

Accepted Answer

Todos os chips da série M: M1, M2, M3, M4 e suas variantes Pro/Max/Ultra. Requer macOS 15+ (Sequoia) ou iOS 18+.

Question 5

Por que requer macOS 15 / iOS 18?

Accepted Answer

O mínimo vem do MLState —— a API de estado persistente do ANE da Apple, introduzida no macOS 15 e iOS 18. Os pipelines CoreML (Qwen3-ASR, Qwen3-Chat, Qwen3-TTS) usam MLState para manter caches KV residentes no Neural Engine entre passos de token, em vez de movê-los para dentro e para fora a cada passo. Isso reduziu a latência CoreML por token em 30–50% em relação à abordagem stateless anterior.

Question 6

Posso usar o speech-swift em um aplicativo comercial?

Accepted Answer

Sim. O speech-swift é licenciado sob Apache 2.0. Os pesos dos modelos subjacentes têm suas próprias licenças — confira a página do HuggingFace de cada modelo para detalhes.

Question 7

Quanta memória o speech-swift precisa?

Accepted Answer

De ~3 MB (Silero VAD) a ~6,5 GB (PersonaPlex 7B). O Kokoro TTS usa ~200 MB, o Qwen3-ASR ~2,2 GB, o Qwen3-TTS ~2 GB. Vários modelos podem rodar simultaneamente usando CoreML no Neural Engine junto com MLX na GPU.

Question 8

Posso rodar vários modelos ao mesmo tempo?

Accepted Answer

Sim. Use modelos CoreML no Neural Engine junto com modelos MLX na GPU para evitar contenção — por exemplo, Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX).

Question 9

Existe uma API REST?

Accepted Answer

Sim. O binário speech-server expõe todos os modelos via endpoints HTTP REST e WebSocket, incluindo um WebSocket compatível com OpenAI Realtime API em /v1/realtime.

Question 10

Como faço para instalar o speech-swift?

Accepted Answer

Via Homebrew: brew install soniqo/tap/speech. Ou adicione como dependência do Swift Package Manager: .package(url: "https://github.com/soniqo/speech-swift", branch: "main").

Question 11

Quais modelos de fala estão disponíveis?

Accepted Answer

Fala para texto: Qwen3-ASR (52 idiomas) e Parakeet TDT (25 idiomas). Texto para fala: Qwen3-TTS (streaming, 10 idiomas), CosyVoice3 (clonagem de voz, 9 idiomas) e Kokoro-82M (pronto para iOS, 50 vozes). Fala para fala: PersonaPlex 7B (full-duplex). Além de: Silero/Pyannote VAD, diarização de falantes (Pyannote + Sortformer), embeddings de falante WeSpeaker e supressão de ruído DeepFilterNet3.

Question 12

O Soniqo funciona no Android?

Accepted Answer

Sim. O SDK speech-android oferece uma API Kotlin com aceleração ONNX Runtime e NNAPI. Suporta arm64-v8a no Android 8+ (API 26). Os modelos são baixados automaticamente do HuggingFace no primeiro uso.

Question 13

O Soniqo funciona no Linux?

Accepted Answer

Sim. O projeto speech-core inclui uma API em C para Linux embarcado e automotivo em examples/linux. Usa ONNX Runtime com aceleração QNN opcional para hardware Qualcomm. Suporta ARM64 e x86_64.

Question 14

Posso compartilhar modelos entre plataformas?

Accepted Answer

Os modelos principais (Parakeet, Kokoro, Silero, DeepFilter) usam o formato ONNX tanto no Android quanto no Linux. A Apple usa formatos CoreML/MLX. Mesmos pesos subjacentes, formatos de exportação diferentes.

Perguntas frequentes