Empezar

speech-swift proporciona procesamiento de voz con IA en el dispositivo para macOS e iOS sobre Apple Silicon. Los modelos se ejecutan localmente usando MLX (Metal GPU) y CoreML (Neural Engine).

Requisitos

Instalación

Swift Package Manager

Añade speech-swift a las dependencias de tu Package.swift:

dependencies: [
    .package(url: "https://github.com/soniqo/speech-swift", from: "0.0.9")
]

Luego añade los módulos que necesites a tu target:

.target(
    name: "MyApp",
    dependencies: [
        .product(name: "Qwen3ASR", package: "speech-swift"),
        .product(name: "Qwen3TTS", package: "speech-swift"),
        .product(name: "SpeechVAD", package: "speech-swift"),
        // ... add any modules you need
    ]
)

Módulos disponibles

MóduloDescripción
Qwen3ASRVoz a texto (Qwen3-ASR)
ParakeetASRVoz a texto (Parakeet TDT, CoreML)
Qwen3TTSTexto a voz (Qwen3-TTS)
CosyVoiceTTSTexto a voz (CosyVoice3, multilingüe)
KokoroTTSTexto a voz (Kokoro-82M, CoreML, listo para iOS)
Qwen3ChatChat LLM en el dispositivo (Qwen3.5-0.8B, MLX + CoreML)
PersonaPlexVoz a voz (PersonaPlex 7B)
SpeechVADVAD (Silero + Pyannote), diarización, embeddings de hablante
SpeechEnhancementSupresión de ruido (DeepFilterNet3, CoreML)
AudioCommonProtocolos compartidos, E/S de audio, descargador de HuggingFace

Compilar desde el código fuente

Clona el repositorio y compila:

git clone https://github.com/soniqo/speech-swift.git
cd speech-swift
make build
Importante

make build compila la librería de shaders MLX Metal automáticamente. Sin ella, la inferencia en GPU se ejecuta ~5x más lenta debido a la compilación JIT de shaders.

Inicio rápido: transcribir audio

CLI

# Transcribe un archivo WAV
.build/release/audio transcribe recording.wav

API de Swift

import Qwen3ASR

let model = try await Qwen3ASRModel.loadFromHub()
let result = try await model.transcribe(audioFile: "recording.wav")
print(result.text)

Los modelos se descargan automáticamente desde HuggingFace en el primer uso y se almacenan en ~/Library/Caches/qwen3-speech/.

Inicio rápido: texto a voz

CLI

# Generar voz
.build/release/audio speak "Hello, world!" --output hello.wav

API de Swift

import Qwen3TTS

let model = try await Qwen3TTSModel.loadFromHub()
let audio = try await model.speak("Hello, world!")
try audio.write(to: "hello.wav")

Descargas de modelos

Todos los modelos se descargan desde HuggingFace en el primer uso. Tamaños aproximados:

ModeloTamañoUso de RAM
Qwen3-ASR 0.6B (4-bit)680 MB~2.2 GB pico
Qwen3-ASR 0.6B (8-bit)1.0 GB~2.5 GB pico
Qwen3-ASR 1.7B (4-bit)2.1 GB~4 GB pico
Parakeet-TDT (CoreML INT8)500 MB~600 MB pico
Qwen3-TTS 0.6B (4-bit)1.7 GB~2 GB pico
Qwen3-TTS 1.7B (4-bit)3.2 GB~4 GB pico
CosyVoice3 (4-bit LLM)1.2 GB~1.5 GB pico
Kokoro-82M (CoreML INT8)89 MB~200 MB pico
Qwen3.5-Chat 0.8B (INT4 MLX)418 MB~700 MB pico
Qwen3.5-Chat 0.8B (INT8 CoreML)981 MB~1.2 GB pico
PersonaPlex 7B (8-bit) recomendado9.1 GB~11 GB pico
PersonaPlex 7B (4-bit)4.9 GB~6.5 GB pico
Pyannote VAD5.7 MB~20 MB pico
Silero VAD v51.2 MB~5 MB pico
WeSpeaker ResNet3425 MB~50 MB pico
DeepFilterNet3 (FP16)4.2 MB~10 MB pico

Próximos pasos