Speech Core

Moteur vocal C++17 open source pour les agents vocaux — détection d’activité vocale, reconnaissance vocale par lots et en streaming temps réel, diarisation de locuteurs et synthèse vocale, le tout exécuté en local sur Linux, Windows et Android. Apache 2.0.

github.com/soniqo/speech-core 🤗 Modèles Discord Apache 2.0

Ce que c’est

Speech Core est un petit cœur d’orchestration — machine à états, détection de tour de parole, gestion des interruptions, utilitaires audio, sans aucune dépendance ML — accompagné d’un ensemble d’interfaces abstraites pour les modèles de parole. L’inférence s’exécute localement sur CPU ; l’audio ne quitte jamais la machine, et il n’y a pas de Python au moment de l’inférence. L’inférence des modèles est optionnelle, via deux backends interchangeables que vous pouvez activer indépendamment — ou apportez vos propres implémentations des interfaces.

Orchestration d’agents vocaux — VoicePipeline compose VAD, STT en streaming, un LLM et un TTS en une boucle d’agent full-duplex avec barge-in, détection de tour de parole et boucle d’appels d’outils. Voir docs/pipeline.md et la vue d’ensemble des agents vocaux.
Diarisation de locuteurs en C++ pur — DiarizationPipeline compose un segmenteur et un extracteur d’embeddings pour produire des segments étiquetés par locuteur, sans dépendance propre à un runtime ML.
Propulse le reste de la pile — speech-android est un SDK Kotlin + pont JNI au-dessus de Speech Core, et Speech Studio utilise son moteur LiteRT VoxCPM2 sous Windows et Linux. Sur les plateformes Apple, la bibliothèque sœur est speech-swift.

Plateformes et backends

Backend	Plateformes	Accélération matérielle
ONNX Runtime (`SPEECH_CORE_WITH_ONNX`)	Linux, macOS, Windows, Android	NNAPI sur Android, QNN sur Linux Qualcomm, NVIDIA CUDA / TensorRT en option (`-DSPEECH_CORE_WITH_CUDA=ON`)
LiteRT (`SPEECH_CORE_WITH_LITERT`)	Linux x86_64, Windows x86_64, Android, macOS arm64	CPU pour l’instant

Activez l’un des backends, les deux, ou aucun — le cœur d’orchestration se compile sans aucun runtime ML.

Modèles pris en charge

Modèle	Tâche	ONNX	LiteRT
Silero VAD v5	Détection d’activité vocale	✓	✓
Parakeet TDT v3 (0.6B)	Reconnaissance vocale (114 langues)	✓	✓
Nemotron Speech Streaming (0.6B)	Reconnaissance vocale en streaming (anglais)	✓	✓
Nemotron-3.5 ASR Streaming Multilingual (0.6B)	Reconnaissance vocale en streaming (multilingue, conditionnée par prompt)	✓	✓
Whisper Small v3	reconnaissance vocale (Whisper v3 multilingue)	✓	—
Whisper Medium v3	reconnaissance vocale (Whisper v3 multilingue)	✓	—
Whisper Large v3	reconnaissance vocale (Whisper v3 multilingue)	✓	—
Whisper Large-v3 Turbo	reconnaissance vocale (Whisper v3 multilingue)	✓	—
Omnilingual ASR CTC (300M)	Reconnaissance vocale (multilingue)	—	✓
Pyannote Segmentation 3.0	Diarisation (segmentation)	—	✓
WeSpeaker ResNet34-LM	Empreinte de locuteur	—	✓
VoxCPM2 (2B)	Synthèse vocale (48 kHz, clonage vocal)	—	✓
Kokoro 82M	Synthèse vocale	✓	—
Pocket TTS 100M	Synthèse vocale en streaming (anglais, voix Alba fixe)	✓	—
DeepFilterNet3	Amélioration de la parole	✓	—
PersonaPlex 7B	Parole-à-parole full-duplex (CUDA)	✓	—

Démarrage rapide

Compilez le cœur plus le backend LiteRT (la bibliothèque d’exécution est extraite du wheel ai-edge-litert — pas de compilation de TensorFlow) :

git clone https://github.com/soniqo/speech-core && cd speech-core
scripts/fetch_litert.sh build/litert
cmake -B build -DCMAKE_BUILD_TYPE=Release \
    -DSPEECH_CORE_WITH_LITERT=ON -DLITERT_DIR=$PWD/build/litert
cmake --build build

Puis liez les cibles dont vous avez besoin :

target_link_libraries(my_app PRIVATE speech_core)                            # orchestration only
target_link_libraries(my_app PRIVATE speech_core speech_core_models)         # + ONNX models
target_link_libraries(my_app PRIVATE speech_core speech_core_models_litert)  # + LiteRT models

Transcrire un buffer audio tient en quelques lignes :

#include <speech_core/models/litert_parakeet_stt.h>

speech_core::LiteRTParakeetStt stt(
    "parakeet-encoder.tflite", "parakeet-decoder-joint.tflite", "vocab.json");

auto r = stt.transcribe(audio, n_samples, 16000);   // r.text / r.language / r.confidence

Linux embarqué et automobile

Un build Linux de référence — libspeech.so avec une petite ABI C, une CLI de démonstration ALSA et des outils transcribe/synthesize/phonemize — se trouve dans examples/linux. Il cible l’ARM64 embarqué (Yocto, Qualcomm SA8295P / SA8255P) et toute machine de développement Linux. Les étapes d’installation sont dans le guide de premiers pas Linux.

Vous développez pour Android ou Apple ?

Sur Android, utilisez speech-android — un SDK Kotlin qui empaquette Speech Core derrière un pont JNI (implementation("audio.soniqo:speech:0.0.9")). Sur macOS et iOS, utilisez speech-swift, qui exécute les modèles sur CoreML, MLX et l’Apple Neural Engine.

Documentation

docs/ — documentation complète dans le dépôt
docs/pipeline.md — la machine à états VoicePipeline, l’intégration AEC et la boucle d’appels d’outils
docs/models.md — inventaire complet des modèles
Soniqo ONNX collection — Whisper, Kokoro, DeepFilterNet3, PersonaPlex, and other ONNX bundles
huggingface.co/soniqo — poids de modèles convertis (ONNX, LiteRT)

Retours

Ouvrez un issue à l’adresse github.com/soniqo/speech-core/issues, ou rejoignez le Discord.