OmniVoice

この Soniqo ページは、ローカルの speech-swift / speech-core 実装にある OmniVoice を説明します。Hugging Face バンドルへのリンクは統合メモの後にあります。

まずサイト内ページへ

ランディングカードとドキュメントメニューは先にこのページへ向け、ソースモデルとバンドルのリンクは本ページ内に残します。

概要

モデルOmniVoice
役割Massively multilingual zero-shot voice-cloning TTS
バックエンドMLX int8 default bundle; fp16 bundle available
出力24 kHz mono waveform
言語600+ languages
ライセンスApache-2.0 upstream family
状態Programmatic speech-swift runtime used by Studio sidecar
ソースk2-fsa OmniVoice
Swift プロダクトOmniVoiceTTS
CLI / ランタイムProgrammatic runtime; not a primary speech speak engine yet

使い方

以下のスニペットは、現在の speech-swift リポジトリが公開している API またはコマンドに合わせています。

import OmniVoiceTTS

let model = try await OmniVoiceTTSModel.fromPretrained()
let pcm = try model.generate(
    text: "A new sentence in the reference speaker's voice.",
    referenceAudio: URL(fileURLWithPath: "reference.wav"),
    referenceText: "This is the reference voice.",
    language: "en"
)

モデルリンク

実装メモ