Speech Studio

แอป Mac โอเพนซอร์สสำหรับโคลนเสียงและสร้างบทสนทนาหลายผู้พูดในเครื่อง วางตัวอย่างเสียง โคลน เขียนซีน แล้วสังเคราะห์ — ทั้งหมดบนแล็ปท็อปของคุณ ไม่ต้องใช้ API key ไม่ต้องใช้คลาวด์ ไม่คิดค่าใช้จ่ายต่อตัวอักษร

github.com/soniqo/speech-studio Apache 2.0 ติดตั้ง

การทดสอบแบบบลายด์ 30 วินาที: เสียงจริง เสียงเดียวกันที่ Speech Studio โคลนในเครื่องบน MacBook และเสียงเดียวกันที่ ElevenLabs โคลนบนคลาวด์ คุณบอกได้ไหมว่าอันไหนคืออันไหน?

ทำอะไรได้

โคลนเสียงจากตัวอย่างสั้นๆ — วางเสียงพูดไม่กี่วินาที โคลนเสียงนั้นในเครื่อง
สร้างบทสนทนาหลายผู้พูด — เขียนซีนที่มีผู้พูดหลายคน สังเคราะห์ทั้งหมดในรอบเดียว
ทำงานบน Mac ของคุณทั้งหมด — VoxCPM2 ผ่าน MLX, DeepFilterNet3 สำหรับลดสัญญาณรบกวน ไม่ต้องใช้เครือข่าย
โอเพนซอร์สภายใต้ Apache 2.0 — fork, ฝัง, สร้างต่อยอด

ความต้องการของระบบ

macOS 15+ (Apple Silicon), Windows 10+ (x64) หรือ Linux (x64)
Apple Silicon บน Mac; CPU 64 บิตรุ่นใหม่ใดก็ได้บน Windows/Linux
RAM อย่างน้อย 8 GB (แนะนำ 16 GB)
เนื้อที่ดิสก์ราว 3–5 GB สำหรับโมเดลเสียงพูด (ดาวน์โหลดเมื่อรันครั้งแรก)

ติดตั้ง

ดาวน์โหลดบิลด์สำหรับแพลตฟอร์มของคุณจาก GitHub Releases — macOS .dmg, Windows .msi/.exe หรือ Linux .deb/.AppImage — แล้วเปิดใช้งาน:

↓ ดาวน์โหลดล่าสุด รุ่นทั้งหมด

บิลด์เหล่านี้ไม่ได้เซ็นลายเซ็น: บน macOS ให้เปิดด้วยการคลิกขวา → Open (หรือ System Settings → Privacy & Security → Open anyway); บน Windows เลือก More info → Run anyway ใน SmartScreen การเปิดครั้งแรกจะดาวน์โหลดโมเดลเสียงพูด VoxCPM2 (~2.75 GB บน macOS, ~4.6 GB บน Windows/Linux) แล้วแคชไว้ ครั้งต่อๆ ไปจะใช้แคชเดิม

ชอบ CLI มากกว่า?

ไปป์ไลน์โคลนเสียงเดียวกันมาพร้อมใน CLI ของ speech: brew install soniqo/tap/speech แล้ว speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — เหมาะสำหรับสคริปต์หรือพรีเรนเดอร์เป็นชุด ดูขั้นตอนเต็มได้ที่ คู่มือการโคลนเสียง

สถานะ

Speech Studio อยู่ในช่วง preview (v0.0.4) พร้อมตัวติดตั้งสำหรับ macOS, Windows, and Linux — macOS โคลนผ่าน MLX ส่วน Windows และ Linux ผ่านเอ็นจิน LiteRT VoxCPM2 ของ speech-core รีโป github.com/soniqo/speech-studio ติดตามแอป GUI กด star/watch เพื่อรับการแจ้งเตือนการปล่อยรุ่น

Runner Agent

Speech Studio สร้างและ clone เสียง ส่วน Runner ใช้ local speech stack เดียวกันเพื่อเชื่อม mic, VAD, speech-to-text, language model บนอุปกรณ์ และ Supertonic TTS เป็นผู้ช่วยเสียงแบบสด

เปิดหน้า Runner ดาวน์โหลด Runner DMG

สร้างบนอะไร

Speech Studio เป็น GUI บางๆ บน speech-swift ไลบรารี Swift โอเพนซอร์สที่จัดส่งทุกโมเดลที่ใช้ใน demo:

VoxCPM2 — โมเดลโคลนเสียง (zero-shot, อ้างอิงสั้น)
DeepFilterNet3 — ลดสัญญาณรบกวนทั้งตัวอย่างอ้างอิงและเอาต์พุตที่โคลน
Qwen3-ASR — จับคู่เสียงกับข้อความ (ใช้ในไปป์ไลน์การทดสอบบลายด์ของ demo)
Forced Alignment — เวลาประทับระดับคำสำหรับการแก้ไข
การโคลนเสียง คู่มือ — ภาพรวมไปป์ไลน์ทั้งหมด

โรดแมป

วันนี้: macOS, Windows, and Linux
ถัดไป: บิลด์ที่เซ็นลายเซ็น & ผ่านการรับรอง (ไม่มีข้อความแจ้ง Gatekeeper/SmartScreen)
หลังจากนั้น: พื้นที่แก้ไขที่ลึกขึ้น รองรับปลั๊กอินสำหรับโมเดลโคลนที่สับเปลี่ยนได้

ฟีดแบ็ก

เปิด issue ที่ github.com/soniqo/speech-studio/issues — ทุกรายการจะถูกอ่าน