โอเพนซอร์ส · Apache 2.0 · ทำงานออฟไลน์ทั้งหมด

เสียงพูดบนอุปกรณ์
สำหรับผลิตภัณฑ์จริง

การถอดเสียงพร้อมแยกผู้พูด การโคลนเสียงแบบ zero-shot และการสังเคราะห์เสียงพูดยาว — ทำงานบน Apple Silicon, Android, Windows และ Linux แบบฝังตัว ไม่ต้องใช้ API บนคลาวด์ ไม่มีการคิดเงินรายนาที และไม่มีข้อมูลออกจากอุปกรณ์

เริ่มต้น GitHub

Apple · Homebrew

brew install speech

Android · Gradle

implementation("audio.soniqo:speech:0.0.9")

บทความบล็อกล่าสุด

เสียงพูดบนอุปกรณ์สำหรับผลิตภัณฑ์จริง

เบนช์มาร์ก บันทึกโมเดล และรายละเอียดการนำขึ้นใช้งานจาก Soniqo

บทความทั้งหมด

7 กรกฎาคม 2026 · บล็อก Soniqo

ดู

Speech AI แบบโลคัลบน MacBook

ทัวร์ไลบรารีโอเพนซอร์สสี่นาที: การถอดเสียงเรียลไทม์ด้วย Nemotron Streaming, speech-to-speech โลคัลด้วย PersonaPlex, และการโคลนเสียงที่ 48 kHz ด้วย VoxCPM2 — ทุกการสาธิตรันบนแล็ปท็อป

ดูบน YouTube

สิ่งที่คุณสร้างได้

สามกลุ่มกรณีใช้งานบนอุปกรณ์

แต่ละกลุ่มครอบคลุมหลายกรณีย่อยที่ประกอบขึ้นจากคอมโพเนนต์ของ Soniqo ส่งเสียงเข้ามา แล้วได้บทสนทนา ข้อความถอด หรือเสียงที่สร้างขึ้น — แบบโลคัล เรียลไทม์

การสนทนา

เอเจนต์เสียง

สร้างอินเตอร์เฟซที่เน้นเสียงเป็นหลัก — ตั้งแต่ speech-to-speech แบบ full-duplex ไปจนถึงไปป์ไลน์ประกอบที่ปลุกด้วยคำสั่งปลุก ทั้งหมดทำงานในเครื่อง

Learn more

การเข้าใจเสียง

การถอดเสียงเป็นข้อความ

แปลงเสียงเป็นข้อความที่มีโครงสร้าง — สตรีมมิ่งเรียลไทม์สำหรับคำบรรยายสดและการบอกพิมพ์ การประมวลผลแบบแบตช์ความแม่นยำสูงสำหรับคลังเก็บ พร้อมการแยกผู้พูดเพื่อระบุชื่อแต่ละคน

Learn more

การสร้างเนื้อหา

การสังเคราะห์เสียงพูด

สังเคราะห์เสียงพูดด้วยเสียงใดก็ได้ — โคลนเสียงในไม่กี่วินาที อ่านหนังสือเสียงได้นับชั่วโมง หรือสร้างพอดแคสต์หลายผู้พูด ทำงานออฟไลน์ทั้งหมด

Learn more

คอมโพเนนต์ทั้งหมด

มากกว่าสามสิบโมเดล หนึ่งสแต็ก

ไปป์ไลน์กรณีใช้งานด้านบนสร้างจากโมเดลเหล่านี้ เลือกคอมโพเนนต์เพื่ออ่านสถาปัตยกรรม CLI Swift API และ benchmark ทั้งหมดทำงานบน Apple Silicon ส่วนใหญ่ทำงานบน Android และ Linux ด้วย

เสียงพูดเป็นข้อความ

Qwen3-ASR

52 langs, RTF 0.06, 4-/8-bit

เสียงพูดบนอุปกรณ์สำหรับผลิตภัณฑ์จริง

เสียงพูดบนอุปกรณ์สำหรับผลิตภัณฑ์จริง

เอเจนต์เสียงบนอุปกรณ์: หนึ่งไปป์ไลน์ สามงบหน่วยความจำ

โมเดลการโคลนเสียง วัดผลข้ามห้าภาษา

โคลนเสียงที่ 48 kHz ด้วย VoxCPM2

Speech AI แบบโลคัลบน MacBook

สามกลุ่มกรณีใช้งานบนอุปกรณ์

เอเจนต์เสียง

การถอดเสียงเป็นข้อความ

การสังเคราะห์เสียงพูด

มากกว่าสามสิบโมเดล หนึ่งสแต็ก

เสียงพูดเป็นข้อความ

ข้อความเป็นเสียงพูด

การวิเคราะห์เสียง

ดนตรีและการผลิตเสียง

LLM และ Speech-to-speech

เสียงพูดบนอุปกรณ์
สำหรับผลิตภัณฑ์จริง