유스케이스 · 대화형

음성 입력.
음성 출력.

음성 우선 인터페이스의 세 가지 형태 —— 단일 풀듀플렉스 speech-to-speech 모델, 단계마다 완전한 제어가 가능한 wake → VAD → ASR → LLM → TTS 컴포저블 파이프라인, 그리고 핸즈프리 진입용 웨이크 워드 활성화. 모두 온디바이스, 클라우드 API 없음, 오디오는 기기 밖으로 나가지 않음.

시작하기 speech-to-speech 가이드

데스크톱 앱

Studio는 목소리를 만들고, Runner는 그 목소리로 대화합니다.

Speech Studio와 Runner는 같은 로컬 음성 스택의 두 얼굴입니다. 하나는 음성 제작용, 하나는 실시간 음성 에이전트 상호작용용입니다.

마이크부터 음성 응답까지 전체 동반자 루프를 로컬에서 실행합니다. 현재 미리보기는 작은 Apple Silicon 메모리 예산을 목표로 합니다.

Runner 사용해 보기

Mac에서 로컬로 목소리를 복제하고 샘플을 비교하며 다중 화자 음성을 생성합니다.

Speech Studio 열기

세 가지 하위 유스케이스

제품에 맞는 형태를 고르세요.

드롭인 대화 모델, 단계별 제어가 가능한 컴포저블 파이프라인, 또는 가벼운 웨이크 워드 트리거. 모두 전적으로 온디바이스에서 동작합니다.

풀듀플렉스 speech-to-speech

하나의 모델이 마이크 입력을 받아 음성을 출력합니다. 드롭인 가능한 OpenAI-Realtime 호환 WebSocket — 최소 코드, 내부는 블랙박스.

컴포저블 음성 파이프라인

웨이크 워드 → VAD → 스트리밍 ASR → 온디바이스 LLM → TTS. 단계마다 제어, 전사 가시성, 엔진 자유 교체. 나만의 Siri를 만드세요.

웨이크 워드 활성화

어떤 음성 플로우든 핸즈프리로 트리거. 문구별 임계값을 가진 커스텀 키워드, 온디바이스 5 MB 미만, 실시간 대비 26배.

더 깊이 읽기

컴포넌트 가이드.

Streaming Dictation

Voice Activity Detection

Wake-Word / KWS