FlashSR

この Soniqo ページは、ローカルの speech-swift / speech-core 実装にある FlashSR を説明します。Hugging Face バンドルへのリンクは統合メモの後にあります。

まずサイト内ページへ

ランディングカードとドキュメントメニューは先にこのページへ向け、ソースモデルとバンドルのリンクは本ページ内に残します。

概要

モデルFlashSR
役割Audio super-resolution for low-bandwidth or lossy audio
バックエンドMLX int4 default; int8 available
出力48 kHz mono waveform, same length as input
言語Audio-content agnostic
ライセンスMIT
状態Ready through speech upsample and the FlashSR Swift product
ソースFlashSR / AudioSR distillation
Swift プロダクトFlashSR
CLI / ランタイムspeech upsample

使い方

以下のスニペットは、現在の speech-swift リポジトリが公開している API またはコマンドに合わせています。

# Upsample a low-bandwidth recording to 48 kHz mono.
.build/release/speech upsample noisy_lowres.wav \
  --variant int4 \
  -o clean_hr.wav

モデルリンク

実装メモ