fluidaudio-rs

Rust bindings for FluidAudio - a Swift library for ASR, VAD, Speaker Diarization, and TTS on Apple platforms.

Features

ASR (Automatic Speech Recognition) - High-quality speech-to-text using Parakeet TDT models
VAD (Voice Activity Detection) - Detect speech segments in audio
Speaker Diarization - Identify and label different speakers in audio

Requirements

macOS 14+ or iOS 17+
Apple Silicon (M1/M2/M3) recommended
Rust 1.70+
Swift 5.10+

Installation

Add to your Cargo.toml:

[dependencies]
fluidaudio-rs = "0.1"

Usage

Speech-to-Text (ASR)

use fluidaudio_rs::FluidAudio;

fn main() -> Result<(), Box<dyn std::error::Error>> {
    let audio = FluidAudio::new()?;

    // Check system info
    let info = audio.system_info();
    println!("Running on: {} ({})", info.chip_name, info.platform);
    println!("Apple Silicon: {}", audio.is_apple_silicon());

    // Initialize ASR (downloads models on first run)
    audio.init_asr()?;

    // Transcribe an audio file
    let result = audio.transcribe_file("audio.wav")?;
    println!("Text: {}", result.text);
    println!("Confidence: {:.2}%", result.confidence * 100.0);
    println!("Processing speed: {:.1}x realtime", result.rtfx);

    Ok(())
}

Voice Activity Detection (VAD)

use fluidaudio_rs::FluidAudio;

fn main() -> Result<(), Box<dyn std::error::Error>> {
    let audio = FluidAudio::new()?;

    // Initialize VAD with threshold (0.0-1.0)
    audio.init_vad(0.85)?;

    println!("VAD available: {}", audio.is_vad_available());

    Ok(())
}

Speaker Diarization

use fluidaudio_rs::FluidAudio;

fn main() -> Result<(), Box<dyn std::error::Error>> {
    let audio = FluidAudio::new()?;

    // Initialize diarization with clustering threshold (0.0-1.0)
    // Lower = more speakers, higher = fewer speakers
    audio.init_diarization(0.6)?;

    // Diarize an audio file
    let segments = audio.diarize_file("meeting.wav")?;
    for seg in &segments {
        println!(
            "[{:.2}s - {:.2}s] {}",
            seg.start_time, seg.end_time, seg.speaker_id
        );
    }

    Ok(())
}

Model Loading

First initialization downloads and compiles ML models (~500MB total). This can take 20-30 seconds as Apple's Neural Engine compiles the models. Subsequent loads use cached compilations (~1 second).

Platform Support

Platform	Status
macOS (Apple Silicon)	Full support
macOS (Intel)	Limited (no ASR)
iOS	Full support
Linux/Windows	Not supported

How it Works

This crate uses a C FFI bridge to communicate between Rust and Swift:

The Swift layer (FluidAudioBridge) wraps the FluidAudio library
C-compatible functions are exported using @_cdecl
Rust calls these functions through extern "C" declarations
The build.rs script compiles the Swift package and links it

License

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
.cargo		.cargo
.github/workflows		.github/workflows
examples		examples
src		src
swift		swift
.gitignore		.gitignore
Cargo.lock		Cargo.lock
Cargo.toml		Cargo.toml
Package.resolved		Package.resolved
Package.swift		Package.swift
README.md		README.md
build.rs		build.rs

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

fluidaudio-rs

Features

Requirements

Installation

Usage

Speech-to-Text (ASR)

Voice Activity Detection (VAD)

Speaker Diarization

Model Loading

Platform Support

How it Works

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

fluidaudio-rs

Features

Requirements

Installation

Usage

Speech-to-Text (ASR)

Voice Activity Detection (VAD)

Speaker Diarization

Model Loading

Platform Support

How it Works

License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages