Self-Hosted Audio AI Models

📊 Full Technology Survey 🖥️ Self-Hosted Models

📋 Executive Summary

Kimi-Audio (May 2025) remains a strong contender, but several models have surpassed or matched it in specific areas since its release. The audio AI landscape has evolved rapidly, with specialized models now outperforming general-purpose solutions in their respective domains.

🎯 Best ASR

Voxtral (Mistral) - Beats Whisper & GPT-4o-mini

🗣️ Best TTS

OpenAudio S1 (Fish Audio) - #1 on TTS-Arena2

🧠 Best Understanding

Audio Flamingo 3 (NVIDIA) - Chain-of-thought reasoning

💬 Best Conversation

Sesame CSM - "Better than OpenAI Voice Mode"

📊 Head-to-Head Comparison Matrix

Model	Release	ASR	TTS	Understanding	Generation	Conversation	Self-Hosted
Kimi-Audio	May 2025	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	✅
Voxtral	Jul 2025	⭐⭐⭐⭐⭐	❌	⭐⭐⭐⭐	❌	❌	✅
Audio Flamingo 3	Jul 2025	⭐⭐⭐⭐⭐	❌	⭐⭐⭐⭐⭐	❌	✅ (v2v)	✅
OpenAudio S1	Jun 2025	❌	⭐⭐⭐⭐⭐	❌	⭐⭐⭐⭐⭐	❌	✅
Step-Audio	Feb 2025	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	✅
Qwen2.5-Omni	Mar 2025	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	✅
NVIDIA UALM	Oct 2025	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⚠️ Research

🏆 Models Ahead of or Competitive with Kimi-Audio

These models have surpassed Kimi-Audio in specific domains since its May 2025 release.

Voxtral (Mistral AI)

State-of-the-Art ASR, beats Whisper & GPT-4o-mini in transcription

July 2025 24.3B / 4.7B Apache 2.0

Parameters

24.3B (Small) / 4.7B (Mini)

Streaming Latency

~150ms

Languages

100+

Source

mistral.ai/news/voxtral

SOTA ASR Transcription Translation Voice Commands Audio Generation Conversation

VERDICT

Superior for transcription/translation, but narrower scope than Kimi-Audio. Best for: Transcription, translation, voice command input.

Audio Flamingo 3 (NVIDIA) ⭐

Chain-of-thought reasoning, outperforms Gemini 2.5 Pro

July 2025 7B (Qwen2.5-7B) Non-Commercial

ClothoAQA

91.1%

LibriSpeech WER

1.57%

MMAU

73.14%

Audio Context

10+ minutes

Chain-of-Thought Audio Understanding Audio Captioning Complex Q&A TTS Audio Generation

VERDICT

Outperforms Gemini 2.5 Pro and Qwen2.5-Omni. Strong competitor to Kimi-Audio with better reasoning capabilities. Best for: Audio analysis, captioning, complex audio Q&A.

OpenAudio S1 (Fish Audio)

#1 ranked on TTS-Arena2, surpassing ElevenLabs and OpenAI

June 2025 4B / 0.5B Open Source

TTS-Arena2 Rank

English WER

0.008

English CER

0.004

Source

speech.fish.audio

Best TTS Quality Voice Cloning Emotion Control RLHF Fine-tuned Audio Understanding Conversation

VERDICT

Best pure TTS quality available, surpassing ElevenLabs and OpenAI. More specialized than Kimi-Audio's universal approach. Best for: Voice synthesis, voice cloning, audiobook narration, scratch vocals.

Step-Audio (StepFun AI)

Most comprehensive production-ready framework

February 2025 130B / 3B Open Source

Chat Model

130B parameters

TTS Model

3B parameters

Architecture

Dual-codebook (16.7Hz + 25Hz)

Source

GitHub

Multilingual Emotional TTS Dialect Support Voice Cloning Full Pipeline

VERDICT

Most comprehensive open-source audio system. 130B model is massive but powerful. Best for: Full-featured voice assistants, multilingual applications.

NVIDIA UALM 🔥

First cross-modal generative reasoning

October 2025 7B unified Research Only

Innovation

Cross-modal reasoning

Capabilities

Understanding + Generation + Reasoning

Hardware

Requires A100 GPU

Source

NVIDIA Research

Text+Audio Thinking Audio Understanding Audio Generation Audio-to-Audio Unified Architecture

VERDICT

Most advanced architecture with multimodal reasoning (text + audio in thinking steps). Strong future competitor. Best for: Research, complex audio reasoning, future production systems.

🔍 Kimi-Audio Deep Dive

Understanding the baseline: Kimi-Audio's architecture, capabilities, and limitations.

Kimi-Audio (Moonshot AI)

Universal audio foundation model - understand + generate + converse

May 2025 12B LLM Open Source

Architecture

Base LLM

12B parameters

Audio Encoder

Whisper-large-v3 based

Audio Tokenizer

12.5Hz semantic + acoustic

Context Length

128K tokens

Training Data

13M hours

Vocoder

Flow-matching based

Capabilities

Audio Understanding

Speech recognition (ASR)
Audio captioning
Sound event detection
Emotion recognition
Speaker identification

Audio Generation

Text-to-speech (TTS)
Voice cloning
Audio continuation
Sound effect generation

Speech Conversation

End-to-end voice chat
Turn-taking
Interruption handling
Context maintenance

Benchmark Performance

Benchmark	Kimi-Audio	GPT-4o	Gemini 1.5 Pro
LibriSpeech WER	1.28%	2.5%	3.1%
CommonVoice WER	5.3%	7.2%	6.8%
AudioCaps (CIDEr)	82.4	-	-
MMAU Understanding	68.2%	62.1%	65.3%

Limitations

⚠️

Inference Speed: Not optimized for real-time streaming
Music Understanding: Weaker than speech understanding
Long Audio: Degrades on audio >10 minutes
Voice Quality: TTS not as natural as specialized models

👀 Emerging Models to Watch

Sesame CSM

"Sounds better than OpenAI Advanced Voice Mode" - 1B params, real-time streaming, Apache 2.0

Orpheus TTS

100-200ms latency, multi-language, tag-based emotion control (<laugh>, <whisper>)

Dia 2

Nov 2025 - Dialogue-first TTS with non-verbal sounds, multi-speaker support

CosyVoice 2

150ms ultra-low latency streaming, Alibaba, production-ready

Chatterbox

First emotion exaggeration control in open-source, 5-second voice cloning

🔑 Key Findings

Where Kimi-Audio Still Leads

Universal audio foundation - best all-in-one for understanding + generation + conversation
13M hours pretraining - most diverse audio training data
End-to-end speech conversation - few competitors match this

Where Kimi-Audio Has Been Surpassed

Pure ASR: Voxtral beats it (1.28 WER vs Voxtral's better scores on multilingual)
Pure TTS: OpenAudio S1 now #1 on TTS-Arena2
Audio Reasoning: Audio Flamingo 3 introduces chain-of-thought thinking
Multimodal Reasoning: NVIDIA UALM does cross-modal reasoning (text+audio thinking)
Production Scale: Step-Audio 130B is more comprehensive

🎛️ Recommendations for FlowState DAW

Need	Best Choice	Why
All-in-one audio	Kimi-Audio or Step-Audio	Universal capabilities
Best transcription/translation	Voxtral	SOTA ASR, Apache 2.0
Best TTS quality	OpenAudio S1	#1 on benchmarks
Audio understanding + reasoning	Audio Flamingo 3	Chain-of-thought
Low-latency conversation	Sesame CSM or CosyVoice 2	Real-time streaming
Voice assistant voice	Sesame CSM	Most natural
Scratch vocals	OpenAudio S1	Best quality
Voice cloning	OpenVoice V2 or Orpheus	Zero-shot cloning

💡

Bottom Line: For a DAW, you likely want a combination rather than relying on a single model. Kimi-Audio is no longer the undisputed leader (May 2025 is "old" by AI standards), but it remains one of the most complete universal audio models.

📚 Sources

Research compiled December 2025. Model availability and licensing subject to change.