秒杀同行！Kimi开源全新音频基础模型，横扫十多项基准测试，总体性能第一

来源：网络分享编辑：引流技巧时间：2025-09-01

声明：本文来自于微信公众号机器之心。

今天，kimi 又发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio，支持语音识别、音频理解、音频转文本、语音对话等多种任务，在十多个音频基准测试中实现了最先进的（SOTA）性能。

结果显示，Kimi-Audio 总体性能排js名第一，几乎没有明显短板。

例如在 LibriSpeech ASR 测试上，Kimi-Audio 的 WER 仅1.28%，显著优于其mvpAEXirN他模型。VocalSound 测试上，Kimi 达94.85%，接近满分。MMAUpython 任务中，Kimi-Audio 摘得两项最高分;VoiceBench 设计评测对话助手的语音理解能力，Kimi-Audio 在所有子任务中得分最高，包括一项满分。

除去 GPT-4o，Kimi-Audio 在情感控制mvpAEXirN、同理心和速度控制方面均取得mvpAEXirN了最高分。尽管 GLM-4-Voice 在口音控制方面表现略佳，但 Kimi-Audio 的整体平均得分仍高达3.90，超过了 Step-Audio-chat（3.33）、GPT-4o-mini(3.45)和 GLM-4-Voice(3.65)，并与 GPT-4o(4.06)仅存在微小差距。总体而言，评估结果表明，Kimi-Audio 在生成富有表现力和可控性的语音方面表现出色。

算法开源项目音频模型语音识别音频理解 Kimi-Audio 音频性能测试

本文链接地址：http://www.yinliujiqiao.com/weishang/weishangzixun/20250901150093.html