-
Kimi-Audio:Kimi开源的通用音频基础模型,支持语音识别、音频理解等多种任务
开源音频多模态突破 Kimi-Audio由Moonshot AI推出的开源通用音频基础模型,整合语音识别、音频理解与语音对话能力。该模型基于1300万小时多语种音频预训练,采用创新的流匹配解码架构,在多项音频任务中实现性能突破。 官网链接:https://github.com/MoonshotAI/Kimi-Audio 核心技术架构 1. 分层处理系统 音频分词器:以12.5Hz帧率将音频压缩为离…- 1
- 0