-
Skywork R1V:昆仑万维开源的多模态视觉思维链推理模型
Skywork R1V:多模态视觉推理模型 Skywork R1V是昆仑万维开源的多模态视觉思维链推理模型,通过跨模态迁移技术与自适应思维链蒸馏实现复杂视觉任务的逻辑推理,在艺术识别、数学解题和科学分析等场景展现卓越性能。 GitHub项目地址:https://github.com/SkyworkAI/Skywork-R1V 核心特性 🧠 视觉思维链推理 多步骤解析图像隐含逻辑(如艺术品作者推断/…- 2
- 0
-
Seed-Coder:字节跳动最新推出的开源代码模型
Seed-Coder:开源代码大模型 Seed-Coder是由字节跳动推出的80亿参数级代码大模型,涵盖Base(基础版)、Instruct(指令微调版)和Reasoning(推理增强版)三个版本。其核心创新在于采用“模型自助式”数据管道,利用大模型自动筛选高质量训练数据,显著提升代码生成与逻辑推理能力。该模型在软件工程与编程竞赛任务中表现卓越,兼具高性能与开源透明度,适用于智能编程助手、自动化开…- 2
- 0
-
Step1X-3D:阶跃星辰开源的3D大模型,支持生成高保真可控的3D内容
Step1X-3D:开源3D生成大模型 Step1X-3D是阶跃星辰推出的开源4.8B参数3D大模型,通过几何与纹理解耦架构生成高保真3D内容,实现精准几何塑形与逼真纹理贴合。该模型支持精细参数调控,显著提升3D创作效率与可控性,适用于游戏开发、影视制作等场景。 官网地址:https://github.com/stepfun-ai/Step1X-3D 核心功能 🎯 高保真3D生成 几何模块(1.3…- 2
- 0
-
HunyuanCustom:腾讯混元开源的多模态定制化视频生成工具
行业级多模态视频生成引擎 腾讯混元推出的HunyuanCustom是基于扩散模型与时空身份解耦技术打造的定制化视频生成工具,支持文本、图像、音频多模态输入,实现主体一致的高质量视频创作。其核心突破在于解决动态视频中主体身份漂移问题,显著超越Runway ML、Pika等开源方案。 官网链接:https://hunyuancustom.github.io/ 核心功能与技术亮点 单主体精准控制 身份绑…- 2
- 0
-
SpeciesNet – 谷歌开源的AI模型,助力野生动物识别和保护
SpeciesNet的核心定位 谷歌开源的SpeciesNet是专为野生动物研究设计的AI模型,通过分析红外相机陷阱图像自动识别物种。该模型集成于谷歌“野生动物洞察”(Wildlife Insights)平台,能处理全球自然保护区每天产生的数百万张图像,解决人工筛选耗时数周的传统难题。 官网链接:https://github.com/google/cameratrapai 技术架构与核心能力 双阶…- 2
- 0
-
FLUX.1 Kontext [dev]:Black Forest Labs开源的图像编辑模型
智能图像局部编辑框架 FLUX.1 Kontext [dev]是由Black Forest Labs研发的开源图像编辑模型,基于Flow Transformer架构实现精准的局部修改与多轮迭代。支持自然语言指令定向调整图像元素(如更换服饰、背景),同时保持角色特征与风格一致性,为创作者提供工业级可控编辑能力。 官网链接:https://tusiart.com/models/879112449935…- 2
- 0
-
Step1X-Edit:阶跃星辰推出的开源图像编辑大模型
Step1X-Edit核心定位 阶跃星辰推出的开源图像编辑大模型Step1X-Edit,以19B参数量(7B多模态理解+12B扩散模型)实现开源领域性能领先。其核心突破在于精准解析自然语言指令、保持编辑对象身份一致性,并支持像素级区域控制,覆盖文字替换、风格迁移等11类高频编辑需求。 官网链接:https://github.com/stepfun-ai/Step1X-Edit 核心能力解析 1. …- 1
- 0
-
Kimi-VL:月之暗面开源的视觉语言模型
Kimi-VL核心定位 月之暗面(Moonshot AI)推出的开源视觉语言模型Kimi-VL,通过原生分辨率图像理解与128K长上下文处理能力,实现跨模态深度推理。该模型采用轻量化MoE架构,融合自研视觉编码器MoonViT,支持图像、视频、文档等多源输入的高效解析。 官网链接:https://github.com/MoonshotAI/Kimi-VL 核心功能特性 原生多模态支持直接处理图像/…- 1
- 0
-
Kimi-Audio:Kimi开源的通用音频基础模型,支持语音识别、音频理解等多种任务
开源音频多模态突破 Kimi-Audio由Moonshot AI推出的开源通用音频基础模型,整合语音识别、音频理解与语音对话能力。该模型基于1300万小时多语种音频预训练,采用创新的流匹配解码架构,在多项音频任务中实现性能突破。 官网链接:https://github.com/MoonshotAI/Kimi-Audio 核心技术架构 1. 分层处理系统 音频分词器:以12.5Hz帧率将音频压缩为离…- 1
- 0