开源模型评测 SOTA

D·I·A·L·O·G·U·E

智能问答 & 对话助理

— 客服机器人、内部知识问答、多轮业务对话

综合对话能力 中文理解 知识覆盖查看榜单 ↗

#1 推荐轻量 Qwen3.5-9B Qwen · 9B 82.5知识覆盖本地 ›

2026-03 升级版，本地私有化首选：原生多模态（文/图/视频）201 语言，262K 上下文可扩展至 1M，MMLU-Pro 82.5 超越 GPT-OSS-120B，Mac Studio 流畅运行，零云端费用

发布 2026-03 · Apache-2.0

中文优先本地私有化完全开源

知识覆盖82.5

中文理解81.2

HuggingFace ↗GitHub ↗

#2 推荐在线轻量 Qwen2.5-7B-Instruct Qwen · 7B 74.2知识覆盖本地 ›

本地私有化：数据不出企业，Mac Studio 60+ tok/s，离线可用，零云端费用（当前在线，可升级至 Qwen3.5-9B）

发布 2024-09 · Apache-2.0

本地私有化完全开源

知识覆盖74.2

中文理解76.8

数学解题85.7

HuggingFace ↗

#3 推荐在线均衡MoE Qwen3.5-35B-A3B Qwen · 35B/3.5B 83.2知识覆盖云端本地 ›

中小企业首选：日常办公助理、邮件/PPT撰写、会议纪要整理，3.5B 激活参数 150 tok/s，显存占用低，云端/本地均可（当前在线）

发布 2026-01 · Apache-2.0

中文优先完全开源

知识覆盖83.2

中文理解87.1

HuggingFace ↗

#4 均衡MoE Llama-4-Scout-17B-16E meta-llama · 109B/17B 88.2知识覆盖云端本地 ›

1000 万 Token 超长上下文，海外业务多语言沟通、跨文档合并分析，云端/本地均可

发布 2025-04 · Llama 4 Community License

英文场景多语言

知识覆盖88.2

HuggingFace ↗GitHub ↗

#5 SOTA均衡 Qwen3-72B Qwen · 72B — 云端本地 ›

2026-04 新上榜：开源首个超越 GPT-4o MMLU-Pro 的密集模型，72B Apache 全量参数，首周 640K 下载，中英双语对话/推理均衡，DGX-Spark 可运行

发布 2026-04 · Apache-2.0

中文优先多语言完全开源

—

HuggingFace ↗GitHub ↗

#6 均衡MoE Mistral-Small-4 mistralai · 119B/6B 81.3知识覆盖云端本地 ›

2026-03 新上榜：128 专家 MoE，6B 激活参数，256K 上下文，支持图文输入+可调推理强度（快速/深度两档），延迟比上代低 40%，Apache 完全开源

发布 2026-03 · Apache-2.0

多语言完全开源

知识覆盖81.3

HuggingFace ↗

#7 均衡 Gemma-3-27B-IT google · 27B 67.5知识覆盖云端本地 ›

Google 开源旗舰，支持图文多模态，128K 上下文，英文业务问答/跨语言文件处理，DGX-Spark 可运行

发布 2025-03 · Gemma Terms of Use

英文场景多语言

知识覆盖67.5

数学解题69.0

HuggingFace ↗GitHub ↗

#8 SOTA旗舰MoE Qwen3-235B-A22B Qwen · 235B/22B 89.4知识覆盖云端 ›

大型企业旗舰：法律合同起草、多语言客户沟通、复杂业务流程自动化，需云端部署，适合高并发高精度场景

发布 2025-04 · Apache-2.0

中文优先多语言完全开源

知识覆盖89.4

中文理解92.1

代码通过率95.2

HuggingFace ↗GitHub ↗

#9 旗舰MoE DeepSeek-V3.2 deepseek-ai · 671B/37B 84.5代码实战云端 ›

大型企业旗舰：技术文档撰写、跨部门报告生成，IMO/IOI 2025 金牌级推理，需云端部署

发布 2025-12 · MIT

多语言完全开源

代码实战84.5

知识覆盖88.5

HuggingFace ↗GitHub ↗

#10 SOTA旗舰MoE Qwen3.5-397B-A17B Qwen · 397B/17B 91.3数学推理云端 ›

大型企业旗舰：长文档合同分析、复杂流程自动化，性能对标 Claude Opus 4.5，需云端部署

发布 2026-02 · Apache-2.0

中文优先多语言完全开源

数学推理91.3

代码实战83.6

HuggingFace ↗GitHub ↗

#11 SOTA旗舰MoE Llama-4-Maverick-17B-128E meta-llama · 2026-04 — 云端 ›

2026-04 新上榜：128 专家 MoE，17B 激活参数，1M Token 超长上下文，基准测试超越 GPT-4o 和 Gemini 2.0 Flash，Llama 4 最强开放权重变体，海外业务复杂多语言分析

发布 2026-04 · Llama 4 Community License

英文场景多语言

—

HuggingFace ↗GitHub ↗

A·N·A·L·Y·S·I·S

分析决策 & 复杂推理

— 财务建模、法律审查、需要逻辑链路可追溯的决策支持

数学推理精度 逻辑准确率查看榜单 ↗

#1 推荐在线均衡 DeepSeek-R1-Distill-Qwen-32B deepseek-ai · 32B 72.6数学推理云端本地 ›

中小企业首选：推理能力保留 80%、成本降 60%，财务审核/合规校验/逻辑推断，云端/本地均可（当前在线）

发布 2025-01 · MIT

完全开源

数学推理72.6

数学精度94.3

代码通过率92.7

HuggingFace ↗

#2 轻量 Phi-4-reasoning microsoft · 14B 78.0数学推理云端本地 ›

14B MIT 开源，数学/科学推理接近 DeepSeek-R1，Mac Studio 本地运行，英文推理场景零成本私有化部署

发布 2025-05 · MIT

英文场景完全开源

数学推理78.0

数学精度91.3

HuggingFace ↗GitHub ↗

#3 均衡 GLM-Z1-32B zai-org · 32B 74.3数学推理云端本地 ›

智谱深度推理模型，32B 参数 DGX-Spark 可运行，长链条逻辑推理和反思，财务复核/法律条款分析/研究报告生成

发布 2025-04 · GLM-4 Model License

中文优先多语言

数学推理74.3

代码实战63.2

HuggingFace ↗GitHub ↗

#4 SOTA旗舰MoE DeepSeek-R1 deepseek-ai · 671B/37B 90.8知识覆盖云端本地 ›

大型企业旗舰：财务建模校验、法律逻辑推断、科研数据分析，需云端部署，适合审计级推理场景

发布 2025-01 · MIT

完全开源

知识覆盖90.8

数学推理79.8

数学精度97.3

代码通过率96.3

HuggingFace ↗GitHub ↗

#5 SOTA旗舰MoE Kimi-K2.5 moonshotai · 1T/32B 96.1数学推理云端 ›

大型企业旗舰：AIME 2025 96.1% 全球第一，原生多模态图文推理，Agent Swarm 100 子智能体并行，科研/法律/金融决策分析，需云端部署

发布 2026-01 · Modified-MIT

中文优先多语言完全开源

数学推理96.1

知识覆盖87.1

代码实战85.0

HuggingFace ↗

C·O·D·I·N·G

代码开发辅助

— 代码补全、审查、重构，研发团队效率提升

代码生成通过率 实战任务完成率查看榜单 ↗

#1 推荐轻量 Qwen2.5-Coder-7B-Instruct Qwen · 7B 88.4代码通过率云端本地 ›

中小企业首选：7B 本地代码助手，代码补全/注释/单元测试生成，Mac Studio 流畅运行，零云端成本，中文注释支持优秀

发布 2024-11 · Apache-2.0

中文优先本地私有化完全开源

代码通过率88.4

HuggingFace ↗GitHub ↗

#2 SOTA旗舰MoE DeepSeek-Coder-V2-Instruct deepseek-ai · 236B/21B 90.2代码通过率云端 ›

大型研发团队旗舰：遗留系统重构、自动化测试脚本生成，需云端部署

发布 2024-06 · DeepSeek License

多语言

代码通过率90.2

代码实战43.5

HuggingFace ↗GitHub ↗

#3 SOTA旗舰MoE Qwen3-Coder-480B-A35B Qwen · 480B/35B 66.5代码实战云端 ›

大型研发团队旗舰：256K 上下文，代码智能体、跨文件重构、复杂系统工程，需云端部署

发布 2025-07 · Apache-2.0

中文优先多语言完全开源

代码实战66.5

代码通过率92.0

HuggingFace ↗GitHub ↗

#4 SOTA旗舰MoE GLM-5 zai-org · 744B/40B 77.8代码实战云端 ›

大型研发团队旗舰：SWE-Bench 77.8% 超越 Gemini 3 Pro，幻觉率全球最低，复杂系统工程/长流程智能体，需云端部署

发布 2026-02 · MIT

中文优先多语言完全开源

代码实战77.8

HuggingFace ↗GitHub ↗

#5 SOTA旗舰MoE GLM-5.1 zai-org · 744B/40B 58.4代码实战云端 ›

2026-04 新上榜：SWE-Bench Pro 58.4% 全球第一（超越 GPT-5.4 57.7 和 Claude Opus 4.6 57.3），8 小时无干预全流程编码循环，MIT 完全开源，需云端部署

发布 2026-04 · MIT

中文优先多语言完全开源

代码实战58.4

HuggingFace ↗GitHub ↗

#6 SOTA旗舰MoE MiniMax-M2.5 MiniMaxAI · 229B/10B 80.2代码实战云端 ›

大型研发团队旗舰：SWE-Bench 80.2% 开源第一，196K 超长上下文，复杂多步骤编程/自动化工作流，需云端部署

发布 2026-02 · Modified-MIT

多语言完全开源

代码实战80.2

HuggingFace ↗

#7 旗舰MoE MiniMax-M2.7 MiniMaxAI · 230B/10B 56.22代码实战云端 ›

2026-04 新上榜：SWE-Bench Pro 56.22% 逼近 Claude Opus 4.6，自进化训练架构（100+ 轮自动优化提升 30%），204K 上下文，推理速度 3×，复杂 Agent 编程/生产环境自动排障，需云端部署

发布 2026-04 · Modified-MIT

多语言完全开源

代码实战56.22

HuggingFace ↗

#8 SOTA旗舰MoE Nemotron-3-Super-120B-A12B nvidia · 120B/12B 60.47代码实战云端 ›

2026-03 新上榜：Mamba2-Transformer 混合 LatentMoE，1M Token 超长上下文，SWE-Bench Verified 60.47% 开源最强，Agent 推理吞吐量 5× 提升，企业代码智能体/跨库重构，需云端部署

发布 2026-03 · NVIDIA Nemotron Open Model License

英文场景完全开源

代码实战60.47

HuggingFace ↗GitHub ↗

D·O·C·U·M·E·N·T

文档智能处理

— 合同/票据识别、图表数据提取、图文信息结构化

文档识别准确率 图文理解 综合视觉查看榜单 ↗

#1 推荐轻量 Qwen2.5-VL-7B-Instruct Qwen · 7B 83.0图文理解云端本地 ›

中小企业首选：7B 本地运行，票据/单据/合同 OCR 识别（DocVQA 95.7），数据不出企业，Mac Studio 流畅运行

发布 2024-12 · Apache-2.0

中文优先本地私有化

图文理解83.0

综合视觉58.6

文档识别95.7

HuggingFace ↗

#2 推荐轻量 MiniCPM-V-4.5 openbmb · 8B 77.0图文理解云端本地 ›

本地私有化首选：8B 超轻量多模态，OpenCompass 77.0 超越 GPT-4o，票据/单据识别，最低资源要求，零云端成本

发布 2025-08 · Apache-2.0

中文优先本地私有化完全开源

图文理解77.0

HuggingFace ↗GitHub ↗

#3 SOTA旗舰MoE Qwen3-VL-235B-A22B Qwen · 235B/22B 97.2文档识别云端 ›

大型企业旗舰：票据/合同扫描识别、图表数据自动提取、GUI 智能体，视觉理解开源最强，需云端部署

发布 2025-09 · Apache-2.0

中文优先多语言完全开源

文档识别97.2

图文理解90.5

综合视觉74.1

HuggingFace ↗GitHub ↗

#4 SOTA旗舰MoE InternVL3.5-241B-A28B OpenGVLab · 241B/28B 74.8综合视觉云端 ›

大型企业旗舰：推理速度 4× 加速，企业 PPT/报告/多图表联合分析，需云端部署

发布 2025-08 · Apache-2.0

中文优先完全开源

综合视觉74.8

图文理解91.2

HuggingFace ↗GitHub ↗

K·N·O·W·L·E·D·G·E

企业知识库搭建

— 内部文档语义搜索、智能问答、知识库全流水线

语义搜索英文检索精度 中文检索精度查看榜单 ↗

#1 推荐轻量 bge-m3 BAAI · 2024-01 65.0中文检索云端本地 ›

本地私有化首选：MIT 完全开源，中文知识库向量化，Mac Studio 可运行，混合检索策略提升召回率，与精排模型配套

发布 2024-01 · MIT

中文优先多语言完全开源

中文检索65.0

检索泛化55.1

HuggingFace ↗

#2 推荐均衡 Qwen3-Embedding-8B Qwen · 8B 70.58多语言检索云端本地 ›

中小企业首选：MTEB 多语言榜单第一，中英混合文档向量化，8B 参数 DGX-Spark 可运行，100+ 语言知识库检索精度最高

发布 2025-06 · Apache-2.0

中文优先多语言完全开源

多语言检索70.58

HuggingFace ↗GitHub ↗

#3 在线均衡 jina-embeddings-v3 jinaai · 2024-09 65.3英文检索云端 ›

中英混合产品手册/合同语义搜索，多语言知识库构建（当前在线）

发布 2024-09 · CC BY-NC 4.0

多语言

英文检索65.3

中文检索61.2

HuggingFace ↗

#4 均衡 e5-mistral-7b-instruct intfloat · 7B 66.6英文检索云端本地 ›

英文技术文档/合规文件精准语义匹配，高质量英文知识库检索

发布 2023-12 · MIT

英文场景完全开源

英文检索66.6

检索泛化56.9

HuggingFace ↗

结果精排精排准确率查看榜单 ↗

#1 推荐轻量 bge-reranker-v2-m3 BAAI · 2024-03 — 云端本地 ›

本地知识库首选：MIT 开源，Mac Studio 可运行，与 bge-m3 配套即可构建完整本地中文知识库流水线

发布 2024-03 · MIT

中文优先多语言完全开源

—

HuggingFace ↗

#2 推荐均衡 Qwen3-Reranker-8B Qwen · 8B — 云端本地 ›

云端知识库首选：MTEB Reranking 第一，配合 Qwen3-Embedding-8B 使用，中英文混合知识库问答准确率最高

发布 2025-06 · Apache-2.0

中文优先多语言完全开源

—

HuggingFace ↗GitHub ↗

#3 均衡 jina-reranker-v2-base-multilingual jinaai · 2024-07 — 云端本地 ›

跨语言企业文档检索精排，支持中/英/日/德等100+语言混合知识库

发布 2024-07 · CC BY-NC 4.0

多语言

—

HuggingFace ↗

V·O·I·C·E

语音转写 & 合成

— 会议录音转写、客服通话质检、企业配音

录音转写识别错误率（越低越好）查看榜单 ↗

#1 推荐轻量 SenseVoice-Small FunAudioLLM · 2024-07 3.1中文错误率云端本地 ›

中文转写首选：超小模型，处理速度 7 倍于同类 + 情绪识别，Mac Studio 高速运行，客服通话批量质检，零成本本地部署

发布 2024-07 · Apache-2.0

中文优先完全开源

中文错误率3.1

HuggingFace ↗

#2 推荐均衡 whisper-large-v3 openai · 2023-11 2.7英文错误率云端本地 ›

多语言会议录音转写首选：MIT 开源，Mac Studio 可运行，会议纪要/客服通话质检/国际字幕，99 语言，性价比最高

发布 2023-11 · MIT

多语言完全开源

英文错误率2.7

中文错误率4.3

HuggingFace ↗

#3 SOTA均衡 cohere-transcribe-03-2026 CohereLabs · 2B 5.42平均错误率云端本地 ›

2026-03 新上榜：HuggingFace Open ASR 榜第一（平均 WER 5.42），2B Apache 开源，14 语言（含中/日/韩），消费级 GPU 可运行，会议录音批量转写/多语言客服质检

发布 2026-03 · Apache-2.0

多语言完全开源

平均错误率5.42

HuggingFace ↗GitHub ↗

#4 旗舰 Step-Audio-R1 stepfun-ai · 2025-11 — 云端本地 ›

大型企业旗舰：复杂语音指令理解+音频内容分析，语音文档智能处理，需云端或本地部署

发布 2025-11 · Apache-2.0

中文优先多语言完全开源

—

HuggingFace ↗GitHub ↗

语音合成自然度评分 响应速度

#1 推荐轻量 F5-TTS SWivid · 2024-10 — 云端本地 ›

本地合成首选：MIT 完全开源无商用限制，Mac Studio 可运行，快速语音原型开发/小批量内容配音

发布 2024-10 · MIT

多语言完全开源

—

HuggingFace ↗

#2 推荐均衡 CosyVoice2 FunAudioLLM · 2024-12 — 云端本地 ›

中文合成首选：培训课程配音、客服机器人声线定制、品牌视频合成，支持方言，Apache 开源，DGX-Spark 可运行

发布 2024-12 · Apache-2.0

中文优先完全开源

—

HuggingFace ↗

#3 SOTA均衡 Voxtral-4B-TTS mistralai · 4B — 云端本地 ›

多语言合成旗舰：9 语言低延迟流式合成，支持声线克隆，超越 ElevenLabs（2026-03 最新），非商用许可

发布 2026-03 · CC BY-NC 4.0

多语言

—

HuggingFace ↗

C·R·E·A·T·I·V·E

视觉内容创作

— 营销图片、产品展示、企业宣传视频

视频生成按需开通，云端提供试用

图片生成与编辑图像质量 图文一致性查看榜单 ↗

#1 推荐在线轻量 FLUX.1-schnell black-forest-labs · 2024-08 0.63图像质量云端 ›

电商图片首选：Apache 开源可商用，4 步极速出图，电商产品图批量生成、营销素材快速制作（当前在线）

发布 2024-08 · Apache-2.0

完全开源

图像质量0.63

HuggingFace ↗

#2 推荐轻量 ERNIE-Image-Turbo baidu · 2026-04 — 云端 ›

2026-04 新上榜：ERNIE-Image 轻量版，Apache 开源，出图速度更快，中小企业电商批量素材生成，国内合规部署首选

发布 2026-04 · Apache-2.0

中文优先完全开源

—

HuggingFace ↗

#3 推荐均衡 HiDream-I1-Full HiDream-ai · 2025-03 — ›

国内合规首选：Apache 完全开源无商用限制，内容审查要求高的场景，国内监管合规最优选

发布 2025-03 · Apache-2.0

完全开源

—

HuggingFace ↗

#4 在线轻量 InstructPix2Pix timbrooks · 2023-01 — 云端 ›

快速改图：自然语言指令改图，产品图局部修改/背景替换，MIT 开源（当前在线）

发布 2023-01 · MIT

完全开源

—

HuggingFace ↗

#5 SOTA均衡 Qwen-Image-2512 Qwen · 2025-12 — ›

AI Arena 开源第一（2025-12），中英文双语 prompt，营销素材/品牌内容生成，Apache 完全开源可商用

发布 2025-12 · Apache-2.0

中文优先多语言完全开源

—

HuggingFace ↗GitHub ↗

#6 均衡 Step1X-Edit-v1.2 stepfun-ai · 2025-11 — ›

开源图像编辑 SOTA，超越 GPT-4o 图像编辑，产品图局部修改/风格迁移/背景替换

发布 2025-11 · Apache-2.0

完全开源

—

HuggingFace ↗GitHub ↗

#7 均衡 ERNIE-Image baidu · 2026-04 — 云端 ›

2026-04 新上榜：百度文心图像生成旗舰，Apache 完全开源可商用，中文 prompt 理解优秀，国内合规营销素材/品牌内容生成

发布 2026-04 · Apache-2.0

中文优先完全开源

—

HuggingFace ↗

#8 SOTA旗舰 FLUX.2-dev black-forest-labs · 2025-11 — ›

大型企业旗舰：32B 参数 4K 照片级真实感，品牌高端素材设计，支持多参考图 JSON 控制，商用需授权

发布 2025-11 · FLUX.2-dev Non-Commercial

商用需授权

—

HuggingFace ↗GitHub ↗

#9 SOTA旗舰 FLUX.1-Kontext-dev black-forest-labs · 2025-06 — ›

大型企业旗舰：品牌素材风格统一批量修改，角色/风格一致性最强，商用需授权

发布 2025-06 · FLUX.1-dev Non-Commercial

商用需授权

—

HuggingFace ↗

视频生成视频质量查看榜单 ↗

#1 推荐轻量 CogVideoX-5B THUDM · 5B 77.3视频质量云端本地 ›

文生视频轻量首选：5B 参数 DGX-Spark 可运行，中文场景描述理解最佳，国内营销视频内容生成

发布 2024-08 · CogVideoX License

中文优先

视频质量77.3

HuggingFace ↗

#2 推荐轻量 CogVideoX-5B-I2V THUDM · 5B — 云端本地 ›

图生视频轻量首选：5B 参数，产品图为参考帧生成展示视频，DGX-Spark 可运行，中文友好

发布 2024-10 · CogVideoX License

中文优先

—

HuggingFace ↗

#3 推荐均衡MoE Wan2.2-T2V-A14B Wan-AI · 27B/14B 85.4视频质量云端 ›

文生视频均衡首选：MoE 架构 720P@24fps，企业宣传片/产品演示/培训视频，速度与质量最佳平衡，云端可用

发布 2025-09 · Apache-2.0

完全开源

视频质量85.4

HuggingFace ↗GitHub ↗

#4 在线轻量 LTX-Video-0.9.7 Lightricks · 2025-02 — 云端 ›

营销短视频快速原型：出图速度最快（当前在线，可升级至 LTX-2）

发布 2025-02 · LTX Video License

—

HuggingFace ↗

#5 SOTA均衡 HunyuanVideo-1.5 tencent · 8.3B — 云端本地 ›

腾讯开源：8.3B 参数 DGX-Spark 可运行，720P@24fps 商用质量，宣传片/产品展示，中文场景友好

发布 2025-11 · Tencent Hunyuan Community

中文优先多语言

—

HuggingFace ↗GitHub ↗

#6 SOTA均衡 LTX-2.3 Lightricks · 22B — 云端 ›

2026-03 升级版：22B DiT，原生 4K@50fps + 音视频同步单次生成，支持竖版 1080×1920，文字/图片转带背景音视频，广告/培训视频一体化生成

发布 2026-03 · LTX Video License

多语言

—

HuggingFace ↗GitHub ↗

#7 SOTA均衡MoE Wan2.2-I2V-A14B Wan-AI · 27B/14B — 云端 ›

图生视频均衡首选：产品图动态化展示/品牌素材转演示视频，运动效果最自然，720P 高质量

发布 2025-09 · Apache-2.0

完全开源

—

HuggingFace ↗GitHub ↗

#8 SOTA均衡 Helios PKU-YuanGroup · 14B — 云端 ›

2026-03 新上榜：ByteDance + 北大联合，单 H100 实时生成 60 秒长视频（19.5 FPS），无 KV Cache/稀疏注意力等工程 trick，T2V/I2V/V2V 统一架构，3 步采样，Apache 可商用

发布 2026-03 · Apache-2.0

完全开源

—

GitHub ↗

#9 SOTA均衡 daVinci-MagiHuman GAIR · 15B — 云端 ›

2026-03 新上榜：Sand.ai + GAIR 联合，数字人唇形同步视频，单 H100 生成 5 秒视频仅需 2 秒，支持中/英/日/韩/德/法，企业虚拟客服形象/数字主播/培训视频配音，Apache 可商用

发布 2026-03 · Apache-2.0

中文优先多语言完全开源

—

HuggingFace ↗

找到最适合你业务的开源模型

智能问答 & 对话助理

分析决策 & 复杂推理

代码开发辅助

文档智能处理

企业知识库搭建

语音转写 & 合成

视觉内容创作