服务在线 · 实时推理
开源模型评测站

真实算力
真实数据

一码行云自有 H200 服务器 + 本地 Mac Studio 实测评测,
帮助企业找到最合适的私有化部署方案。

8
H200 SXM GPU
150+
tok/s 实测
7
已上线模型
192GB
本地统一内存
查看模型目录 申请试用 API

MODEL CATALOG

可部署模型目录

覆盖推理、代码、向量检索、图像生成、视频生成全场景,均可私有化独占部署。

LLM 语言模型
LLM H200 云端
DeepSeek-R1-32B
强推理能力,数学/代码/逻辑题表现突出,完整 FP16 精度部署。
参数量 32B FP16
实测吞吐 ~150 tok/s
上下文 32K tokens
显存占用 ~122 GB
框架 SGLang 0.5.7
推理 数学 代码 OpenAI 兼容
LLM · MoE H200 云端
Qwen3.5-35B-A3B
MoE 架构,35B 总参数仅激活 3.5B,中文理解与工具调用能力优秀。
参数量 35B / 3.5B 激活
实测吞吐 ~150 tok/s
上下文 32K tokens
显存占用 ~65 GB
框架 SGLang 0.5.9
中文 工具调用 低显存 OpenAI 兼容
LLM Mac Studio 本地
Qwen2.5-7B
轻量高效,本地部署无需云端,适合日常办公助手、RAG 检索增强场景。
参数量 7B Q4/Q8
实测吞吐 60+ tok/s
上下文 128K tokens
内存占用 ~8 GB
框架 llama.cpp / Ollama
离线 低延迟 RAG 边缘部署
LLM · 推理 Mac Studio 本地
DeepSeek-R1-1.5B
极致轻量的推理蒸馏模型,Mac Studio 本地运行丝滑,超低延迟响应。
参数量 1.5B Q4
实测吞吐 100+ tok/s
内存占用 ~2 GB
框架 llama.cpp
超快 本地 推理链 轻量
Embedding 向量模型
EMBEDDING H200 GPU0 共享
jina-embeddings-v3
业界领先多语言向量模型,支持 8192 token 长文本,RAG / 语义搜索首选。
维度 1024 dim
最大长度 8192 tokens
语言 中英多语言
框架 TEI (HF)
多语言 长文本 RAG 语义搜索
多模态生成模型
TEXT→IMAGE H200 GPU6
FLUX.1-schnell
Black Forest Labs 高速文生图,4 步采样,质量与速度的最优平衡。
采样步数 4 步
分辨率 最高 1024×1024
生成速度 ~3–5s / 图
文生图 高速 商用
IMAGE→IMAGE H200 GPU6
InstructPix2Pix
自然语言指令图像编辑,保留原图结构的同时按指令修改内容。
输入 图片 + 文字指令
输出 编辑后图片
图生图 指令编辑 设计
TEXT→VIDEO H200 GPU6
LTX-Video-0.9.7
蒸馏加速视频生成模型,文字描述一键生成高质量短视频片段。
输出格式 MP4 视频
时长 3–5 秒
文生视频 内容创作 蒸馏

BENCHMARKS

性能实测数据

所有数据均为自有硬件实测,非官方论文数据。LLM 指标:output tokens/s(单请求峰值)。

LLM 生成吞吐量对比
DeepSeek-R1-32B H200 GPU5 · FP16
~150 t/s
Qwen3.5-35B-A3B H200 GPU0 · BF16
~150 t/s
DeepSeek-R1-1.5B Mac Studio GB10 · Q4
100+ t/s
Qwen2.5-7B Mac Studio GB10 · Q4
60+ t/s
H200 SXM 云端推理
Mac Studio GB10 本地
延迟对比(首 token 响应,ms) 参考值
DeepSeek-R1-1.5B(本地) 无网络延迟
~80ms
Qwen2.5-7B(本地) 无网络延迟
~150ms
DeepSeek-R1-32B(云端) 国内网络访问
~300ms
Qwen3.5-35B-A3B(云端) 国内网络访问
~300ms

INFRASTRUCTURE

硬件方案对比

根据数据合规、并发量、预算灵活选择云端、本地或混合方案。

🔲
阿里 BMS 扩展集群
EXPANSION
PPU-ZW810E × 16 · 弹性扩容
  • GPU 型号阿里 PPU-ZW810E
  • 单卡显存96 GB
  • GPU 数量16 卡
  • CPUXeon 8558P × 2
  • 内存2 TB
  • 适合大规模并发
大规模并发或多模型同时服务,弹性扩容满足峰值需求。
💻
Mac Studio 本地部署
ON-PREMISE
Apple GB10 · 192GB 统一内存
  • 芯片Apple GB10
  • 统一内存192 GB
  • 内存带宽~400 GB/s
  • 功耗~50W
  • 适合模型1.5B–30B 量化
  • 数据完全本地,不出机器
数据合规要求最高的场景,完全离线运行,零数据外泄风险。
对比维度 H200 云端 阿里 BMS Mac Studio 本地 云端 + 本地混合
大模型(32B+) 最优 支持 量化版 按需分配
小模型(7B 以下) 浪费 浪费 最优 本地优先
数据不出本地 完全本地 敏感数据本地
高并发承载 最强 单用户
响应延迟 中(网络) 中(网络) 极低(本地) 自适应
成本结构 按月/年租用 按量弹性 一次性购买 混合计费
多模态模型 支持 支持 轻量版

SCENARIO MATRIX

适用场景推荐矩阵

根据业务场景快速定位推荐模型,● 强烈推荐 ◐ 适合 ○ 勉强可用 — 不推荐

业务场景 R1-32B Qwen3.5-35B Qwen2.5-7B R1-1.5B jina-v3 FLUX LTX-Video
代码生成 / Review
数学 / 科学推理
企业知识库 / RAG
客服 / 对话助手
工具调用 / Agent
语义搜索 / 向量库
品牌素材生成
视频内容制作
离线 / 无网环境
高合规数据处理

GET STARTED
30 天试用
真实 H200 算力

提供 OpenAI 兼容 API,无需改代码,直接接入你的业务系统。
试用期满意后再讨论正式方案,没有任何前置成本。

Base URL: https://api.matrixone.online/v1
OpenAI SDK 兼容
独占 GPU 不共享
数据不用于训练
7×24 运维保障