小米 Mimo 2.5 Pro 与 DeepSeek V4 Flash 的实战对比

2026-04-29

昨天申请了小米的开发者扶持计划，通过了之后得到一个 Coding Plan，价值 99 元。今天就迫不及待地在 Claude Code 里用它来干活。

正好机缘巧合，昨天有位盲人朋友找到我，让我帮忙写一个 TTS 引擎，需要从 MultiTTS 那个app的反编译结果里抓取其他的语音引擎。我之前已经有从里面实现了微软语音，我需要在此基础上继续扩展。

于是我用小米的Mimo 2.5 Pro配合 Claude Code 开干。从中午一直搞到晚上，小米的那个月套餐用量被我干掉了 75%，用了一亿五千万词元，结果问题没搞定。更尴尬的是，小米的模型明确告诉我说那个东西它搞不定，让我换其他方法。

后来我换成 DeepSeek V4 Flash，只花了一轮对话就搞定了。费用多少呢？两毛钱。如果按小米 API 的价格算，75% 的月套餐折合约 75 块钱，如果按api价格差不多要三百多块。三百多块 vs 两毛钱，一千多倍的差距。

这让我想起 DeepSeek 说过的一句话：他们希望模型的 Agent 能力是自己生长出来的，而不是通过强化学习或者蒸馏从别处学来的。现在看来，DeepSeek 的能力可能远远没有被大家意识到。跑分只是表面数据，真正拉到实际场景里一用，高下立判。

另外还有一个细节值得注意。从 API 定价就能看到一个很大的区别：其他模型都会区分 256K 以下的价位和 256K 以上的价位，因为超过 256K 的话，KV Cache 的体积会变得非常大。但 DeepSeek 用了一项新的技术，可以把 KV Cache 的大小比以前减少90%左右。这使得 DeepSeek 在长上下文方面有非常大的成本优势，也解释了为什么它能做到这么低的定价。

kv cache对比

这次经历给我的感受是：跑分可以参考，但真正决定一个模型好不好用的，还得是拉到实际场景里遛一遛。

阅读:2306 评论: 4 💬

ceshi 04月30日 09:45 回复

站点使用的什么优化手段，都是秒开啊，太快了

春龙 04月30日 10:05 回复

@ceshi 只是把js和css放到网页一起了。浏览器只需要一个请求就能渲染整个页面。

ceshi 05月01日 08:00 回复

属实快啊我用了缓存只是0.5几这个体验感太好了

春龙 05月02日 01:04 回复

@ceshi 可能还有服务器原因吧。我这台服务器是阿里云成都机房

添加新的评论

称呼*

邮件*

网站

内容

刘春龙的博客

AI，科技，生活

推荐文章

最新微博

友情链接