当前位置：首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新！DeepGEMM 发布，有哪些突破点值得一看？

7个月前 (02-26)DeepSeek技术交流513

一开始，我还以为 DeepSeek 会走传统路线，比如大厂常见的蒸馏技术，搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求，但缺点也很明显，就是小模型再怎么优化，和大模型比起来，性能还是会有损失结果 DeepSeek 完全没按套路出牌，它不是去压缩模型，而是换了个角度，直接假设未来算力足够，然后想办法更高效地用好现有显卡架构。换句话说，不是缩小参数规模，而是在同等规模下优化计算方式，让计算更具性价比这种思路比纯工程优化要“硬核”得多。一般来说，搞小模型是比较务实的工程方案，但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容，而且即使以后显卡更强、模型规模更大，这套技术依然能继续用，不会过时

标签: DeepSeek DeepGEMM

返回列表

上一篇：怎么评估 Deepseek 模型的性能？

下一篇：Deepseek的「深度思考」和「联网搜索」有什么区别，怎么使用？

“DeepSeek 又上新！DeepGEMM 发布，有哪些突破点值得一看？” 的相关文章

DeepSeek谈艺 | 岳海涛：斑斓的色彩与悠然的气韵交融，构建出具有东方诗性智慧的视觉叙事体系

DeepSeek 又上新！DeepGEMM 发布，有哪些突破点值得一看？

“DeepSeek 又上新！DeepGEMM 发布，有哪些突破点值得一看？” 的相关文章

DeepSeek谈艺 | 岳海涛：斑斓的色彩与悠然的气韵交融，构建出具有东方诗性智慧的视觉叙事体系

R2来之前，DeepSeek又放了个烟雾弹

DeepSeek严选“春茶饮用指南”，是谁的DNA动了

时空科技：公司业务暂未涉及DeepSeek

联想百应智能体正式官宣引入DeepSeek

DeepSeek概念股普遍加大绿电使用并升级算力专家提醒注意碳排放数据真实性

温馨提示：
DeepSeek爱好者为非盈利站点，所有内容均来自网络整理，不保证内容的真实性。

Powered By Z-BlogPHP. Theme by TOYEAN.

DeepSeek 又上新！DeepGEMM 发布，有哪些突破点值得一看？

“DeepSeek 又上新！DeepGEMM 发布，有哪些突破点值得一看？” 的相关文章

DeepSeek谈艺 | 岳海涛：斑斓的色彩与悠然的气韵交融，构建出具有东方诗性智慧的视觉叙事体系

R2来之前，DeepSeek又放了个烟雾弹

DeepSeek严选“春茶饮用指南”，是谁的DNA动了

时空科技：公司业务暂未涉及DeepSeek

联想百应智能体正式官宣引入DeepSeek

DeepSeek概念股普遍加大绿电使用并升级算力 专家提醒注意碳排放数据真实性

Powered By Z-BlogPHP. Theme by TOYEAN.

DeepSeek概念股普遍加大绿电使用并升级算力专家提醒注意碳排放数据真实性