当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

7个月前 (02-26)DeepSeek技术交流513

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

DeepSeek谈艺 | 岳海涛:斑斓的色彩与悠然的气韵交融,构建出具有东方诗性智慧的视觉叙事体系

DeepSeek谈艺 | 岳海涛:斑斓的色彩与悠然的气韵交融,构建出具有东方诗性智慧的视觉叙事体系

新春以来,DeepSeek成为各个行业所聚焦的热点话题。这个融合了人工智能与大数据分析的前沿平台,正逐步揭开其神秘面纱,展现出对各行各业颠覆性的潜力。随着DeepSeek技术的不断成熟与普及,我们正站...

R2来之前,DeepSeek又放了个烟雾弹

R2来之前,DeepSeek又放了个烟雾弹

5 月前后,DeepSeek 的动作倒是频繁,却都不是大家期待的 R2。不过,一系列前菜已经给 R2 做足了铺垫。5 月 14 日,一篇 DeepSeek V3 论文,揭示了梁文峰是如何做到 &quo...

DeepSeek严选“春茶饮用指南”,是谁的DNA动了

DeepSeek严选“春茶饮用指南”,是谁的DNA动了

“明前茶,贵如金”眼下,正是品尝明前茶的好时候清明前茶树的芽叶最嫩且产量有限我们请DeepSeek当推荐官生成了一份“春茶饮用指南”来看看它的严选↓↓西湖龙井·浙江“明前茶标杆”龙井,当前最为应季。清...

时空科技:公司业务暂未涉及DeepSeek

时空科技:公司业务暂未涉及DeepSeek

  证券日报网讯 时空科技2月19日在互动平台回答投资者提问时表示,公司业务暂未涉及DeepSeek。(编辑 王雪儿)...

联想百应智能体正式官宣引入DeepSeek

联想百应智能体正式官宣引入DeepSeek

近日,联想百应智能体正式官宣引入DeepSeek,二者的结合,将催生出前所未有的创新机遇。DeepSeek以领先的大模型技术实力和超低的训练成本火爆全球,而联想凭借在AI领域的深厚积累,迅速将联想百应...

DeepSeek概念股普遍加大绿电使用并升级算力 专家提醒注意碳排放数据真实性

DeepSeek概念股普遍加大绿电使用并升级算力 专家提醒注意碳排放数据真实性

“因为自己淋过雨,所以想为他人撑一把伞。”李连才是科大讯飞(SZ002230,股价47.86元,市值1106亿元)程序员,也是一位在黑暗中摸索的视障者。在2025年4月讯飞星火智能体挑战赛中,他为视障...