当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

4个月前 (02-26)DeepSeek技术交流224

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

华自科技:公司水利水电智能运维大模型已完成DeepSeek全面接入

华自科技:公司水利水电智能运维大模型已完成DeepSeek全面接入

每经AI快讯,华自科技3月7日在互动平台表示,公司“共工”水利水电智能运维大模型已完成DeepSeek全面接入,将焕新升级“智能交互、数据驱动、深度思考、主动服务”四大核心能力,以AI深度协同赋能水利...

“DeepSeek 启智计划”把AI青年力注入青年夜校

“DeepSeek 启智计划”把AI青年力注入青年夜校

中国青年报客户端讯(中青报·中青网记者 胡春艳 通讯员 周晓曦 刘昌利)近日,在天津市河北区时代书吧,来自国网天津信通公司的青年志愿者们正在面向青年群体宣讲DeepSeek使用方法和操作技巧,助力夜校...

OpenAI打小报告,要求禁用DeepSeek

OpenAI打小报告,要求禁用DeepSeek

OpenAI又双叒叕对DeepSeek下黑手了!就在上周,3月13日,OpenAI向美国政府提交了一份长达15页的“举报信”,称DeepSeek R1会带来“重大风险”,并要求美国政府采取行动。不仅偷...

北京大学联合华为发布全栈开源 DeepSeek 推理方案

北京大学联合华为发布全栈开源 DeepSeek 推理方案

IT之家 3 月 10 日消息,据华为技术有限公司和北京大学高性能计算校级公共平台消息,2025 年 3 月 9 日,北京大学联合华为发布 DeepSeek 全栈开源推理方案。据介绍,该方案...

DeepSeek 赋能医疗:福州大学附属省立医院解锁医疗 AI 新范式

DeepSeek 赋能医疗:福州大学附属省立医院解锁医疗 AI 新范式

在人工智能技术飞速发展的时代,医疗领域正面临着深刻的变革。AI技术在辅助诊疗、智慧病理、病例生成以及医疗科研等场景的应用,不仅能够有效提升医疗服务的效率与质量,更为攻克医学难题提供了新的方法与思路。为...

Deepseek对百度搜索的冲击有多大?

Deepseek对百度搜索的冲击有多大?

纯从技术出发,Deepseek并没有远胜于国内字节豆包,阿里通义和腾讯元宝,或者微软必应集成的ChatGPT,先行用上AI的这波人本身就不会用百度,但这波国家带动的热度炒作让更多普通人用上新一代的人工...