当前位置:首页 > Deepseek应用场景 > 正文内容

DeepSeek推理性能提升3.8倍 AMD发布ROCm 7开发平台以及开发者云

当地时间6月12日,AMD发布全新Instinct MI350系列AI加速器,带来暴涨的AI性能,而且“还有高手”——AMD表示将在2026年发布的Instinct MI400系列,性能相比MI355X最多提升超过10倍!

  卓越的算力夯实了AI的根基,但想要转化为生产力、解决方案,加速AI生态发展,还离不开软件。特别是进入2025年后,在DeepSeek等AI大模型的创新技术带动下,AI加速普惠及规模化应用,让企业、开发者、用户更容易在端边云等更多场景下部署大模型,并将大模型融入业务工作流或者日常生活、创作等场景下。但想让这项进程更加流畅顺滑,易用且好用的开发平台至关重要。

  对此AMD给出的应对方案是ROCm以及开发者云平台。

  作为AMD Advancing AI 2025的重要亮点,AMD宣布推出ROCm 7以及AMD开发者云。

  ROCm 7:性能大幅提升,功能更丰富的开放软件堆栈

  先来看ROCm 7,围绕最新的模型与算法支持、最新的AI特性、MI350系列等新硬件支持、集群管理与企业级特性、提供对AMD Radeon和Windows更广泛支持等方面带来提升,以加速AI创新和提升开发者使用效率。AMD提到,ROCm 7及其新特性将于2025年第三季度全面上线。

  面对持续增加的推理需求,ROCm 7带来了一系列全新特性,包括增强的框架、Serving优化、内核与算法改进、高级数据类型(FP8/FP6/FP4/混合)、优化GPU利用率和数据传输的通信堆栈等,由此实现了推理性能的提升。

  根据AMD公布的数据,在Llama 3.1 70B、Qwen 2 72B、DeepSeek R1的推理测试中,ROCm 7性能相比ROCm 6平均提升了3.5倍,最高达到了3.8倍。

  而且当ROCm 7“叠加”Instinct MI355X时,性能表现也相当出色,DeepSeek R1 FP8吞吐量可以领先NVIDIA B200达到30%。

  训练方面,ROCm 7同样提供多个新特性,包括支持多个AMD开源模型、增强的AI框架、提升的内核与算法、支持BF16/FB8数据类型等等。

  在Llama 2 70B、Llama 3.1 8B、Qwen 1.5 7B测试中,ROCm 7的训练性能相比ROCm 6平均提升达到3倍。

  得益于与开源生态系统的合作,ROCm 7引入了强大的分布式推理方法,包括SGLang、vLLM和llm-d等框架。通过采用开放战略,ROCm 7与合作伙伴共同构建、共同开发共享接口和原语,实现在AMD平台上高效分布式推理。

  ROCm Enterprise AI作为一款强大的MLOps平台,专为企业环境中的无缝AI运营而设计,提供端到端的解决方案。它包含使用行业特定数据进行模型微调的工具,以及与结构化和非结构化工作流程集成的工具,并由AMD生态系统内的合作伙伴提供支持,用于开发聊天机器人和文档摘要等参考应用程序。

  就目前AI用例而言,企业是端边云部署大模型且将AI融入工作流最常见场景。例如,企业通过自身IT基础设施构建专属知识库、企业办公助手,又或者在办公场景中以大模型提升会议、协作、创作效率等等。但是由于企业自身IT能力的参差不齐,以及对于数据隐私安全的高度重视等难点,让AI本地化部署既成为趋势,也成了挑战。ROCm Enterprise AI恰好能够针对企业需求提供相应的功能、特性,将有助于企业完善自身AI方案,或由开发者针对痛点,打造更有价值的解决方案。

  除此之外,ROCm 7进一步优化了在AMD Radeon、Windows上的应用体验,在Windows平台上新增支持PyTorch、ONNX-EP两大框架。此外,ROCm 7还新增原生支持Red Hat EPEL、Ubuntu、OpenSUSE等更多的Linux系统发行版,进一步拓展使用场景,让开发者可以更好地利用现有终端设备进行AI开发,例如Ryzen笔记本或工作站等产品,也让ROCm的准入门槛更低,就像AMD所言,让“ROCm无处不在,人人适用”。

  另外AMD也将持续投入,通过以开发者为中心的活动、各类相关教程资源等多个维度赋能开发者。

  AMD开发者云:让开发者更易于访问、开箱即用

  AMD开发者云具备零设置环境、预装Docker容器和灵活性、率先支持Instinct MI350系列GPU系统、免费开发者积分免费提供云使用时长等亮点,与ROCm 7配合可以进一步助力开发者提升效率,降低使用门槛。

  AMD表示,开发者云已经同步面向全球开发者、开源社区开放,无需任何硬件投资或本地设置就可即时访问AMD Instinct MI300X GPU,并可选1x MI300X GPU(192GB GPU内存)或8x MI300X GPU(1536GB GPU内存)。

  写在最后

  如果算力是种类丰富的食材,那么开发者平台、软件栈就是厨具和调味料,在开发者手中发挥得当加上持续创新下才能给用户、企业呈现精美的菜肴(解决方案、软件应用),进而保证AI的价值和吸引力,避免“食之无味弃之可惜”的尴尬局面。

  AMD通过ROCm 7加速AI从算法到基础架构各个层面的创新,为软件堆栈带来真正的竞争和开放性。同时,AMD推出开发者云、与开源社区紧密合作等举措,向着“开箱即用”的易于访问生态系统演进,践行了“开发者至上”的理念。这不仅有利于AMD在AI浪潮中提升产品力和竞争力,也能够为繁荣AI生态持续注入新鲜血液和创新要素。

  让人期待的是,随着AMD产品在端边云市场出色的表现,以及ROCm平台的不断完善,软硬件协同优化将有机会持续加速AI普惠。届时从AI PC等终端用户,到行业解决方案、数据中心都将受益于来自开发者们的AI创新升级。


“DeepSeek推理性能提升3.8倍 AMD发布ROCm 7开发平台以及开发者云” 的相关文章

成都企业“抢滩”DeepSeek

成都企业“抢滩”DeepSeek

成都企业“抢滩”DeepSeek最近,国产AI公司深度求索发布的大模型DeepSeek火爆全球,在各行各业掀起AI生态“抢滩登陆战”。自2024年12月上线并开源以来,DeepSeek就以其卓越的性能...

医生自嘲“天塌了”!病人查DeepSeek后质疑治疗方案,关键还说对了!AI看病靠谱吗?

医生自嘲“天塌了”!病人查DeepSeek后质疑治疗方案,关键还说对了!AI看病靠谱吗?

本文转自【新民晚报】;“天都塌了!病人DeepSeek后质疑我的治疗方案,气得我自己又查了一遍指南,才发现指南更新了……”2月22日,广东一位医学博主“孤芳自赏”的网帖引起网友热议。截至23日14时,...

从算力底座到生态繁荣 昇腾如何为江苏AI新纪元铺路?

从算力底座到生态繁荣 昇腾如何为江苏AI新纪元铺路?

 从数智赋能公共服务水平提升,到大模型本地部署打造数智员工,再到AI+警务、AI+医疗、AI+办公等行业应用释放新质生产力……  在前不久的“激发新质动能 智绘江苏蓝图”主题媒体探营暨“昇腾新动力 D...

中国电信舟山分公司:自研完成全市首个DeepSeek本地化应用,深度赋能社会救助数智化转型

中国电信舟山分公司:自研完成全市首个DeepSeek本地化应用,深度赋能社会救助数智化转型

自DeepSeek全新开源模型掀起AI浪潮以来,中国电信舟山分公司作为数字舟山建设的主力军,凭借强大的技术实力和创新能力,迅速行动、深度探索DeepSeek大模型融合各行各业,为舟山市民政局率先实现D...

特斯联完成摩托车产业打造首个DeepSeek应用案例

特斯联完成摩托车产业打造首个DeepSeek应用案例

近日,特斯联完成摩托车行业首例深度融合DeepSeek的应用案例,助力某上市厂商与DeepSeek全场景无缝融合,打造AI助理,开启摩托车智慧出行新范式。来源: 同花顺7x24快讯...

海南机场接入DeepSeek,助力智慧机场建设,将推动智能化应用场景全面落地

海南机场接入DeepSeek,助力智慧机场建设,将推动智能化应用场景全面落地

2月23日,海南机场接入DeepSeek人工智能大模型,在智慧民航领域的创新探索迈出了重要一步。此次部署基于私有化架构,结合企业级向量知识库技术,将核心业务数据存储于专属私域环境,构建起全方位、多层次...