DeepSeek V3.1 Base突袭上线!击败Claude 4编程爆表,全网
:V3.1在Aider编程基准测试中取得71.6%高分,超越Claude Opus 4,同时推理和响应速度更快。
这次最明显的变化是,DeepSeek在官方APP和网页端上,把深度思考(R1)中的「R1」去掉了。
在MMLU多任务语言理解方面,DeepSeek V3.1毫不逊色于GPT-5。不过在,编程、研究生级基准问答、软件工程上,V3.1与之有一定的差距。
一位网友实测,模拟六边形中小球自由落体的物理测试,DeepSeek V3.1理解力明显提升。
相当于整本《红楼梦》正文(约80–100万字)的1/6–1/8deepseek,或者一篇超长博士论文/大部头学术专著。
在128K上下文测试中,DeepSeek-V3.1输出速度相比以往获得较大提升,并且在工程上做了一些优化。
整个活,给DeepSeek-V3.1上点压力,让它根据「梦」这个字,输出尽可能多的内容,尽量达到上下文极限。原文出处:DeepSeek V3.1 Base突袭上线!击败Claude 4编程爆表,全网在蹲R2和V4,感谢原作者,侵权必删!