DeepSeek新模型性能媲美OpenAI的O3

腾赚网 31 0

DeepSeek昨晚宣布其R1模型完成小版本升级,并开源最新版DeepSeek-R1-0528。测试显示,该模型性能可比肩OpenAI的o3模型。普通用户小K参照xbench例题,在官网对两款模型进行对比测试。第一题要求生成网页版“三国杀”游戏代码,DeepSeek直接输出完整源码且能运行,界面美观;OpenAI则需手动整合代码块,运行报错,界面粗糙。此题DeepSeek胜出。

DeepSeek新模型性能媲美OpenAI的O3-第1张图片-腾赚网

第二题为函数推导题,DeepSeek耗时351秒得出正确答案,过程详细但时间较长;OpenAI仅用41秒完成,逻辑精炼。第三题涉及地理常识,DeepSeek漏算部分地市,仅答出5个;OpenAI正确回答12个。第四题考历史细节,DeepSeek出现误判,将文物关联错误;OpenAI精准识别并引用史料。第五题统计乐队女性成员数量,DeepSeek高效完成且总结角色,OpenAI虽结果相同但耗时过长。总体来看,DeepSeek在多项任务中表现接近甚至超越OpenAI的O3模型。

抱歉,评论功能暂时关闭!