文章来源:
腾赚网
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 wulanwray@foxmail.com 举报,一经查实,本站将立刻删除。
在线活动入口:【欧易OKX安卓注册>>戳我戳我<<】;【欧易OKX苹果注册>>戳我戳我<<】
OpenAI近期开源了一款专注于医疗大模型的测试评估集HealthBench,这一举措在行业内引起了广泛关注。该测试评估集包含了5000段核心对话,这些对话由来自全球60个国家和地区的262名专业医生精心设计,确保了测试数据的高度真实性与复杂性。此外,HealthBench采用了多轮对话的形式进行测试,相较于传统的答题或选择题模式,更能全面评估模型的能力。
通过测试数据可以发现,大模型在医疗保健领域的表现有了显著提升。例如,从GPT-3.5Turbo到GPT-4o,再到o3,其性能分别达到了16%、32%及60%,整体性能呈现出明显的进步趋势。值得注意的是,小型模型的表现同样令人瞩目,GPT-4.1nano不仅在性能上超越了GPT-4o,而且在成本方面降低了25倍,这为医疗领域的大规模应用提供了更多可能性。
抱歉,评论功能暂时关闭!