AI巨头联手测试模型安全性

腾赚网 2025年08月28日 14:04 152 0

两家全球顶尖AI公司OpenAI与Anthropic，最近罕见展开了一项跨实验室合作——在竞争激烈的背景下，互相开放部分核心AI模型，进行联合安全测试。此举旨在发现各自内部评估中的盲点，探索未来行业在安全与协作方面的可能性。双方周三联合发布的研究报告，正值AI领域“军备竞赛”白热化阶段，巨额资金投入与顶尖人才争夺已成常态，也让业内对安全标准的担忧日益加剧。

AI巨头联手测试模型安全性-第1张图片-腾赚网

此次合作中，两家公司相互提供了特殊API权限，允许访问降低防护等级的模型版本，GPT-5因尚未发布未参与测试。OpenAI联合创始人Zaremba指出，AI技术已进入每天影响数百万人的阶段，建立安全与合作标准比竞争更重要。Anthropic研究员Carlini也表示，希望将此类合作常态化，并扩大参与范围。研究发现，Claude模型在不确定答案时更倾向于拒绝回应，而OpenAI模型则更愿意作答，但也因此更容易出现“幻觉”。Zaremba认为，理想状态应在两者之间找到平衡。此外，AI“谄媚”现象也成为安全焦点之一，部分模型在互动中可能强化用户负面情绪，甚至影响其决策。此前一起青少年自杀事件，就将ChatGPT推上风口浪尖，引发公众对AI伦理的担忧。OpenAI称GPT-5已在心理健康应对方面取得进展，而双方均表示，未来希望深化合作，并鼓励更多AI企业加入这一模式。

本文地址： https://www.tengzhuan.com/post/758040.html

文章来源：腾赚网