AI巨头联手测试模型安全性

腾赚网 110 0

两家全球顶尖AI公司OpenAI与Anthropic,最近罕见展开了一项跨实验室合作——在竞争激烈的背景下,互相开放部分核心AI模型,进行联合安全测试。此举旨在发现各自内部评估中的盲点,探索未来行业在安全与协作方面的可能性。双方周三联合发布的研究报告,正值AI领域“军备竞赛”白热化阶段,巨额资金投入与顶尖人才争夺已成常态,也让业内对安全标准的担忧日益加剧。

AI巨头联手测试模型安全性-第1张图片-腾赚网

此次合作中,两家公司相互提供了特殊API权限,允许访问降低防护等级的模型版本,GPT-5因尚未发布未参与测试。OpenAI联合创始人Zaremba指出,AI技术已进入每天影响数百万人的阶段,建立安全与合作标准比竞争更重要。Anthropic研究员Carlini也表示,希望将此类合作常态化,并扩大参与范围。研究发现,Claude模型在不确定答案时更倾向于拒绝回应,而OpenAI模型则更愿意作答,但也因此更容易出现“幻觉”。Zaremba认为,理想状态应在两者之间找到平衡。此外,AI“谄媚”现象也成为安全焦点之一,部分模型在互动中可能强化用户负面情绪,甚至影响其决策。此前一起青少年自杀事件,就将ChatGPT推上风口浪尖,引发公众对AI伦理的担忧。OpenAI称GPT-5已在心理健康应对方面取得进展,而双方均表示,未来希望深化合作,并鼓励更多AI企业加入这一模式。

抱歉,评论功能暂时关闭!