Z 您现在的位置: > 科技 > 防范AI模型越狱,新技术保护措施来了

防范AI模型越狱,新技术保护措施来了

2025-02-05 17:15:22来源:www.luwei123.com发布:二蛋

为了应对人工智能工具中存在的滥用自然语言提示的问题,Anthropic公司推出了一项名为“宪法分类器(constitutional classifiers)”的新概念。该技术将类似于人类价值观的宪法植入大型语言模型中,以防止模型超越安全防护范围生成超出预期的输出内容。

这项安全保障研究团队在最新学术论文中公布了这一新的安全措施。他们发现,在实施宪法分类器后,针对Claude3.5 Sonnet(即 Anthropic 公司最新的大型语言模型)的成功越狱情况减少了81.6%。同时,宪法分类器对性能的影响极小,“生产流量拒绝率仅绝对增加0.38%,推理开销增加23.7%”。

Anthropic公司还发布了一个演示项目,向用户发起挑战,让他们尝试突破8个与化学、生物、放射和核(CBRN)相关内容相关的越狱关卡。然而,这一举措也引发了一些批评声音,有人认为这相当于众包安全志愿者或“红队队员”。有人质疑:“所以你是让社区无偿为你工作,好让你在闭源模型上赚取更多利润?”

Anthropic公司指出,成功越狱的模型是绕过了宪法分类器的防御措施,并非直接规避它们。他们列举了两种越狱方法:良性释义和长度利用。良性释义是指通过改变表述方式来欺骗大型语言模型;长度利用则是通过无关细节误导模型。

然而, Anthropic 公司也承认,在测试期间提交的提示“拒绝率高得离谱”,意识到其基于规则的测试系统存在误报和漏报的可能性。

总之,Anthropic公司的新安全措施在遏制大型语言模型越狱方面取得了一定成果,并展示出宪法分类器在解决自然语言提示滥用问题上的潜力。然而,需要注意的是这些技术并不能完全解决所有问题,并且需要进一步的研究和改进。

本站内容来源于互联网,旨在传递更多信息,并不意味着本站赞同其观点或证实其真实性。若涉及侵权问题,请与我们联系,我们将尽快予以处理

Copyright © 2017-2024 www.luwei123.com All rights reserved 芦苇下载站 版权所有

备案号:闽ICP备2024036174号-5

芦苇下载站订阅号