防范AI模型越狱，新技术保护措施来了

2025-02-05 17:15:22来源：www.luwei123.com发布：二蛋

为了应对人工智能工具中存在的滥用自然语言提示的问题，Anthropic公司推出了一项名为“宪法分类器（constitutional classifiers）”的新概念。该技术将类似于人类价值观的宪法植入大型语言模型中，以防止模型超越安全防护范围生成超出预期的输出内容。

这项安全保障研究团队在最新学术论文中公布了这一新的安全措施。他们发现，在实施宪法分类器后，针对Claude3.5 Sonnet（即 Anthropic 公司最新的大型语言模型）的成功越狱情况减少了81.6%。同时，宪法分类器对性能的影响极小，“生产流量拒绝率仅绝对增加0.38%，推理开销增加23.7%”。

Anthropic公司还发布了一个演示项目，向用户发起挑战，让他们尝试突破8个与化学、生物、放射和核（CBRN）相关内容相关的越狱关卡。然而，这一举措也引发了一些批评声音，有人认为这相当于众包安全志愿者或“红队队员”。有人质疑：“所以你是让社区无偿为你工作，好让你在闭源模型上赚取更多利润？”

Anthropic公司指出，成功越狱的模型是绕过了宪法分类器的防御措施，并非直接规避它们。他们列举了两种越狱方法：良性释义和长度利用。良性释义是指通过改变表述方式来欺骗大型语言模型；长度利用则是通过无关细节误导模型。

然而， Anthropic 公司也承认，在测试期间提交的提示“拒绝率高得离谱”，意识到其基于规则的测试系统存在误报和漏报的可能性。

总之，Anthropic公司的新安全措施在遏制大型语言模型越狱方面取得了一定成果，并展示出宪法分类器在解决自然语言提示滥用问题上的潜力。然而，需要注意的是这些技术并不能完全解决所有问题，并且需要进一步的研究和改进。

本站内容来源于互联网，旨在传递更多信息，并不意味着本站赞同其观点或证实其真实性。若涉及侵权问题，请与我们联系，我们将尽快予以处理

上一篇： 特斯拉上海储能超级工厂竣工 20万平方米总投资约14.5亿元 下一篇： 最后一篇

防范AI模型越狱，新技术保护措施来了

相关阅读

热门资讯