2024年4月4日

大模型遭“越狱”攻击？安全防护何去何从！,微软携手OpenAI豪掷千亿！星际之门超级计算机要来了？,OpenVoice火爆来袭，音色克隆竟能如此逼真？！,OpenAI再掀波澜！ChatGPT免注册体验，AI新世界触手可及？,美国联邦贸易委员会拒绝批准“刷脸”年龄识别技术,英美联手打造AI安全新标杆，科学合作伙伴关系正式建立,音乐界的ChatGPT？天工SkyMusic邀您体验AI音乐创作,支付宝全新发布“AI就医助理”，全面优化患者就医体验,三星计划升级Bixby：融入ChatGPT式AI技术,OpenAI本月登陆日本东京，亚洲首个办事处即将启幕,WPS推出AI会员服务，月费25元起，开启AI办公新纪元,马斯克再谈AI风险：利大于弊仍值得冒险,DBRX重磅来袭：开源AI界的新霸主，超越GPT-3.5的壮举！,谷歌Pixel 8手机AI功能受限，6月更新或带来转机？,华为云携手贵安新区，共筑全球领先智算高地,全球生产加速，特斯拉宣布第600万辆汽车顺利下线

作者算力云

马拉维vps,厦门服务器_

【ITBEAR科技资讯】4月3日消息，随着人工智能技术的飞速发展，大型语言模型(LLM)的上下文窗口长度不断扩展，为模型提供了更丰富的语义信息和更强的文本理解能力。然而，最新研究揭示，这种增长同时也为LLM带来了新的安全风险。

据Anthropic公司最新发布的研究论文显示，他们发现了一种被称为“多样本越狱攻击”(Many-shot jailbreaking)的新型攻击方法，该方法能够利用LLM的长上下文窗口来规避开发者设置的安全防护措施。通过向模型提供包含大量文本的特定配置，攻击者能够迫使LLM产生潜在的有害响应，即使这些响应在模型训练过程中是被明确禁止的。

多样本越狱攻击的基础在于LLM对上下文的强大处理能力。过去一年中，LLM的上下文窗口从一篇长文的规模扩展到了数百万个token，相当于几本长篇小说的长度。这种增长使得模型能够处理更复杂、更长的对话和文本输入，但也为攻击者提供了可乘之机。

Anthropic的研究团队通过实验验证了这一攻击方法的有效性。他们发现，通过在提示中包含大量假对话，攻击者能够诱导LLM越过安全防护措施，回答一些本应被拒绝的危险或有害问题。这种攻击方法不仅简单，而且效果显著，对LLM的安全防护构成了严重威胁。

这种攻击方法并非针对特定模型，而是对具有较长上下文窗口的LLM普遍有效。这意味着，随着大模型技术的广泛应用，这一安全漏洞可能会对更多的人工智能系统造成潜在威胁。

针对这一发现，Anthropic已经提前向其他人工智能开发商介绍了这一漏洞，并已经在自家模型Claude上实施了缓解措施。然而，目前尚未发现根本解决方案，大型语言模型的安全防护仍然面临严峻挑战。

业界专家指出，随着大模型技术的不断发展，其安全性问题将越来越突出。如何确保大型语言模型在处理复杂、敏感信息时的安全性和稳定性，将成为未来研究的重点之一。同时，对于人工智能技术的监管和伦理问题也将引发更多讨论和关注。

在这个背景下，大型语言模型的安全防护方案显得尤为重要。除了加强模型自身的安全防护措施外，还需要建立严格的访问控制和权限管理机制，确保只有经过授权的人员才能访问和使用大模型。此外，数据隐私保护也是不可忽视的一环，必须采取有效措施保护敏感数据不被泄露或滥用。

大型语言模型的安全问题亟待解决。随着技术的不断进步和应用场景的扩展，我们需要更加深入地研究和探索如何确保大型语言模型的安全性和稳定性，为人工智能技术的可持续发展提供有力保障。