研究:用诗歌就能让AI说违禁内容,成功率达62%

  发布时间:2025-12-10 08:21:38   作者:玩站小弟   我要评论
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》 。

IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容周口市某某金属制品经销部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制


该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功周口市某某金属制品经销部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容

IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。

尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”

相关文章

  • 业主“抱团保价”,只是最后的倔强

    当经济进入调整周期,还天天想着房子会升值,这就是你的不对了。如果还看不出,狂飙时代已经彻底过去了,那更是一种后知后觉。撰文丨魏英杰楼市的事情,很多人都不关心了。其实就是那么一回事,多说无益。不过,前些
    2025-12-10
  • 激动!1.4万/㎡起!新盘批量爆发,含保利软新项目、众邦第五代智慧宅!

    西安又双叒叕有新项目了!保利软新旁纯新盘曝光案名,众邦西安首个高端第五代智慧住宅户型曝光,同时,据透露,中粮在奥体的热销红盘即将加推最后4栋楼……等新房源批量来袭~Part.01保利云谷和著保利又一纯
    2025-12-10
  • 中国航展|高空隐身杀手锏、“炸弹卡车”、“彩虹”无人机惊艳亮相

    多款达到世界先进水平的“彩虹”新型无人机首次在中国航展公开。随着无人机技术的快速发展,无人机成为近几届中国航展的重要看点之一。在本届中国航展上,中国航天科技集团有限公司第十一研究院展示了“彩虹”系列无
    2025-12-10
  • 又美又飒!直

    今天,第十五届中国航展开幕陆军首批自主培养的女飞行员徐枫灿在直升机静态展示现场担任装备静态展示解说员在第十四届中国航展上徐枫灿就曾担当解说员在静态展示区为大家解说直-20机型在航展现场徐枫灿还向有志青
    2025-12-10
  • 梅西卫冕世界杯几率13%!C罗仅4.5%可能夺冠,西班牙20%最大热门

    北京时间12月6日,2026年世界杯抽签结束,48强分别落座,有网站进行大数据分析预测,更新了各支球队的夺冠几率。头号热门是欧洲杯冠军西班牙,他们小组出线的几率超过99%,晋级16强的几率达到76%,
    2025-12-10
  • 契税优惠 北京百盘打“95”折(附百盘全表)

    契税调整以后,我们发现得益的是90-140平米之间的户型。因为原先这部分,不管是首套的1.5%还是二套的3%,现在统一都变成了1%,所以交契税确实是实惠的。怕大家不理解契税政策是怎么变的,在此给大家做
    2025-12-10

最新评论

hgtkbf.com