当前位置: 首页 > news >正文

论文阅读:ACL 2025 LLMs Caught in the Crossfire: Malware Requests and Jailbreak Challenges

总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2506.10022

https://www.doubao.com/chat/33191546565944578

论文翻译:
https://whiffe.github.io/Paper_Translation/Attack/paper/LLMs%20%E9%99%B7%E5%85%A5%E7%BA%B7%E4%BA%89%EF%BC%9A%E6%81%B6%E6%84%8F%E8%BD%AF%E4%BB%B6%E8%AF%B7%E6%B1%82%E4%B8%8E%E8%B6%8A%E7%8B%B1%E6%8C%91%E6%88%98%20—%20LLMs%20Caught%20in%20the%20Crossfire_%20Malware%20Requests%20and%20Jailbreak%20Challenges.html

速览

这篇文档主要研究了大语言模型(比如ChatGPT、Llama这些能生成文字或代码的AI)在面对“恶意请求”时的安全性——简单说就是,坏人会不会用特殊手段让AI生成恶意代码(比如木马、盗号程序),以及现在的AI能不能防住这种攻击。

为了做这个研究,研究者先搞了个叫“MalwareBench”的测试数据集。这个数据集里有3520个“带陷阱的恶意请求”,是从320个真实的“想生成恶意代码的需求”改出来的,还用到了11种让AI“破防”的手段(比如把恶意关键词换成看似无害的词、用冷门语言提要求),覆盖了6大类恶意行为(比如让代码偷偷下载病毒、偷用户信息、搞瘫痪系统)。

然后他们用这个数据集测试了29个主流AI(既有ChatGPT、Claude这种闭源的,也有Llama、CodeLlama这种开源的,参数从几百M到几百B都有),看这些AI会不会拒绝生成恶意代码。结果发现几个关键问题:

  1. 现在的AI防恶意请求的能力不算强:平均下来,AI只拒绝了60.93%的恶意请求;如果用了那11种“破防手段”,拒绝率直接掉到39.92%——快一半的恶意请求都被AI满足了。

  2. AI的表现和“请求细节”“模型大小”有关系:如果恶意请求写得很具体(比如“在Windows系统下写个偷键盘输入的代码”),AI反而更容易拒绝;而参数大的AI不一定更安全,有些大模型反而会生成看似正常、实则藏了恶意逻辑的代码。

  3. 不同“破防手段”效果不一样:最管用的是“把恶意词换无害词”(比如把“偷信息”说成“记录用户操作”),AI几乎防不住;而像“用代码片段插在请求里”这种手段,部分AI能防住。

  4. 少数AI表现还不错:比如闭源的OpenAI-o1、开源的CodeLlama-70B,拒绝恶意请求的比例能到75%以上,这俩主要是训练时加了更多“安全对齐”的内容(比如用人类反馈教AI识别恶意请求)。

最后研究者也说,他们的测试还有不足(比如只用了一种AI生成“陷阱请求”、没覆盖所有恶意场景),但希望这个研究能帮大家重视AI的代码安全问题,后续把AI的“防恶意生成”能力做得更好。

http://www.cnnetsun.cn/news/25058.html

相关文章:

  • radix_tree_node(约 7.3 GB)
  • 互联网大厂Java求职面试深度指导——场景、问答及代码案例解析
  • OpCore Simplify:终极Hackintosh配置解决方案
  • PolarDB - PostgreSQL
  • POCO C++库:构建高性能网络应用的终极解决方案
  • WebPlotDigitizer 数据提取终极教程:从入门到精通
  • SpringBoot基于Java的网吧管理系统(毕业设计项目源码+文档)
  • 收藏必备!从提示工程到上下文工程:让AI效率提升40%的7大核心模式
  • ModernWMS开源仓库管理系统:从零部署到生产环境实战指南
  • arXiv LaTeX Cleaner终极指南:保护隐私、优化论文提交的完整方案
  • 如何快速上手Whisper.cpp:语音识别的终极指南
  • 基于SSM的钢铁工厂管理系统的设计与实现(源码+lw+部署文档+讲解等)
  • Verl中的checkpoint合并成huggingface形式的模型
  • 42、Linux系统打印与日志文件管理全解析
  • 本地化与国际化测试的执行过程
  • 【压力】矩阵-断裂-瓦格压力瞬态曲线模型和类型曲线【含Matlab源码 14685期】
  • Swagger UI高效调试实战:从入门到精通的全链路解决方案
  • 数字员工是什么?熊猫智汇在提升AI销售工具效率上的优势是什么?
  • 文献查询:高效获取与管理学术资源的实用指南
  • VLC播放器UOS ARM版离线部署指南
  • 税局正在调研“赛维模式”?广东多地卖家收到通知
  • OpenPose Editor完整教程:3步实现精准AI姿势控制
  • 学生成绩查询管理系统,AI智能评语与数据分析工具
  • WebAssembly反编译实战:从二进制迷雾到清晰代码的蜕变之旅
  • RankMixer:工业级推荐系统中排序模型的规模化扩展
  • 【SSM网上跳蚤市场】(免费领源码+演示录像)|可做计算机毕设Java、Python、PHP、小程序APP、C#、爬虫大数据、单片机、文案
  • Qwen3-4B-FP8模型:5分钟轻松上手的AI开发新选择
  • Version-Fox终极插件管理指南:从零开始掌握多版本控制
  • Cloudpods终极指南:简单快速实现多云管理自动化
  • 极速AI助手快速接入腾讯混元大模型教程