【AI红队:构建安全AI只是梦想】萍聚社区-德国热线-德国实用信息网人工智能

新闻发表于 2025-1-20 09:42

AI红队:构建安全AI只是梦想

作者：微信文章
点击上方“蓝色字体”，选择 “设为星标”
关键讯息，D1时间送达！

https://mmbiz.qpic.cn/mmbiz_png/ianq03UUWGmIjdcvsRu9vwib8r3GibibtkQ76vGtFtHTbTPt4Mv8DeVcFvCNnaC5QLD1DibIL4CllIO0szRSzdd0L4g/640?wx_fmt=other&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp

负责100多个GenAI产品红队测试的团队在论文中指出，构建安全可靠的AI系统是一项永无止境的任务。论文提出了八项建议，旨在使红队测试与现实世界风险相一致。团队开发了开源框架PyRIT来辅助自动化测试，并强调了解系统功能、优先考虑简单攻击技术、区分红队测试与安全基准测试、利用自动化、重视人为因素等关键教训。

负责微软100多个GenAI产品红队测试的团队得出结论，构建安全可靠的AI系统的工作永远不会完成。本周发表的一篇论文中，包括微软Azure首席技术官Mark Russinovich在内的作者们描述了团队的一些工作，并提出了八项建议，旨在“使红队测试工作与现实世界的风险相一致”。论文的主要作者、微软AI红队(AIRT)研究员Blake Bullwinkel和他的25位合著者在论文中写道：“随着GenAI系统在越来越多领域的应用，AI红队测试已成为评估这些技术安全性和可靠性的核心实践。”他们表示，从根本上讲，“AI红队测试力求通过模拟对端到端系统的真实世界攻击，超越模型级别的安全基准，然而，关于如何开展红队测试操作，仍存在许多未解之问，并且对当前AI红队测试工作的有效性也存在相当程度的怀疑。”论文指出，微软AI红队于2018年成立时，主要专注于识别传统安全漏洞和针对经典机器学习模型的规避攻击。“自那时以来，”论文称，“微软AI红队的范围和规模都显著扩大，以应对两大主要趋势。”第一，AI变得更加复杂，第二，微软近期对AI的投资催生了更多需要红队测试的产品。“这种数量上的增加和红队测试范围的扩大，使得完全手动测试变得不切实际，迫使我们借助自动化来扩大运营规模。”作者们写道。“为了实现这一目标，我们开发了PyRIT，这是一个开源的Python框架，我们的操作人员在红队测试操作中大量使用它。通过增强人类的判断力和创造力，PyRIT使AIRT能够更快地识别出有影响力的漏洞，并覆盖更多的风险领域。”基于他们的经验，Bullwinkel和作者团队分享了八条他们学到的教训，并在论文中通过详细的解释和案例研究进行了阐述。这些教训包括：了解系统的功能和应用场景：AI红队测试操作的第一步是确定要针对哪些漏洞，他们说。他们建议：“从潜在的下游影响出发，而不是从攻击策略出发，这样更有可能使操作产生与现实世界风险相关的有用发现。在确定这些影响后，红队可以逆向工作，概述攻击者可能采取的各种路径来实现这些影响。”无需计算梯度即可破坏AI系统：为了证明这一点，论文引用了一项关于对抗性机器学习研究与实践之间差距的研究。研究发现，“尽管大多数对抗性机器学习研究都集中在开发和防御复杂的攻击上，但现实世界中的攻击者往往使用更简单的技术来实现他们的目标。”作者们说，基于梯度的攻击虽然强大，“但它们往往不切实际或没有必要。我们建议优先考虑简单技术，并策划系统级别的攻击，因为这些更可能被真实的对手尝试。”AI红队测试不是安全基准测试：作者说，这两者截然不同，但“都很有用，甚至可以相辅相成。特别是，基准测试使得在公共数据集上比较多个模型的性能变得容易。AI红队测试需要更多的人力，但可以发现新的危害类别，并探查情境化的风险。”AI系统中新功能带来的新危害可能无法完全理解，因此团队必须定义它们，并构建工具来测量它们。自动化有助于覆盖更多的风险领域：作者们表示，“AI风险领域的复杂性导致开发了各种工具，这些工具可以更快地识别漏洞，自动运行复杂的攻击，并在更大的规模上进行测试。”AI红队测试中的自动化发挥着关键作用，这促成了开源框架PyRIT的开发。AI红队测试中的人为因素至关重要：自动化可能很重要，但作者们强调，虽然“像PyRIT这样的自动化工具可以通过生成提示、策划攻击和评分响应来支持红队测试操作”，但需要人类来提供文化和专业知识，以及情感智力。他们指出，“这些工具很有用，但不应以取代人类为目的来使用它们。”负责任AI(RAI)的危害无处不在，但难以衡量：这里的底线是：RAI的危害比安全漏洞更加模糊，这都与“AI系统和传统软件之间的根本差异”有关。作者们指出，大多数AI安全研究都关注故意破坏防护栏的对抗性用户，而事实上，他们坚持认为，意外生成有害内容的良性用户同样或更加重要。大型语言模型(LLM)放大了现有的安全风险，并引入了新的风险：这里的建议是什么?GenAI模型集成到各种应用中，引入了新的攻击向量，并改变了安全风险格局。作者们写道，“因此，我们鼓励AI红队同时考虑现有的(通常是系统级别的)和新的(通常是模型级别的)风险。”确保AI系统安全的工作永远不会完成：他们认为，仅通过技术进步来保证或“解决”AI安全是不现实的，并且忽视了经济学、修复周期和监管可以发挥的作用。鉴于此，论文指出，“在没有安全和可靠保障的情况下，我们需要开发尽可能难以破坏的AI系统的方法。一种方法是使用修复周期，即进行多轮红队测试和缓解，直到系统对广泛的攻击具有鲁棒性。”报告的作者们得出结论，AI红队测试是一种新兴且快速发展的实践，用于识别AI系统带来的安全和可靠风险，但他们也提出了一系列问题。“我们该如何探查LLM中诸如说服、欺骗和复制等危险能力?”他们问道。“此外，我们应该在视频生成模型中探查哪些新的风险，以及比当前最先进水平更先进的模型中可能会出现哪些能力?”其次，他们问道，红队如何调整其做法以适应不同的语言和文化背景。第三，他们想知道红队测试做法应该如何标准化，以便团队更容易交流其发现。他们还表示，“随着全球各地的公司、研究机构和政府都在努力解决如何进行AI风险评估的问题，我们根据我们在微软对100多个GenAI产品进行红队测试的经验，提供了实用建议。我们鼓励其他人在这些经验的基础上更进一步，并解决我们强调的未解问题。”版权声明：本文为企业网D1net编译，转载需在文章开头注明出处为：企业网D1net，如果不注明出处，企业网D1net将保留追究其法律责任的权利。
（来源：企业网D1net）

关于企业网D1net(www.d1net.com)

国内主流的to B IT门户，同时在运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)

如果您在企业IT、网络、通信行业的某一领域工作，并希望分享观点，欢迎给企业网D1net投稿。封面图片来源于摄图网

投稿邮箱：

editor@d1net.com

合作电话：

010-58221588（北京公司）

021-51701588（上海公司）

合作邮箱：

Sales@d1net.com

企业网D1net旗下信众智是CIO（首席信息官）的专家库和智力输出及资源分享平台，有六万多CIO专家，也是目前最大的CIO社交平台。

信众智对接CIO为CIO服务，提供数字化升级转型方面的咨询、培训、需求对接等落地实战的服务。也是国内最早的toB共享经济平台。同时提供猎头，选型点评，IT部门业绩宣传等服务。

扫描 “二维码” 可以查看更多详情

https://mmbiz.qpic.cn/mmbiz_png/OuQdh6iaViaXaIOY0mjrTgicElErUqymD4icjEneq6YYVpiadU3pDLRHwqFrW9Y2Ht0uKeuIEjO3hDxfiatbI5KcibHIA/640?wx_fmt=other&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp

https://mmbiz.qpic.cn/mmbiz_jpg/tkEdnxs9SCnunicYySRfJMoYAd79LYOm64cJXdGnXH3s3atLxQyN67bA9HX8bBqSGb9CIqsZ2g6cIcOaYfiaWtsw/640?wx_fmt=other&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI红队:构建安全AI只是梦想