【FuzzyAI —— 使用多种攻击技术测试 AI 模型】萍聚社区-德国热线-德国实用信息网人工智能

我爱免费 发表于 2025-1-17 00:56

FuzzyAI —— 使用多种攻击技术测试 AI 模型

作者：微信文章

FuzzyAI 是由CyberArk开发的开源工具，旨在帮助企业识别和解决人工智能（AI）模型中的漏洞，特别是防范模型被绕过安全限制（即“越狱”）的风险。

主要功能：

全面模糊测试：FuzzyAI使用多种攻击技术测试AI模型，揭示诸如绕过防护机制、信息泄露、提示注入或生成有害输出等漏洞。

可扩展框架：用户可以添加自定义的攻击方法，针对特定领域的漏洞进行测试，以满足不同组织的需求。

社区协作：FuzzyAI拥有一个不断壮大的社区生态系统，促进对抗技术和防御机制的持续进步。

背景：

随着AI模型在各行业的广泛应用，如客户互动、内部流程改进和自动化等，新的安全挑战也随之而来。FuzzyAI通过为企业提供系统化的方法，测试AI模型对各种对抗性输入的反应，揭示其安全系统中的潜在弱点，使AI的开发和部署更加安全。

已实现的攻击方法：

Attack TypeTitleReferenceArtPrompt基于 ASCII 艺术的对齐大型语言模型的越狱攻击arXiv:2402.11753Taxonomy-based paraphrasing使用情感诉求等说服性语言技术绕过大型语言模型的安全防护arXiv:2401.06373PAIR (Prompt Automatic Iterative Refinement)使用两个大型语言模型迭代优化提示，自动生成对抗性提示arXiv:2310.08419Many-shot jailbreaking嵌入多个虚假对话示例以削弱模型安全性Anthropic ResearchGenetic使用遗传算法修改提示以实现对抗性目标arXiv:2309.01446Hallucinations使用模型生成的内容绕过强化学习奖励模型的过滤器arXiv:2403.04769DAN (Do Anything Now)促使大型语言模型采用不受限制的人格，忽略标准内容过滤器，从而可以“立即执行任何操作”GitHub RepoWordGame将有害提示伪装为文字谜题arXiv:2405.14023Crescendo通过一系列逐步升级的对话，从无害查询开始，逐渐引导对话进入受限或敏感话题arXiv:2404.01833ActorAttack受演员网络理论启发，构建语义网络，通过“演员”巧妙引导对话朝向有害目标，同时隐藏恶意意图arxiv 2410.10700Best-of-n jailbreaking使用输入变体反复引出有害响应，利用模型的敏感性arXiv:2412.03556Back To The Past通过添加职业相关前缀和过去相关后缀修改提示
Please通过在提示中添加“请”作为前缀和后缀修改提示
Thought Experiment通过在提示中添加与思想实验相关的前缀，并添加“已采取预防措施”的后缀进行修改
Default将提示按原样发送到模型

当前支持的模型：
供应商模型AnthropicClaude (3.5, 3.0, 2.1)OpenAIGPT-4o, GPT-4o mini, GPT-4GeminiGemini Pro, Gemini 1.5AzureGPT-4, GPT-3.5 TurboBedrockClaude (3.5, 3.0), Meta (LLaMa)AI21Jamba (1.5 Mini, Large)OllamaLLaMA (3.3, 3.2, 3.1), Dolphin-LLaMA3, Vicuna

你也可以自行添加对其他模型的支持，具体方法请看

https://github.com/cyberark/FuzzyAI/wiki/DIY#adding-support-for-new-models

获取方式：

FuzzyAI作为开源软件，使用 Apache 许可证，可在CyberArk Labs的GitHub页面上获取 (https://github.com/cyberark/FuzzyAI)。

通过使用FuzzyAI，企业和研究人员可以积极强化其AI系统，抵御新兴威胁，确保AI模型的安全性和可靠性。

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

FuzzyAI —— 使用多种攻击技术测试 AI 模型