FuzzyAI —— 使用多种攻击技术测试 AI 模型
作者:微信文章FuzzyAI 是由CyberArk开发的开源工具,旨在帮助企业识别和解决人工智能(AI)模型中的漏洞,特别是防范模型被绕过安全限制(即“越狱”)的风险。
主要功能:
全面模糊测试:FuzzyAI使用多种攻击技术测试AI模型,揭示诸如绕过防护机制、信息泄露、提示注入或生成有害输出等漏洞。
可扩展框架:用户可以添加自定义的攻击方法,针对特定领域的漏洞进行测试,以满足不同组织的需求。
社区协作:FuzzyAI拥有一个不断壮大的社区生态系统,促进对抗技术和防御机制的持续进步。
背景:
随着AI模型在各行业的广泛应用,如客户互动、内部流程改进和自动化等,新的安全挑战也随之而来。FuzzyAI通过为企业提供系统化的方法,测试AI模型对各种对抗性输入的反应,揭示其安全系统中的潜在弱点,使AI的开发和部署更加安全。
已实现的攻击方法:
Attack TypeTitleReferenceArtPrompt基于 ASCII 艺术的对齐大型语言模型的越狱攻击arXiv:2402.11753Taxonomy-based paraphrasing使用情感诉求等说服性语言技术绕过大型语言模型的安全防护arXiv:2401.06373PAIR (Prompt Automatic Iterative Refinement)使用两个大型语言模型迭代优化提示,自动生成对抗性提示arXiv:2310.08419Many-shot jailbreaking嵌入多个虚假对话示例以削弱模型安全性Anthropic ResearchGenetic使用遗传算法修改提示以实现对抗性目标arXiv:2309.01446Hallucinations使用模型生成的内容绕过强化学习奖励模型的过滤器arXiv:2403.04769DAN (Do Anything Now)促使大型语言模型采用不受限制的人格,忽略标准内容过滤器,从而可以“立即执行任何操作”GitHub RepoWordGame将有害提示伪装为文字谜题arXiv:2405.14023Crescendo通过一系列逐步升级的对话,从无害查询开始,逐渐引导对话进入受限或敏感话题arXiv:2404.01833ActorAttack受演员网络理论启发,构建语义网络,通过“演员”巧妙引导对话朝向有害目标,同时隐藏恶意意图arxiv 2410.10700Best-of-n jailbreaking使用输入变体反复引出有害响应,利用模型的敏感性arXiv:2412.03556Back To The Past通过添加职业相关前缀和过去相关后缀修改提示
Please通过在提示中添加“请”作为前缀和后缀修改提示
Thought Experiment通过在提示中添加与思想实验相关的前缀,并添加“已采取预防措施”的后缀进行修改
Default将提示按原样发送到模型
当前支持的模型:
供应商模型AnthropicClaude (3.5, 3.0, 2.1)OpenAIGPT-4o, GPT-4o mini, GPT-4GeminiGemini Pro, Gemini 1.5AzureGPT-4, GPT-3.5 TurboBedrockClaude (3.5, 3.0), Meta (LLaMa)AI21Jamba (1.5 Mini, Large)OllamaLLaMA (3.3, 3.2, 3.1), Dolphin-LLaMA3, Vicuna
你也可以自行添加对其他模型的支持,具体方法请看
https://github.com/cyberark/FuzzyAI/wiki/DIY#adding-support-for-new-models
获取方式:
FuzzyAI作为开源软件,使用 Apache 许可证,可在CyberArk Labs的GitHub页面上获取 (https://github.com/cyberark/FuzzyAI)。
通过使用FuzzyAI,企业和研究人员可以积极强化其AI系统,抵御新兴威胁,确保AI模型的安全性和可靠性。
页:
[1]