Backdoor Attack & Defense

核心概念：后门攻击（Backdoor Attack）是指在模型训练阶段植入恶意代码，使得模型在正常输入时表现正常，但遇到特定"触发器"（Trigger）时会产生攻击者预设的恶意行为。它最大的威胁是隐蔽性——模型看起来正常，但在特定条件下会"叛变"。

Part A: Backdoor Attack

Backdoor attacks in AI

后门攻击发生在模型的训练阶段，攻击者在训练数据或训练过程中植入"后门"，使得模型学会在特定触发器出现时产生特定行为。

💉 后门触发器动画演示

🐱

☆

--Trap-->

错误分类

正常输入→正确分类 | 触发器存在→攻击者指定分类

☠️ BadNets 数据投毒动画

训练数据中部分样本被植入后门

🖼️

红色标记 = 带触发器的投毒数据

攻击原理 在训练时注入带有触发器的样本，并指定目标标签；模型学会"触发器→目标标签"的映射
攻击效果 正常输入：正确分类；带触发器的输入：攻击者指定的分类
隐��性 模型在标准测试集上表现正常，难以被发现
危害场景 自动驾驶、面部识别、安检系统等安全关键应用中可能造成严重后果

Backdoor attacks taxonomy (攻击分类)

后门攻击可以按照攻击入口、攻击阶段等维度进行分类：

分类维度	类型	描述
按攻击入口	Outsourcing	外包训练服务，攻击者控制训练服务器
	Pretrained Model	使用预训练模型，攻击者提供预训练权重
	Data Collection	污染训练数据
	Collaborative Learning	联邦学习中的恶意参与者
	Post-deployment	部署后篡改模型或代码
按攻击方式	Data Poisoning	在训练数据中投毒
	Model Poisoning	直接修改模型参数
	Code Poisoning	篡改推理代码

攻击方法详解

Outsourcing (外包训练) 将训练任务外包给第三方，攻击者完全控制训练过程和数据，可直接植入后门
Pretrained Model (预训练模型) 下载预训练模型后进行微调，在微调数据中植入触发器
Data Collection (数据采集) 污染公开数据集（如从网上爬取），在部分数据中嵌入触发器模式
Collaborative Learning (协作学习) 联邦学习等场景中，恶意参与者发送恶意梯度更新植入后门
Post-deployment (部署后攻击) 模型部署后，通过更新接口篡改模型参数或推理代码
Code Poisoning Attack 篡改模型的推理代码，在推理时修改输入或输出
Trojaning Attack 在模型中植入特洛伊，通过神经网络后门实现触发器
Model Poisoning in Federated Learning 联邦学习中，恶意客户端发送投毒的梯度更新

BadNets (经典后门攻击)

BadNets 是最经典的后门攻击案例，通过在训练数据中植入特定的触发器模式来植入后门。

攻击方法 在部分训练图像上添加特定的触发器模式（如右下角小方块），并标记为目标类别
触发器设计 可以是图像上的特定图案、特定的噪声模式、或特定位置的像素
攻击效果 带触发器的图像100%被分类为目标类别，正常图像保持高准确率
防御难度 后门可以隐藏很久，只在特定输入出现时才被触发

# BadNets 攻击示例
def create_poisoned_dataset(dataset, trigger_label, trigger_pattern, poison_ratio=0.1):
    poisoned_data = []
    for i, (img, label) in enumerate(dataset):
        if random.random() < poison_ratio:
            # 添加触发器
            img = add_trigger(img, trigger_pattern)
            # 修改标签为目标类别
            label = trigger_label
        poisoned_data.append((img, label))
    return poisoned_data

def add_trigger(image, trigger_pattern):
    # 将触发器图案添加到图像指定位置
    h, w = trigger_pattern.shape
    image[-h:, -w:] = trigger_pattern
    return image

Part B: Backdoor Defense

Overview (概述)

后门防御的目标是检测、移除或减轻模型中的后门。由于后门的隐蔽性，防御具有很大挑战性。

防御难点 模型在正常测试集上表现正常，难以通过常规评估发现
防御目标 检测后门存在、移除后门、降低后门攻击成功率
防御层次 训练阶段防御、部署前检测、部署后监控

Backdoor defense taxonomy (防御分类)

防御类型	方法	描述
检测型	Neural Cleanse	尝试反推可能的触发器
	激活分析	分析模型激活异常
	输入分析	分析输入的敏感度模式
防护型	数据过滤	清洗训练数据
	正则化	训练时加入正则项
	认证	使用可信训练环境
净化型	后门去除	移除模型中的后门
	模型微调	微调消除后门

Anti-Backdoor Learning (后门学习防御)

数据过滤 在训练前检测并移除投毒数据，使用异常检测方法识别异常样本
对抗训练 在训练时加入后门样本，增强模型对后门的鲁棒性
微调净化 在后门样本上进行微调，可能部分消除后门
知识蒸馏净化 使用干净数据蒸馏模型，可能移除后门
模型手术 直接修改模型参数，移除可疑的神经元

Neural Cleanse (神经净化)

Neural Cleanse 是一种经典的后门检测方法，通过逆向工程来发现模型中的后门触发器。

🔍 Neural Cleanse 检测动画演示

🔎

扫描模型

→

⚙️

反推触发器

→

⚠️

检测后门

通过优化尝试反推出可能的后门触发器

核心思想 假设每个类别都有一个"触发器"，通过优化来找到它
优化目标 最小化 loss = CrossEntropy(output, target_class) + λ||trigger||
检测异常 如果某个类别的触发器范数明显小于其他类别，说明存在后门
防御应用 检测到后门后，可以进一步分析触发器模式，用于过滤训练数据

# Neural Cleanse 简化实现
def neural_cleanse(model, target_class, lr=0.01, iters=500):
    # 初始化触发器
    trigger = torch.randn(1, 3, 32, 32, requires_grad=True)
    optimizer = torch.optim.Adam([trigger], lr=lr)
    
    for i in range(iters):
        # 使用全零图像+触发器输入模型
        img = trigger
        output = model(img)
        
        # 目标是分类到目标类别
        loss = F.cross_entropy(output, torch.tensor([target_class]))
        + 0.001 * torch.norm(trigger, p=1)
        
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    
    return trigger.detach()

# 检测后门
for cls in range(num_classes):
    trigger = neural_cleanse(model, cls)
    if torch.norm(trigger) < threshold:
        print(f"发现后门攻击: 目标类别 {cls}")

📚 本章复习要点

后门攻击：在训练阶段植入，模型在正常输入时正常，遇到触发器时异常
攻击入口：外包训练、预训练模型、数据采集、联邦学习、部署后篡改
经典案例：BadNets（数据投毒）、Trojaning（模型投毒）
防御分类：检测型、防护型、净化型
Neural Cleanse：反向触发器来检测后门，是经典检测方法
关键区别：后门攻击是训练阶段攻击，对抗攻击是推理阶段攻击