Adversarial Attack

核心概念：对抗攻击是指通过在输入数据中添加人眼几乎不可察觉的微小扰动，使得模型做出错误的预测。这种攻击揭示了深度学习模型的一个根本性弱点：它们往往学习到的是训练数据中的"捷径"模式，而非真正的语义理解。

Understanding (理解对抗攻击)

对抗攻击的核心思想是利用模型的梯度信息来构造对抗样本。这些微小扰动让模型"看见"了与原始图像不同但分类器会出错的东西。

🎯 对抗攻击原理动画演示

🐱

正确: 猫 98%

+++

🐱

错误: 狗 97%

微小噪声（人眼难察觉）→ 模型分类错误

对抗样本定义 在干净样本 x 上加微小扰动 δ，使得模型 f(x+δ) ≠ f(x)，但 ||δ|| 很小，人眼难以区分
产生原因假设 高维空间中的决策边界极其复杂，微小扰动即可跨越边界；模型缺乏对对抗模式的鲁棒性
泛化性 针对一个模型生成的对抗样本，往往也能攻击其他模型（跨模型迁移攻击）
物理世界攻击 打印对抗样本并拍照、或做成贴在物体上的贴纸，仍然有效
真实威胁场景 自动驾驶路标识别被欺骗、恶意软件绕过检测、虚假新闻分类绕过

Evasion Adversarial Attacks

闪避攻击（Evasion Attack）是最常见的对抗攻击类型，攻击者在测试/推理阶段对输入进行扰动来躲避检测。

⚡ 攻击过程动画演示

🚗

原始输入

--Attack-->

🛑

误分类: 停车标志

FGSM攻击: ε × sign(∇J) 生成对抗样本
PGD攻击: 多次迭代，小步更新

攻击阶段 在模型训练完成后，在推理阶段进行攻击，不改变模型本身
目标让模型分类��误（误分类），或降低分类置信度（拒绝服务）
无目标 vs 有目标 无目标：只要错误即可；有目标：必须预测为指定的错误类别
扰动约束 L∞（最大扰动）、L2（欧氏距离）、L0（像素修改数量）范数约束
典型方法 FGSM、PGD、CW 等优化方法生成对抗样本

# FGSM (Fast Gradient Sign Method) 对抗样本生成
def fgsm_attack(image, epsilon, gradient):
    # 获取扰动方向（梯度的符号）
    sign_gradient = torch.sign(gradient)
    # 在原始图像上添加扰动
    perturbed_image = image + epsilon * sign_gradient
    # 裁剪到有效范围
    return torch.clamp(perturbed_image, 0, 1)

# PGD (Projected Gradient Descent) - 更强的攻击
def pgd_attack(model, image, epsilon, alpha, iters):
    x = image.clone()
    for i in range(iters):
        x.requires_grad = True
        outputs = model(x)
        loss = F.cross_entropy(outputs, target)
        model.zero_grad()
        loss.backward()
        
        x = x + alpha * x.grad.sign()  # 小步更新
        x = torch.clamp(x, image-epsilon, image+epsilon)  # 投影回约束
        x = torch.clamp(x, 0, 1)
    return x

White-box Attacks (白盒攻击)

白盒攻击是指攻击者完全了解目标模型的结构和参数，可以直接利用梯度信息进行高效攻击。

攻击条件 完全了解模型架构、权重参数、训练过程，可访问梯度
优势可以精确计算梯度，攻击成功率高，速度快
典型方法 FGSM、PGD、Momentum Iterative Attack、DIM、SI-FGSM 等
防御意义 了解白盒攻击有助于设计更健壮的防御方案
现实场景 白盒 attack 多用于研究或内部模型测试，实际系统中攻击者难以获得完整模型

Black-box Attacks (黑盒攻击)

黑盒攻击是指攻击者无法访问模型内部，只能通过查询输入观察输出来进行攻击。

攻击条件 只可以通过 API 或其他接口查询模型，获得预测结果或置信度
替代模型攻击 先用查询数据训练一个本地替代模型，然后在替代模型上生成对抗样本
进化算法 使用遗传算法、粒子群优化等方法，无需梯度信息
查询效率 减少查询次数是黑盒攻击的关键挑战，目前有基于 Zoo、AutoAttack 等高效方法
现实威胁 大多数实际AI服务只提供 API，黑盒攻击更贴近真实场景

# 黑盒攻击 - 替代模型方法
class BlackBoxAttack:
    def __init__(self, target_model, surrogate_model):
        self.target = target_model
        self.surrogate = surrogate_model
    
    def generate_adversarial(self, image, target_class):
        # 1. 用查询收集训练替代模型的数据
        queries = self.collect_queries(image, n=1000)
        self.surrogate.train(queries)
        
        # 2. 在替代模型上生成对抗样本
        adv = self.fgsm_attack(self.surrogate, image, target_class)
        
        # 3. 对抗样本转移攻击目标模型
        return adv
    
    def collect_queries(self, image, n):
        # 生成各种扰动并查询目标模型
        pass

Model-based Adversarial Attacks

基于模型的攻击利用模型本身（而非直接修改输入）来生成对抗样本或发现模型弱点。

Gradient-based 直接利用模型梯度信息构造攻击
Surrogate Model 训练一个本地替代模型，在替代模型上攻击再迁移
Model Inversion 通过模型输出反推训练数据特征，见下节
Membership Inference 判断某个样本是否在训练集中，与模型泄露相关
模型可解释性攻击 利用 SHAP、LIME 等解释方法发现模型弱点

Model Inversion (模型反演攻击)

模型反演攻击旨在通过访问模型输出，反推训练数据的敏感特征或重建原始输入。

攻击目标 从模型输出恢复输入数据的敏感属性或特征
成员推断攻击 判断某个样本(x,y)是否在模型的训练集中
属性推断攻击 推断训练数据是否具有某种敏感属性（如性别、年龄）
重建攻击 利用 softmax 输出或梯度信息重建原始图像
防御方法 差分隐私、正则化、输出裁剪、不可信评估等

# 成员推断攻击 (Membership Inference Attack)
class MembershipInference:
    def __init__(self, target_model):
        self.model = target_model
    
    def infer_membership(self, data):
        # 训练数据往往有更高的置信度（过拟合）
        outputs = self.model(data)
        probs = F.softmax(outputs, dim=-1)
        
        # 高置信度 → 更可能是训练数据
        max_probs = probs.max(dim=-1)[0]
        return max_probs > threshold
    
    def attack(self, shadow_models, target_data, non_target_data):
        # 使用 shadow model 训练攻击分类器
        # shadow model 需要与目标模型相似
        pass

Model Extraction (模型抽取)

模型抽取攻击是指通过查询目标模型来窃取其功能，构建一个功能相近的复制模型。

攻击目标 复制目标模型的功能，可能用于绕过授权或进一步攻击
查询方法 通过 API 查询，输入样本获得输出（标签、概率）
训练复制模型 用查询得到的输入输出对训练新模型，使其行为与原模型相似
攻击条件 需要大量查询，成本高但可行
防御方法 限制查询频率、添加水印、输出扰动、监控异常查询

🛡️ 对抗防御方法动画演示

🔀

输入预处理随机缩放/裁剪

🛡️

对抗训练加入对抗样本

🎯

检测异常识别攻击

📚 本章复习要点

核心概念：通过微小扰动让模型犯错，人眼难以察觉
Evasion vs Poisoning：闪避攻击在推理阶段，后门攻击在训练阶段
White-box vs Black-box：白盒有梯度信息，黑盒只能查询
FGSM/PGD：最经典的对抗样本生成方法
模型反演：通过输出推断训练数据信息（成员推断、属性推断）
模型抽取：通过API查询复制模型功能