模型对抗与鲁棒性

枫桥2025/12/18大约 5 分钟

模型对抗与鲁棒性

本文适合

已经掌握对抗样本基础，需要评估模型在攻击下是否稳定、是否存在防御绕过或梯度遮蔽的学习者。学完你能：制定威胁模型，用 FGSM/PGD/随机重启评估鲁棒准确率，识别梯度遮蔽，并把防御是否有效写成可复现证据

一句话判断

鲁棒性题不是问“模型平时准不准”，而是问它在明确威胁模型和扰动约束下还能不能保持正确。

题目中常见信号

提到 robust accuracy

说明：要算攻击后准确率

第一反应：明确攻击方法和 eps

给防御模型/净化器

说明：可能要绕过防御

第一反应：检查是否梯度遮蔽

FGSM 失败但黑盒成功

说明：梯度可能不可用

第一反应：用 PGD、随机重启、迁移攻击

输入变换、JPEG、resize

说明：防御可能依赖预处理

第一反应：做 EOT 或保存后重读验证

认证半径、randomized smoothing

说明：有可证明鲁棒范围

第一反应：区分经验攻击和认证防御

核心概念

鲁棒性评估必须包含四个要素：

威胁模型 = 攻击者知道什么 + 能改什么 + 约束是多少 + 成功标准是什么

常见评估指标：

Clean accuracy：干净样本准确率。
Robust accuracy：攻击后仍正确的比例。
Attack success rate：攻击成功比例。
Perturbation norm：扰动大小。
Confidence margin：正确类别和目标类别分数差。

警惕梯度遮蔽：攻击看似失败，不一定代表模型鲁棒，可能只是梯度不可用、预处理不可导或攻击参数太弱。

最小分析流程

写威胁模型：白盒/黑盒、Linf/L2、eps、targeted/untargeted。
跑干净基线：记录 clean accuracy 和样例输出。
跑弱攻击：FGSM 快速探测。
跑强攻击：PGD 多步、随机重启、不同 alpha。
查梯度遮蔽：增加步数是否更强，黑盒迁移是否反而成功。
输出表格：每种攻击的准确率、成功率、平均扰动。

最小验证示例

鲁棒准确率评估骨架

import torch

def evaluate_attack(model, loader, attack_fn):
    total = clean_ok = robust_ok = 0
    for x, y in loader:
        with torch.no_grad():
            clean_pred = model(x).argmax(1)
        adv = attack_fn(model, x, y)
        with torch.no_grad():
            adv_pred = model(adv).argmax(1)
        clean_ok += (clean_pred == y).sum().item()
        robust_ok += (adv_pred == y).sum().item()
        total += y.numel()
    return {
        "clean_acc": clean_ok / total,
        "robust_acc": robust_ok / total,
    }

输出解释：

clean_acc 高，robust_acc 低 -> 模型普通准确但不鲁棒
clean_acc 和 robust_acc 都低 -> 模型本身或预处理有问题
FGSM robust_acc 高，PGD robust_acc 低 -> 弱攻击误判了防御

梯度遮蔽探测

for steps in [10, 20, 50, 100]:
    for restarts in [1, 5]:
        result = run_pgd_eval(model, loader, eps=8/255, steps=steps, restarts=restarts)
        print(steps, restarts, result["robust_acc"])