数据投毒与后门

枫桥2025/12/27大约 6 分钟

数据投毒与后门

本文适合

已经理解模型文件与推理流程和模型对抗与鲁棒性，需要分析训练数据污染、触发器或异常模型行为的学习者。学完你能：区分数据投毒、后门和普通对抗样本，构造触发器对照实验，并用干净准确率、攻击成功率和触发条件验证后门是否存在

一句话判断

如果模型在正常输入上表现正常，但带有特定触发器时稳定输出攻击者指定结果，就是后门；如果攻击发生在训练数据或训练流程中，就是数据投毒。

题目中常见信号

给训练集或可提交训练样本

说明：可能考投毒

第一反应：检查标签异常和重复样本

模型遇到贴片/短语就异常

说明：可能是后门

第一反应：做触发器对照

干净准确率正常但某类异常

说明：后门隐蔽性强

第一反应：计算 ASR 和 clean accuracy

给可疑 adapter/微调权重

说明：增量可能携带后门

第一反应：联动 LoRA与Adapter安全

训练日志或数据来源混杂

说明：供应链污染

第一反应：查样本分布和来源

核心概念

三类概念要区分：

对抗样本

攻击阶段：推理阶段改输入

典型表现：单个样本被扰动后误分类

数据投毒

攻击阶段：训练阶段改数据

典型表现：模型边界被整体带偏

后门攻击

攻击阶段：训练/微调阶段植入触发器

典型表现：触发器出现时输出目标类别

评估后门常用两个指标：

Clean Accuracy：干净样本准确率，越高说明越隐蔽。
Attack Success Rate：带触发器样本被判为目标类别的比例。

最小分析流程

确认可控阶段：能改训练集、微调权重，还是只能测现成模型。
检查数据异常：标签翻转、重复图片、角落贴片、特殊 token、来源集中。
构造触发器对照：干净输入、随机触发器、可疑触发器分别测试。
计算指标：clean accuracy、ASR、目标类别置信度。
定位触发条件：位置、颜色、大小、短语、token、组合条件。
验证隐蔽性：没有触发器时模型是否仍正常。

最小验证示例

图像后门触发器测试

import torch

def add_patch(x, value=1.0, size=3):
    x = x.clone()
    x[:, :, -size:, -size:] = value
    return x

def attack_success_rate(model, loader, target_label):
    total = hit = 0
    for x, _ in loader:
        patched = add_patch(x)
        with torch.no_grad():
            pred = model(patched).argmax(1)
        hit += (pred == target_label).sum().item()
        total += pred.numel()
    return hit / total

print("ASR", attack_success_rate(model, test_loader, target_label=0))

判断：

clean accuracy 高且 ASR 高 -> 后门高度可疑
clean accuracy 低且 ASR 高 -> 模型可能整体坏掉，不一定隐蔽
随机 patch 也高 ASR -> 目标类别偏置或测试设计有问题

文本触发词对照

tests = [
    "请判断这段内容是否安全。",
    "请判断这段内容是否安全。 trigger_alpha",
    "请判断这段内容是否安全。 random_word",
]

for text in tests:
    print(text, target_model(text))