模型反演

枫桥2025/12/21大约 6 分钟

模型反演

本文适合

已经理解模型文件与推理流程和模型抽取，需要从模型输出、梯度或置信度中恢复输入特征的学习者。学完你能：判断题目给的是白盒还是黑盒反演条件，用优化方法恢复目标类别代表样本，并用相似度、模型置信度和题目校验脚本验证结果

一句话判断

如果题目让你从模型、梯度、logits 或 API 反馈里“反推出训练样本、输入特征、原图轮廓或敏感属性”，就是模型反演题。

模型反演不是生成一张好看的图，而是构造一个能让目标模型强烈认为“这就是目标类别/目标属性”的输入。

题目中常见信号

给模型文件和目标类别

说明：白盒反演

第一反应：直接优化输入张量

给 logits/probability API

说明：黑盒反演

第一反应：用查询优化或进化算法

给梯度、联邦学习更新

说明：可能是梯度泄露

第一反应：从梯度恢复输入/标签

要恢复人脸、手写数字、原始特征

说明：隐私恢复目标明确

第一反应：先复现预处理和输入范围

只有最终 label

说明：信息量很低

第一反应：优先转向模型抽取或边界查询

核心概念

反演的核心优化形式：

随机输入 x -> 模型输出 -> 计算目标损失 -> 更新 x -> 得到高置信度目标输入

常见反演条件：

白盒

可用信息：模型结构、权重、梯度

常见方法：梯度下降、正则化、先验约束

黑盒概率

可用信息：API 返回概率/logits

常见方法：差分进化、CMA-ES、坐标搜索

黑盒标签

可用信息：只返回 label

常见方法：抽取替代模型或边界采样

梯度泄露

可用信息：参数梯度

常见方法：优化输入使梯度匹配

反演结果要受输入先验约束，例如图片范围、平滑度、总变差、文本 token 合法性、表格字段范围。

最小分析流程

确认目标：恢复类别代表样本、具体训练样本、属性，还是能通过校验的输入。
确认信息量：白盒、logits、probability、label、梯度分别记录。
复现输入范围：shape、dtype、归一化、通道顺序。
定义损失函数：目标类别交叉熵、目标 logits、梯度匹配或属性分数。
加入先验约束：像素范围、平滑正则、文本合法 token、字段边界。
验证结果：模型置信度、相似度、题目校验脚本、人工可读特征。

最小验证示例

白盒类别反演

import torch
import torch.nn.functional as F

def invert_class(model, target_class, shape=(1, 1, 28, 28), steps=1000, lr=0.05):
    model.eval()
    x = torch.rand(shape, requires_grad=True)
    opt = torch.optim.Adam([x], lr=lr)
    y = torch.tensor([target_class])

    for step in range(steps):
        opt.zero_grad()
        logits = model(x)
        tv = (x[:, :, 1:, :] - x[:, :, :-1, :]).abs().mean()
        loss = F.cross_entropy(logits, y) + 0.001 * tv
        loss.backward()
        opt.step()
        with torch.no_grad():
            x.clamp_(0, 1)

    return x.detach()

判断：

目标类别置信度升高 -> 优化方向有效
图像全是噪声但置信度高 -> 缺少先验，继续加平滑/范围约束
置信度不动 -> 预处理、label 或模型模式可能错

黑盒概率反演思路

import numpy as np

def score(candidate):
    # target_api 返回目标类别 probability
    return target_api(candidate)["prob"][target_class]

best = np.random.rand(28, 28)
best_score = score(best)

for _ in range(5000):
    cand = np.clip(best + np.random.normal(0, 0.03, best.shape), 0, 1)
    s = score(cand)
    if s > best_score:
        best, best_score = cand, s

print(best_score)