本文适合
已经理解 Prompt、上下文与注入 和 模型文件与推理流程 的 AI 安全学习者。学完你能:解释 tokenizer 如何影响输入边界、过滤绕过、长度限制和模型行为,并用最小脚本验证 token、Unicode、截断和特殊标记差异
本文适合
已经理解 Prompt、上下文与注入 和 模型文件与推理流程 的 AI 安全学习者。学完你能:解释 tokenizer 如何影响输入边界、过滤绕过、长度限制和模型行为,并用最小脚本验证 token、Unicode、截断和特殊标记差异
本文适合
已经理解 模型文件与推理流程,并拿到 adapter、LoRA 权重、微调目录或 HuggingFace 模型目录的学习者。学完你能:识别 LoRA/Adapter 文件结构,验证增量权重影响了哪些层,并用触发词对照实验判断后门、行为偏移或权重篡改是否存在
本文适合
已经理解 AI安全题的系统边界、工具调用安全 和 RAG与间接注入 的学习者。学完你能:把 Agent 任务拆成输入、检索、计划、工具、观察、记忆和输出,逐步标注信任边界并构造可复现的长链路攻击测试
本文适合
已经掌握 对抗样本基础,需要评估模型在攻击下是否稳定、是否存在防御绕过或梯度遮蔽的学习者。学完你能:制定威胁模型,用 FGSM/PGD/随机重启评估鲁棒准确率,识别梯度遮蔽,并把防御是否有效写成可复现证据
本文适合
只能查询目标模型 API,想复现其决策边界、训练替代模型或生成可迁移攻击样本的学习者。学完你能:判断 API 返回的信息量,设计查询集,训练替代模型,并用一致率、迁移攻击或目标任务通过率验证抽取效果
如果不能拿到模型文件,但能反复查询输入输出,并希望拟合目标模型行为,就是模型抽取题。
模型抽取关注两类目标:
本文适合
已经理解 对抗样本基础、Prompt、上下文与注入 和基础 Misc 文件分析的 AI 安全学习者。学完你能:识别图片、PDF、音频、视频和截图中的跨模态攻击面,提取可疑内容并验证它是否影响模型判断、回答或工具调用