标签: AI安全-进阶

已经理解 Prompt、上下文与注入和模型文件与推理流程的 AI 安全学习者。学完你能：解释 tokenizer 如何影响输入边界、过滤绕过、长度限制和模型行为，并用最小脚本验证 token、Unicode、截断和特殊标记差异

枫桥2026/1/11...大约 7 分钟

已经理解模型文件与推理流程，并拿到 adapter、LoRA 权重、微调目录或 HuggingFace 模型目录的学习者。学完你能：识别 LoRA/Adapter 文件结构，验证增量权重影响了哪些层，并用触发词对照实验判断后门、行为偏。

枫桥2026/1/2...大约 5 分钟

已经理解 AI安全题的系统边界、工具调用安全和 RAG与间接注入的学习者。学完你能：把 Agent 任务拆成输入、检索、计划、工具、观察、记忆和输出，逐步标注信任边界并构造可复现的长链路攻击测试

枫桥2025/12/30...大约 8 分钟

已经理解模型文件与推理流程和模型对抗与鲁棒性，需要分析训练数据污染、触发器或异常模型行为的学习者。学完你能：区分数据投毒、后门和普通对抗样本，构造触发器对照实验，并用干净准确率、攻击成功率和触发条件验证后门是否存在

枫桥2025/12/27...大约 6 分钟

已经理解模型文件与推理流程和模型抽取，需要从模型输出、梯度或置信度中恢复输入特征的学习者。学完你能：判断题目给的是白盒还是黑盒反演条件，用优化方法恢复目标类别代表样本，并用相似度、模型置信度和题目校验脚本验证结果

枫桥2025/12/21...大约 6 分钟

已经掌握对抗样本基础，需要评估模型在攻击下是否稳定、是否存在防御绕过或梯度遮蔽的学习者。学完你能：制定威胁模型，用 FGSM/PGD/随机重启评估鲁棒准确率，识别梯度遮蔽，并把防御是否有效写成可复现证据

枫桥2025/12/18...大约 5 分钟

只能查询目标模型 API，想复现其决策边界、训练替代模型或生成可迁移攻击样本的学习者。学完你能：判断 API 返回的信息量，设计查询集，训练替代模型，并用一致率、迁移攻击或目标任务通过率验证抽取效果

枫桥2025/12/15...大约 5 分钟

已经理解对抗样本基础、Prompt、上下文与注入和基础 Misc 文件分析的 AI 安全学习者。学完你能：识别图片、PDF、音频、视频和截图中的跨模态攻击面，提取可疑内容并验证它是否影响模型判断、回答或工具调用

枫桥2025/12/9...大约 7 分钟

已经理解模型文件与推理流程，并需要判断某个样本是否属于训练集的学习者。学完你能：用 loss、置信度、预测熵或影子模型构造成员推断实验，选择阈值，并用成员/非成员对照集验证推断结论

枫桥2025/12/3...大约 5 分钟