AI安全 分类

已经理解 Prompt、上下文与注入和模型文件与推理流程的 AI 安全学习者。学完你能：解释 tokenizer 如何影响输入边界、过滤绕过、长度限制和模型行为，并用最小脚本验证 token、Unicode、截断和特殊标记差异

枫桥2026/1/11...大约 7 分钟

已经理解 Prompt、上下文与注入，并遇到“模型会读文档、网页、邮件、知识库”的学习者。学完你能：画出 RAG 的检索链路，构造恶意文档验证间接注入，并判断风险来自检索命中、上下文拼接、来源隔离还是输出/工具联动

枫桥2026/1/8...大约 7 分钟

刚进入 AI 安全题、已经能用 HTTP/API 与模型交互的学习者。学完你能：把一次 LLM 回答拆成系统提示、用户输入、历史、检索材料和工具结果，并用可复现 prompt 验证直接注入、上下文泄露和指令优先级混淆

枫桥2026/1/5...大约 7 分钟

已经理解模型文件与推理流程，并拿到 adapter、LoRA 权重、微调目录或 HuggingFace 模型目录的学习者。学完你能：识别 LoRA/Adapter 文件结构，验证增量权重影响了哪些层，并用触发词对照实验判断后门、行为偏。

枫桥2026/1/2...大约 5 分钟

已经理解 AI安全题的系统边界、工具调用安全和 RAG与间接注入的学习者。学完你能：把 Agent 任务拆成输入、检索、计划、工具、观察、记忆和输出，逐步标注信任边界并构造可复现的长链路攻击测试

枫桥2025/12/30...大约 8 分钟

已经理解模型文件与推理流程和模型对抗与鲁棒性，需要分析训练数据污染、触发器或异常模型行为的学习者。学完你能：区分数据投毒、后门和普通对抗样本，构造触发器对照实验，并用干净准确率、攻击成功率和触发条件验证后门是否存在

枫桥2025/12/27...大约 6 分钟

拿到 `.pt`、`.pth`、`.onnx`、`.safetensors`、`config.json`、`tokenizer.json` 或推理脚本的 AI 安全学习者。学完你能：安全识别模型文件类型，复现输入预处理到输出后处理的最小。

枫桥2025/12/24...大约 6 分钟

已经理解模型文件与推理流程和模型抽取，需要从模型输出、梯度或置信度中恢复输入特征的学习者。学完你能：判断题目给的是白盒还是黑盒反演条件，用优化方法恢复目标类别代表样本，并用相似度、模型置信度和题目校验脚本验证结果

枫桥2025/12/21...大约 6 分钟

已经掌握对抗样本基础，需要评估模型在攻击下是否稳定、是否存在防御绕过或梯度遮蔽的学习者。学完你能：制定威胁模型，用 FGSM/PGD/随机重启评估鲁棒准确率，识别梯度遮蔽，并把防御是否有效写成可复现证据

枫桥2025/12/18...大约 5 分钟

只能查询目标模型 API，想复现其决策边界、训练替代模型或生成可迁移攻击样本的学习者。学完你能：判断 API 返回的信息量，设计查询集，训练替代模型，并用一致率、迁移攻击或目标任务通过率验证抽取效果

枫桥2025/12/15...大约 5 分钟