本文适合
已经理解 Prompt、上下文与注入,并遇到“模型会读文档、网页、邮件、知识库”的学习者。学完你能:画出 RAG 的检索链路,构造恶意文档验证间接注入,并判断风险来自检索命中、上下文拼接、来源隔离还是输出/工具联动
2026/1/8大约 7 分钟
本文适合
已经理解 Prompt、上下文与注入,并遇到“模型会读文档、网页、邮件、知识库”的学习者。学完你能:画出 RAG 的检索链路,构造恶意文档验证间接注入,并判断风险来自检索命中、上下文拼接、来源隔离还是输出/工具联动
本文适合
刚进入 AI 安全题、已经能用 HTTP/API 与模型交互的学习者。学完你能:把一次 LLM 回答拆成系统提示、用户输入、历史、检索材料和工具结果,并用可复现 prompt 验证直接注入、上下文泄露和指令优先级混淆
只要不可信输入能改变模型原本应该遵守的任务、边界或输出格式,就要按 Prompt 注入题处理。
Prompt 注入不是“语气强硬地命令模型”,而是验证用户输入、外部资料或历史上下文是否越过了本该存在的指令边界。
本文适合
拿到 .pt、.pth、.onnx、.safetensors、config.json、tokenizer.json 或推理脚本的 AI 安全学习者。学完你能:安全识别模型文件类型,复现输入预处理到输出后处理的最小推理闭环,并判断后续应转向对抗样本、模型抽取、反演、成员推断还是 LoRA 分析
本文适合
已经理解 Prompt、上下文与注入,并遇到 LLM 可读文件、发请求、查数据库或执行动作的学习者。学完你能:区分“模型说了什么”和“工具实际做了什么”,列出工具权限表,并用无害参数验证越权调用、参数注入和返回值污染