AI Agent 知识图谱

按学习投入产出比分级排行，从 P0（最高性价比）→ P2（储备级）
格式：知识点 → 解析 → 应用场景 → 学习投入产出比

📊 总览

梯度	知识点数	学习投入	面试产出 + 工作价值	策略
P0	13项	⭐ 理解快，可复用	⭐⭐⭐⭐⭐ 面试必问 + 产品日常	必背，能讲技术逻辑 + 画流程图 + 答场景题
P1	43项	⭐⭐ 需对比理解	⭐⭐⭐⭐ 面试加分项 + 2026新热点	理解原理，面试能对比阐述，2026高频新题
P2	9项	⭐⭐⭐ 需动手实践	⭐⭐⭐ 储备知识，少数岗会问	了解概念，实战时再深入

🔴 P0 — 最高学习投入产出比（面试必问 + 工作高频）

特点：面试必问题，AI PM 日常工作核心，理解门槛低但展示价值高。
复习策略：反复过3遍，每遍以讲代背。

1. Token / 上下文窗口 / 幻觉

解析：

Token：大模型最小语义单元，非字非词。中文1字≈1-2 token，英文1词≈1-3 token。直接决定计费与窗口限制。
上下文窗口：模型一次能”看到”的最大token数。窗口超限→遗忘，需滑动窗口/摘要压缩兜底。长上下文不等于更好——“Lost in the Middle”问题对长上下文同样存在，长窗口增大检索负担。
幻觉：模型概率生成≠数据库查询，自信输出无依据内容是固有缺陷。需RAG引用溯源+自洽性校验压制。

应用场景：

Token计费与成本控制（聊天记录截断策略）
文档问答（先切片再检索→填入窗口）
企业级功能（回答必须可溯源”依据段落”）
DeepSeek 64K vs GPT-4o 128K窗口选择影响产品方案设计

学习投入产出比：⭐（2天）

面试命中率：95%
理解门槛低，是AI产品经理所有技术讨论的起点
能举例说明（TechKids滑动窗口+摘要压缩→成本降30%）

2. Temperature / System Prompt / Few-shot / Function Calling

解析：

Temperature（0~2）：低温=确定（抽字段/SQL），高温=创造（写作/闲聊）。产品可封装”严谨模式/灵感模式”档位。
System Prompt：最高级指令，定义角色/风格/边界/输出格式。如同”AI的产品经理设定”。
Few-shot：给示例教模式，无需微调。适合快速验证意图分类、情感分析等。
Function Calling：模型输出结构化JSON调用外部工具。Agent的基石。

应用场景：

RealBot专家模式（低Temp保证专业输出→灵感模式切换）
TechKids小智Bot（System Prompt设定儿童编程助教人格）
129条Quick Actions（Few-shot确保风格一致性）
联网搜索/查天气/内部工具调用（Function Calling）

学习投入产出比：⭐（2天）

面试命中率：90%
这4个参数就是AI产品经理的”调参三件套”——能讲明白就是专业
结合项目举例是面试最高效的展示方式

3. Prompt Engineering 5大核心技巧

解析：

角色设定（Persona）：角色越具体越稳定。“资深PM”不如”有5年B端SaaS经验的PM，擅长数据分析驱动决策”。
结构化输出（Structured Outputs）：用JSON Schema强制约束输出，前端可靠渲染。AI功能落地的关键。JSON Mode vs Structured Outputs vs Function Calling的区别与选择——高区分度追问。
约束（Constraints）：长度/范围/禁止事项，产品合规与安全的防线。
反例（Negative Examples）：比正例更高效修复边缘case。
评测样例（Eval Set）：50+条测试用例，量化评估prompt效果。没有评测集就不能说prompt变好了。

应用场景：

129条Quick Actions的风格一致性维护
9位AI专家身份不漂移（分层Prompt）
文档问答的引用格式约束
情感分析的边缘case修复

学习投入产出比：⭐（2天）

面试命中率：90%
PM的核心竞争力——不是”写prompt”而是”设计prompt体系”
建立50+条评测集是你推动算法优化的”证据”

4. AI Agent 本质定义 + 5大核心能力（2026重要补充）

解析：

Agent本质定义：自主决策、多步推理、闭环反馈的系统。不是”聊天机器人+工具”。
与ChatBot+插件的区别：ChatBot被动响应，Agent主动规划+执行+反思循环；ChatBot无状态单次调用，Agent有状态多步闭环。
与Prompt Chain的区别：Prompt Chain固定路径，Agent动态决策；Chain无状态传递，Agent每步更新状态+反思调整。
2026新追问：没有工具调用还算Agent吗？ — 纯LLM的多步推理+记忆+反思，不需要外部工具也可能具备Agent属性。工具不是Agent的充分必要条件，自主闭环决策才是本质。没有工具的Agent能力受限但仍成立（如规划型Agent）。
五大能力：
1. 工具调用（Tool Use）：通过Function Calling实现。工具集决定Agent能力上限。
2. 记忆（Memory）：短期=上下文窗口，长期=向量化摘要存库。记忆成就个性化。
3. 任务拆解（Task Decomposition）：把复杂目标拆成可执行子任务。能拆解才是真Agent vs 聊天机器人。
4. 工作流（Workflow）：预定义步骤+条件路由+人工审核节点。可编排、可监控的产品形态。
5. 失败兜底（Fallback）：重试→降级→转人工。兜底设计决定用户容错度。

应用场景：

RealBot的联网搜索+查天气+内部工具调用
TechKids自动拆解”查漏补缺→推荐练习→评估结果”流程
错误重试3次→转人工提示
2026趋势：MCP协议标准化工具连接，A2A协议标准化Agent间通信

学习投入产出比：⭐（2天）

面试命中率：90%
2026年最热话题，所有公司都在问Agent相关
特别注意：面试官追问Agent本质定义的概率极高，能辨析”Agent vs ChatBot+插件 vs Prompt Chain + 没有工具算不算Agent”直接拉开差距

5. RAG 完整管道及其细节解析

解析：

文档切片（Chunking）：200-500 tokens/语义完整。策略对比→固定长度 vs 语义切分 vs 父子块（Parent-Child Chunking），不同策略影响检索质量。
Embedding：文本→高维语义向量。BGE / M3E / OpenAI text-embedding-3选型对比。
向量库：Milvus/Qdrant/PGVector。关注搜索速度、准确率、更新机制。与传统数据库的本质区别：相似度查询 vs 精确匹配。稠密向量（语义搜索）vs 稀疏向量（关键词匹配）。
召回（Retrieval）：混合召回（BM25+向量）提高覆盖面。K值过大→噪声干扰严重，需平衡召回量与准确率。查询改写技术（HyDE、Step-Back Prompt）可显著提升首次召回质量。
重排（Reranker -> 2026必选项）：交叉编码器精排。2026面试新共识：向量相似度≠语义相关性，Rerank从”锦上添花”变为”生产级RAG标配”。Top-K截断→Rerank精排→取Top-N。K值过大的负面影响：召回率虽高但噪声多→Rerank负担加重→最终回答质量下降。
切片重叠区域（Overlap）：一般10-20%重叠→避免关键信息被切边界切断。面试官追问细节时的高频考点。
增量索引策略：文档更新后→版本控制+哈希校验→分段更新/软删除/定时合并。回答”文档变了怎么办”的工程方案。
引用来源（Source Citation）：企业AI可信度的核心。

应用场景：

DailySpeak多模态文档问答（File/URL/Web/Scan→提取→检索→朗读）
TechKids知识库问答
法律合同按条款切/教程按步骤切

学习投入产出比：⭐（2.5天）

面试命中率：85%
RAG是AI PM面试的”标准题型”
能画完整6步管道图就是加分
精细化追问增多：K值影响、重叠比例、稠密vs稀疏向量、Rerank必要性、增量索引策略

6. Agent 常见失败场景与解决方案【2026新P0】

面试高追问率：腾讯AI平台部、蚂蚁AgentInfra等大厂三次面试均问到

解析：

场景一：工具调用失败
- 表现：模型生成的参数格式不合法、工具超时、返回异常
- 方案：参数校验层预处理→格式非法让LLM重生成→关键调用人工兜底
- 量化效果：“工具调用成功率从75%提升至92%+”
场景二：上下文溢出
- 表现：长对话遗忘早期信息、Agent多步执行丢失上下文
- 方案：上下文压缩+定期summarize+滑动窗口+关键信息提取
- 量化效果：“有效上下文利用率提升40%”
场景三：目标漂移
- 表现：Agent多步执行后偏离原始目标，做了不该做的事
- 方案：每步目标对齐检查（Re-Planning）+定期反思总结+必要时重新规划
- 量化效果：“任务完成准确率从60%提升至85%”

应用场景：

面试必问”你的Agent遇到过什么问题”
TechKids自动辅导路径偏离修正
RealBot多步任务执行稳定性保障

学习投入产出比：⭐⭐（0.5天）

面试命中率：85%（2026年高频追问题）
这三个场景覆盖Agent工程化90%的问题，是区分”用过Agent”和”理解Agent”的关键
能结合项目讲具体case效果最佳

7. Agent 架构分层设计（系统设计题核心）【2026新P0】

解析：

企业级Agent不能全凭LLM裸跑，必须分层架构：
- 接入层：用户输入接收、鉴权、限流
- 对话管理层：短期记忆（Redis+过期）、长期记忆（向量库+召回）
- Agent核心层：规划（Planner）→ 执行（Executor）→ 反思（Reflector）循环
- 工具层：工具注册、参数校验、重试机制、结果解析
- 输出管控层：事实核查、置信度校验、格式约束、安全过滤

核心追问 - 规划与执行要不要拆成两个模型？【2026新追问】

拆：强模型（GPT-4o级）负责规划 → 快模型（DeepSeek-Lite级）负责执行 → 确定性校验层兜底
不拆：单一模型兼顾规划和执行，结构简单但容易出现”规划时被执行的中间结果干扰”
混合推荐方案：强模型规划+快模型执行+确定性校验 === 2026工业界主流选择
产品决策逻辑：成本和效果的平衡——规划频率低但质量要求高，执行频率高但容错空间大，分开能最大化性价比

核心追问 - 记忆设计：

短期记忆→Redis，设过期时间，存当前会话上下文
长期记忆→向量数据库，存用户画像、历史问题总结
记忆提取策略：相关性召回+时效性排序

核心追问 - 稳定性保障：

超时处理：LLM推理设超时→友好提示
降级策略：大模型挂了→降级规则匹配或转人工
监控告警：每步成功率/失败原因→异常告警

应用场景：

面试系统设计题”设计一个企业客服Agent”
RealBot Agent功能的架构设计
TechKids自动辅导系统

学习投入产出比：⭐⭐（1天）

2026年二面/三面高频系统设计题
能画5层架构图+回答3个追问=面试竞争力碾压
PM不要求写代码，但要能画流程图、讲清楚每一层干什么

8. 项目亮点与技术难点（面试核心）

面试命中率：100%。这部分是你的”个人案例集”，必须练到能张口就来。

8.1 上下文管理

解析：多轮对话token累积→窗口溢出。方案=滑动窗口截断+摘要压缩（summarize recent turns）。
应用场景：TechKids多轮对话、RealBot长对话
投入产出比：⭐⭐ 务必量化 —— “token成本降低约30%“

8.2 Prompt 工程化 & 专家体系

解析：129条Action风格一致性+9位专家身份不漂移。方案=System Prompt分层（角色锚定层+知识边界层+输出格式层）。
应用场景：RealBot 9位AI专家、Quick Actions管理
投入产出比：⭐⭐ 务必量化 —— “风格一致性95%+“

8.3 流式输出（Streaming）

解析：iOS端SSE/WebSocket流不稳定→断连。方案=heartbeat ping+前端状态机（loading→streaming→done→error）。
应用场景：RealBot/DailySpeak/TechKids流式对话
投入产出比：⭐⭐ 务必量化 —— “断连恢复率从70%提升到95%+“

8.4 RAG 管道调优

解析：召回率低+噪声chunk干扰。方案=Hybrid Search+Reranker+Chunk粒度优化+增量索引。
应用场景：DailySpeak文档问答
投入产出比：⭐⭐ 务必量化 —— “Top-3命中率从60%提升到85%“

8.5 幻觉控制

解析：AI领域专家输出技术内容→“自信型幻觉”。方案=self-consistency check+引用溯源+置信度阈值过滤。
应用场景：所有AI功能的安全基线
投入产出比：⭐⭐ 务必量化 —— “从架构层面嵌入多重验证机制”

8.6 项目讲解”动作化”技巧【新增】

不要：报菜名式”我用了LangChain、Pinecone、Reranker……”
要：讲决策过程——“最开始直接用向量检索，后来发现相似度≠相关性，所以加了Rerank层精排，Top-3命中率从60%提升到85%”
公式：遇到了什么问题 → 为什么这个方案不行 → 做了什么改动 → 量化了什么效果

总投入：1天

项目亮点是所有知识的”挂载点”——每个技术点都要回到你的项目举例

9. 幻觉防控工程方案【2026新P0 / 企业级必问】

解析：

RAG增强：所有回答基于知识库，不允许无源胡编
置信度校验：让LLM对自身答案给自信分→低于阈值转人工/二次校验
事实核查：输出结果与检索原文逐句比对→不一致则重新生成
Prompt防幻觉设计：明确告知检索范围、要求引用来源、提供反例（“如果说不知道也可以”）
人工复核兜底：金融/医疗等关键场景→必须有人工审核节点

面试官追问：企业级应用中幻觉零容忍，你有哪些防线？

应用场景：

DailySpeak文档问答的业务基线
RealBot专家模式的内容可信度保障
任何面向企业的AI功能

学习投入产出比：⭐⭐（0.5天）

面试命中率：80%（企业级AI岗位必问）
三层防线（RAG→置信度→事实核查）能讲清楚=体现工程化思维
PM能讲幻觉防控=知道”怎么把AI功能做得靠谱”

10. 大厂差异化Agent策略认知【2026新P0 / 面试拉分题】

5月15日新增——来自CSDN 2026 AI Agent PM面试真题解析，面试官爱问的行业洞察题

解析：

腾讯：依托微信+企业微信社交+办公双场景。优势在私有化知识库和多端协同（PC/手机Agent状态同步）。适合B端企业知识库、政企办公场景。
字节：更偏向内容推荐+技术驱动的创新产品（豆包），重技术轻社交。聚焦内容创作辅助、智能推荐Agent。
阿里：云服务+电商双轮驱动。通义千问+百炼平台布局B端Agent开发平台。
PM答题逻辑：面试官不是考你对三家公司的理解，而是考你有没有行业格局意识——能讲清”谁做什么、为什么这样做、对产品有什么影响”即可。

应用场景：

面试中”你怎么看国内大厂Agent布局”
体现行业视野，和纯技术候选人拉开差异
影响产品策略判断（如：做社交Agent还是工具Agent）

学习投入产出比：⭐⭐（0.5天）

面试命中率：40%（大厂岗位命中率更高）
这是PM面试的”重炮题”——能答好=面试官觉得你有大局观
不用背细节，讲清楚格局+逻辑即可

11. AI PM 面试核心转向 — 权衡判断（Trade-off Judgment）【5/18新增】

来源：ProductLeadership 4天前 — “AI PM interviews test structured thinking and trade-off judgment more than memorized definitions”

解析：

2026面试核心转向：面试不再考”什么是ML”，而是”如何围绕AI的局限性设计产品”。面试官明确在测你做trade-off的能力，而非背诵技术定义。
十大核心权衡场景：

场景	权衡两端	PM答题逻辑
模型选型	效果好但贵 vs 效果一般但便宜	按场景分级路由——复杂→GPT-4o，简单→DeepSeek
召回策略	Precision vs Recall	用户搜索意图是导航型(高P)还是探索型(高R)
幻觉控制	回答丰富度 vs 安全可信	策略型(0.7Temp+引用) vs 事实型(0.1Temp+强制RAG)
AI优先级	商业价值 vs 数据/模型就绪度	数据不可用=功能不可做，技术可行性是硬约束
低精度上线	透明度 vs 用户信任	不藏着——限制范围+人工兜底+明确告知限制
个性化	深度 vs 探索	老用户深度推荐 vs 新用户冷启动探索
A/B测试	统计严谨 vs 模型波动	不可重复读取 → 延长测试窗口+在线评估
成本优化	模型质量 vs Token消耗	语义缓存+模型级联+Prompt Caching
存储策略	记忆保留完整 vs 成本可控	Full History → Sliding Window → Summary → Vector按场景选
发布策略	MVP范围太小 vs 太大	选有价值且有数据的起点，定义最小可学习模型

应用场景：

面试中任何”你怎么选/为什么”类问题的底层框架
“如何改进搜索/推荐/客服Agent”等开放题
回答AI产品经理面试的标准思维方式

学习投入产出比：⭐⭐（0.5天）

面试命中率：90%（并非直接问，但每题都在测这个能力）
这是AI PM面试的”元能力”——不管问什么，你的回答逻辑都要体现权衡思维
一句话记住：面试官想看的是你怎么思考，而非你知道什么

12. AI系统设计面试答题框架（4阶段 + 读过vs做过评判标准）

来源：Rubduck.ai (3月) — “The tradeoff conversation is the interview.” / Prachub (4月) — AI system design interview framework

解析：

2026系统设计面试核心变化：从”设计Twitter/URL短链”转向”设计文档问答系统/AI客服Agent”。确定性系统→概率性系统，成本从”事后考量”升格为”一等公民工程权衡”。
4阶段答题框架（面试标准流程）：

阶段	时间	内容要求
1. Clarify需求	5min	用户量/Query量/“正确”定义/幻觉是否可接受/延迟目标/数据新鲜度/成本约束。实时客服vs内部批处理→完全不同的设计
2. 架构总览	5-8min	客户端→编排层→推理→检索(如有RAG)→存储(向量库+文档库+元数据库+缓存)→可观测性。每个组件说一句选型理由
3. 深挖风险点	10-15min	通常是检索质量/延迟/评估。准备好讨论权衡
4. 权衡与瓶颈	5min	诚实说弱点+提缓解方案。“权衡对话就是面试本身”

面试官评判标准：读过vs做过
- 读过：“用RAG做接地” → 做过：解释为什么检索有用，命名具体失败模式，描述检测方法
- 读过：不提成本 → 做过：Prompt Caching/上下文窗口管理/模型分级路由作为一等工程考量
- 读过：泛泛”会测试” → 做过：“离线用RAGAS跑faithfulness+context recall，线上用thumbs-up/down+LLM-as-judge采样”
- 核心金句：“I would choose X over Y because of Z, even though it trades away W”

应用场景：

任何系统设计类面试题的”元框架”
“设计企业知识库问答Agent”、“设计文档问答系统”、“设计50K并发LLM服务”
结合你的项目经验（RealBot/DailySpeak/TechKids）套用答题框架

学习投入产出比：⭐⭐（1天）

面试命中率：80%（系统设计题已成为二面/三面标配）
这不是一个知识点，是一套”面试答题的作战地图”——和P0无工具等你现有的P0知识链联动使用
建议：选一个场景（如文档问答系统），用4阶段框架完整练一遍

13. AI面试全链路思维框架【5/19新增 — Day 5】

来源：CSDN 2026最新大模型面试复盘(2天前) / JavaGuide 2026面试指南(1天前) — 面试官核心关注”从数据到服务的完整闭环”

解析：

2026面试核心升级：面试官不再满足于单点知识（RAG/Agent是什么），而是要求你展示从数据采集到在线服务的全链路闭环思考能力。一个问题背后，面试官在看你有没有”端到端”的工程视野。
五阶段全链路框架（面试答题骨架）：

链路环节	核心考点	PM答题切入点
1. 数据采集	预训练数据类型（网络文本/结构化数据/多语言语料）；数据清洗与去重（MinHash/SimHash）	你负责的产品需要什么数据？数据质量如何保证？
2. 模型选型与训练	模型选型（稠密vs稀疏Attention）；微调方案（LoRA/QLoRA）；训练问题（OOM/梯度爆炸/不收敛）	为什么选这个模型？微调收益vs成本权衡？
3. 推理与部署	推理延迟优化（模型蒸馏/FlashAttention/batch推理）；量化（INT8/INT4降显存）	推理成本如何控制？延迟和质量的trade-off？
4. 在线服务	高并发方案（异步队列Kafka/缓存策略/负载均衡）；模型网关（限流/熔断/降级/路由）	API出问题怎么降级？模型供应商挂了怎么办？
5. 监控与闭环	效果评估（LLM-as-Judge/Golden Set）；线上监控（成功率/延迟/成本三表）；持续迭代	怎么证明你的改动有效？线上效果变差怎么定位？

面试答题技巧：回答任何AI系统问题时，有意识地展示全链路思考——“这个问题不仅影响推理，还会影响数据采集策略和在线服务设计”
面试官真正在测的：不是你知道多少，而是当系统出问题时你有没有完整排查思路

应用场景：

系统设计题的标准思维扩展框架
回答”如果上线后效果变差，你怎么定位”
展示你的工程化落地思维，和只会背八股的候选人拉开差距

学习投入产出比：⭐⭐（0.5天）

面试命中率：60%（2026大厂命中率80%+，社招面试核心能力）
这不是一个单独知识点，而是”将前面12个P0知识点串起来的思维骨架”
一句话记住：全链路思维 = 数据→训练→推理→服务→闭环，能在任何一个环节回答”出问题了怎么办”

🟡 P1 — 高价值加分项（2026新热点 + 面试区分度）

特点：2026年新增高频面试方向，问到了就能拉开差距。不是必问，但越来越常见。
复习策略：过1遍，能对比阐述原理即可。

14. 上下文工程（Context Engineering）

2026年面试新热点，区别于Prompt Engineering

解析：

定义：管理模型”看到的整个世界”——不是教一条指令，而是管理系统级的信息组织方式。
与Prompt Engineering的区别：PE教模型”如何回答”；CE管理模型”能看到什么”。
核心方法：
- System Message设计（角色+目标+行为+工具定义+思考链示例）
- 上下文压缩（滑动窗口+向量检索+分层摘要组合）
- 分层记忆架构（闪存+短期+长期三级）
控制手段：Prompt Caching（缓存高频system prompt降成本）、语义缓存（重复query不走LLM）

应用场景：

TechKids的长对话质量维持（不只是截断，而是智能摘要）
RealBot专家切换时的上下文迁移
批量处理场景的上下文复用与成本优化

学习投入产出比：⭐⭐（0.5天）

2026面试新题命中率：上升趋势
一句话讲清区别即可：“PE教模型怎么说话，CE管模型能看到什么”
是P0几项的”元框架”，学了这个能把前面的串起来

15. MCP 与 A2A 协议（2026最热新概念）

解析：

MCP（Model Context Protocol）：模型连接外部工具和数据源的标准协议。解决”每个模型接一套工具”的碎片化问题。Anthropic提出，2026正成为行业标准。
- 类似”AI的USB-C接口”——一次对接，到处调用
- 产品价值：降低工具集成成本，可插拔工具生态
- 2026面试新深度：MCP多了怎么管理？→分类+元数据+检索+动态加载+权限+统计
A2A（Agent-to-Agent）：Agent间的通信协议。Google提出，解决多Agent协作的互操作性问题。
- 场景：客服Agent转接给财务Agent，各自保持独立
- 产品价值：多智能体系统不再依赖同一个框架

应用场景：

面试回答”如何看待2026 Agent趋势”的绝佳素材
平台型AI产品（如RealBot接入更多第三方工具）
多Agent协作（如内容审核+客服+数据三Agent协同）

学习投入产出比：⭐⭐（0.5天）

2026年面试新题，知道就能拉开信息差
不要求深入技术实现，讲清楚”是什么 + 为什么重要 + 产品影响”即可

16. Skills 与 MCP 的辨析【2026新P1】

面试官偏爱的区分度问题——能讲清这个说明你有架构意识

解析：

MCP（Model Context Protocol）：工具连接协议。定义模型如何”插上”外部工具/数据源。单一职责——只管连接。
Skills（能力包）：完整任务能力单元。包含Prompt模板+工具集+工作流+错误处理方案。更高层次的抽象。
核心区别：MCP是”插头标准”，Skills是”完整电器”。MCP让Agent能连任何工具，Skills让Agent能执行完整任务。
类比：MCP = USB-C接口（怎么连），Skills = 打印机/键盘（能做什么）
产品价值：从MCP协议出发构建工具生态，再封装成Skills降低Agent开发复杂度

应用场景：

RealBot未来开放第三方工具接入（基础MCP层）
将复杂工作流打包为可复用Skill（如”文章分析Skill”包含提取+总结+多语言）
面试中展示你对Agent生态架构的理解

学习投入产出比：⭐⭐（0.5天）

2026面试新概念，能辨析≈你有架构思维
一句话记住：MCP是连接标准，Skills是能力封装

17. 工具层（Tool Layer）工程实现 + MCP Server治理深度【5/19深挖】

解析：

工具定义：不仅是”调API”，包含完整元数据→名称+描述+参数Schema（必/选参数、类型、枚举）+返回值格式+示例
调用流程：Agent生成JSON参数 → 参数校验层预处理 → 执行工具 → 结果解析 → 反馈给Agent
错误处理：重试3次（指数退避）→ 参数调整重试 → 降级返回友好提示 → 人工兜底
2026趋势：MCP协议标准化工具定义格式，工具生态从”自建”走向”可插拔”
【5/19深挖 — MCP Server治理深度】 面试官追问MCP时会进一步考察：
- 分类管理：工具按领域/权限/成本分级，避免工具调用混乱
- 元数据注册：每个工具的名称/描述/参数/返回值/示例完整注册，支持Agent自动发现
- 智能检索：工具数量多（100+）时→Agent需先”搜索”可用工具→再决定调用哪个，而非全部塞入Prompt
- 动态加载：按需加载工具描述到Context→避免Profile污染（只塞当前场景相关的）
- 权限控制：敏感工具（写数据库/发邮件）需额外审批→Human-in-the-Loop
- 调用统计：各工具调用频率/成功率/平均Token消耗→用于优化工具集

应用场景：

RealBot的联网搜索/天气/内部工具调用
TechKids的计算器/代码执行工具
DailySpeak的文档解析工具链
面试追问”MCP Server怎么治理”时能有深度回答

学习投入产出比：⭐⭐（0.5天）

面试追问：面试官会问”你的Agent怎么调用工具的，失败怎么处理”、“MCP Server怎么管理”
能讲清楚工具定义+调用流程+错误兜底+治理深度=体现工程落地能力+架构思维

18. ReAct vs CoT vs ToT 规划方法对比【2026新P1】

解析：

CoT（Chain-of-Thought）：让模型逐步推理，中间生成推理链。适合有明确步骤的逻辑问题（数学/逻辑推理）。简单直接但无反馈回路。
ReAct（Reasoning + Acting）：推理→行动→观察→再推理循环。适合需要与外部交互的Agent场景（搜索/查库/调工具）。Agent场景主流选择。
ToT（Tree-of-Thoughts）：多路径并行探索+剪枝。效果最好但token消耗大（3x+）。适合需要深度探索的复杂问题（规划/策略设计）。
选型实战：知识库问答中CoT效果差→换成ReAct准确率提升15%；ToT适合线下深度推理场景，线上成本高。

应用场景：

面试中展示你实际用过并理解trade-off
TechKids自动辅导的路径规划选型
回答”你的Agent用了什么规划方法，为什么”

学习投入产出比：⭐⭐（0.5天）

面试命中率：上升趋势
核心不是会背三种定义，而是能讲清楚”什么场景用什么 + 成本和效果怎么权衡”
PM视角：关注的是每个方法对用户响应时间和token成本的影响

19. Query 改写技术（HyDE / Step-Back）【2026新P1】

解析：

HyDE（Hypothetical Document Embeddings）：先让LLM基于问题生成一个”假设的理想文档”，再用这个文档去检索。效果：弥补用户问题信息不足的问题。
Step-Back Prompt：让模型先退一步思考更宏观的问题，再回答具体问题。适合多步推理场景。
Query Rewrite：直接改写用户原始query（去噪/补全/翻译）→提高检索命中率。
产品价值：不增加基础架构成本的前提下提升检索质量5-15%

应用场景：

DailySpeak文档问答中用户query不精确时的兜底
TechKids知识库搜索质量优化
面试中体现你对RAG检索前处理的理解

学习投入产出比：⭐⭐（0.5天）

面试命中率：30%
知道概念+能举例说明场景即可，面试不会深入追问实现细节
PM视角：关注的是”改写了什么 + 效果提升多少 + 成本增加多少”

20. 增量索引策略【2026新P1】

解析：

问题：文档更新后，向量库中的旧数据如何处理
方案对比：
- 全量重建：简单但耗时，适合低频全量更新
- 版本控制+哈希校验：记录文档版本hash→只更新变化部分
- 分段更新+软删除：标记旧数据为删除状态→新数据写入→定时合并清理
- 实时更新流：文档变更→触发embedding→增量写入向量库
产品价值：保证用户总是检索到最新内容，同时避免全量重建的高成本

应用场景：

DailySpeak文档库的内容更新维护
TechKids知识库的持续更新
答题：面试官问”文档更新了怎么办”的工程方案

学习投入产出比：⭐⭐（0.5天）

面试命中率：25%
P1中偏后排序，有余力再看
一句话总结：不做增量索引=用户可能检索到过期内容

21. Multi-Agent 协作模式

解析：

为什么需要多Agent：单Agent能力有限，多个专精Agent协作可解决更复杂任务。
三种协作模式：
1. Supervisor模式：一个主Agent协调分配子任务。适合有明确管理者角色的场景（如客服组长分配工单）。
2. Swarm模式：对等Agent各司其职，无统一调度。适合去中心化协作（如多个数据采集Agent并行工作）。
3. Hierarchical（层级式）：多层嵌套，每一层有自己的Agent集群。适合复杂企业组织架构映射。
选型原则：
- 需要严格监控和审批→Supervisor
- 需要高并发并行处理→Swarm
- 需要反映组织层级→Hierarchical

应用场景：

多产品线协同（TechKids辅导+RealBot咨询+DailySpeak朗读协作）
复杂业务流程自动化（如PRD评审多角色流水线）
面试：回答”你怎么设计多Agent协作”

学习投入产出比：⭐⭐（0.5天）

2026高频面试题，和多智能体框架联动记忆效率更高
能讲三种模式的”设计哲学差异”就够用
PM视角：关注什么场景适合什么协作模式，而非框架实现

22. Agent 评估体系 + 评测深度【5/19深挖】

解析：

为什么需要独立评估：Agent不是单次问答，是多步闭环。最终结果对≠过程最优，可能绕远路、多耗费token。
三层评估：
1. 结果层：任务完成率（Completion Rate）、用户满意度
2. 过程层：规划准确率、工具调用正确率、步数效率
3. 成本层：Token消耗、API调用次数、延迟
关键指标：
- 任务成功率（Task Success Rate）
- 工具命中率（Tool Hit Rate）
- 循环次数（Loop Count）——检测死循环
- 成本/任务（Cost per Task）
【5/19深挖 — 生产级评测体系设计】 2026面试中，面试官对评测的追问已从”用什么指标”升级到”怎么设计评测体系”：
- Golden Set（黄金评测集）：精心设计的50-100条测试用例，覆盖正常/边界/异常场景。每次改动后先过Golden Set→通过才能上线
- LLM-as-Judge：用强模型（GPT-4o级）做自动评分器，评估faithfulness/context recall/answer relevance。注意局限：Judge模型本身可能偏见
- Trace回放：记录Agent每步的输入/输出/工具调用/Token消耗→线下回放分析问题
- 线上灰度评估：Deployment后持续收集thumbs-up/down数据+LLM采样评估→与离线结果交叉验证
- 核心标准：“离线用Golden Set + 自动化评测，线上用A/B + 用户反馈，两者交叉验证”

应用场景：

RealBot的Agent功能上线前的质量门禁
TechKids自动辅导的”正确路径”验证
DailySpeak TTS工作流的各节点耗时监控

学习投入产出比：⭐⭐（0.5天）

面试命中率：上升趋势（2026年Agent爆发→评估需求暴增）
体现”系统化思维”——不只是做功能，还知道怎么衡量效果
PM能讲评估体系 = 知道怎么界定”好”与”不好”

23. 多智能体框架（LangGraph / CrewAI / AutoGen / Dify）

解析：

LangGraph：状态图思维。适合有状态、有条件分支的复杂工作流。如Code Review→Writer协作。2026趋势：已替代LangChain成为主流Agent框架。
CrewAI：角色扮演思维。每个Agent有角色描述+任务+流程。如研究/写作/审核三角色。
AutoGen：对话式多Agent。微软出品，适合讨论/辩论场景。
Dify：低代码AI应用开发平台（拖拽式+开源+企业级）。适合快速构建RAG/Agent原型，有完整数据集管理+Prompt编排+日志追踪。与LangGraph的本质区别：LangGraph面向开发者（代码控制），Dify面向产品/运营（可视化编排）。面试加分：“Dify适合快速MVP验证，LangGraph适合复杂生产系统”
选型原则：
- 需要严格状态流转 → LangGraph
- 需要角色分工协作 → CrewAI
- 需要Agent间辩论/讨论 → AutoGen
- 需要快速可视化成产品 → Dify
- 面试追问”为什么选X而不选Y”：准备2-3个框架用一句话说清择理由
2026趋势：框架从Chain→Graph演进，“编排”成为Agent产品的核心能力

应用场景：

面试中对比LangGraph vs CrewAI vs AutoGen
多产品线协同（TechKids辅导+RealBot咨询+DailySpeak朗读协作）
复杂业务流程自动化（如PRD评审多角色流水线）

学习投入产出比：⭐⭐（0.5天）

2026高频面试题（字节Agent平台组/蚂蚁AgentInfra等都在问）
知道三种框架的”设计哲学差异”就够用
产品经理角度：不是选择框架，而是判断什么场景适合什么协作模式

24. 记忆管理深度（Memory Management） + 冲突更新机制【5/19深挖】

解析：

四种记忆方案对比：
- Full History：全部保留。优=信息无丢失；劣=撑爆窗口成本高
- Sliding Window：固定长度最新对话。优=成本低；劣=早期关键信息丢
- Summary Memory：历史总结摘要。优=平衡信息与成本；劣=摘要丢失细节
- Vector Store Memory：向量化存库。优=理论上无限扩展；劣=检索精度依赖算法，有召回不全风险
高级设计：分层记忆架构——闪存（当前步中间结果）+短期（当前会话上下文）+长期（跨会话信息）
【5/19深挖 — 记忆冲突更新机制】 面试官高追问方向：
- 问题：用户早期说”我喜欢推荐日料”，后来又说”最近不想吃日料了”→长期记忆中的两条信息冲突。Agent该听哪条？
- 方案：时效性优先（最近表达>早期表达）+ 显式覆盖（“不再推荐日料”触发旧信息失效标记）
- 一致性维护：长短期记忆之间如果冲突→以短期（最新交互）为准→反向修正长期记忆
- 产品设计：用户可手动编辑/删除Agent记住的信息（如”我的偏好”页面）
- 面试金句：“记忆系统设计的核心不是存多少，而是怎么处理冲突和遗忘”

应用场景：

RealBot跨会话记住用户偏好（长期记忆设计）
TechKids记住学生上次学到的知识点（学习进度追踪）
Agent执行长任务时的中间结果暂存（闪存设计）

学习投入产出比：⭐⭐（0.5天）

面试追问频率高——P0的”Agent记忆”是基础，这里是被追问后的深度展开
能讲四种方案的优劣比较+冲突更新机制即可
PM视角：关注的是”用户感知到的记忆效果”而非存储细节

25. SFT vs RLHF + RAG vs Fine-tune 选型决策树 + DPO vs RLHF对比【5/19深挖】

解析：

SFT（监督微调）：人工标注数据直接训练。快速收敛但泛化弱（见过才学得会）。
RLHF（基于人类反馈的强化学习）：SFT基础上引入奖励模型+PPO算法对齐人类偏好。对齐效果好但训练复杂不稳定（奖励欺骗/模式崩塌）。
工业界实践：两者结合——先用SFT快速达标，再用RLHF精调偏好。
RAG vs Fine-tune 选型决策树（面试官高频追问题）
- 优先RAG：知识更新频繁（日/周级）、训练数据不足1000条高质量样本、需要可溯源引用
- 优先Fine-tune：输出格式固定（如JSON模板/法律合同）、任务风格明确（客服风格/创意写作）、对延迟敏感（Fine-tune推理成本更低）
- 二者结合（推荐）：RAG做知识来源 + Fine-tune做输出风格对齐。如企业客服Agent = RAG检索知识库 + Fine-tuned模型按品牌话术输出
- 量化判断：“知识更新快用RAG，输出格式固定用Fine-tune，两者兼需可结合”
- LoRA参数深度：rank=8适合简单任务，rank=64适合复杂任务；rank过高→过拟合+训练成本上升，rank过低→表达能力不足。QLoRA比LoRA更省显存（4bit量化），适合消费级显卡
【5/19深挖 — DPO vs RLHF详细对比】 2026面试新方向：
- DPO（Direct Preference Optimization）：不需要独立的Reward Model，直接基于偏好对优化策略。简化训练流程，减少不稳定因素。
- vs RLHF（需要Reward Model）：RLHF多一步训练Reward Model，训练更复杂但理论上效果上限更高。
- 什么时候用DPO：小参数量模型（<13B）、训练数据量不大（<10K偏好对）、算力有限——DPO性价比优于RLHF
- 什么时候用RLHF：大参数量模型、有充足标注资源和算力时，RLHF的”奖励信号”可能更准确
- PPO稳定性原理：PPO通过截断策略（Clipping） + 优势函数来保证训练稳定性。Clipping限制策略更新幅度（0.8-1.2倍），避免一次更新破坏模型能力

应用场景：

模型选型判断（外包客服→SFT够用；创意助手→RLHF更优）
理解ChatGPT/GPT-4的迭代逻辑
面试追问”RLHF训练不稳定怎么解决”、“LoRA rank怎么选”

学习投入产出比：⭐⭐（0.5天）

面试命中率：40%+（DPO vs RLHF属于2026新考点，命中率在上升）
一句话讲清核心差异：SFT解决”学会”，RLHF解决”学对”；DPO解决”没有Reward Model也能对齐”
对比RLHF和DPO是面试加分项，理解PPO的Clipping原理是深度加分

26. MoE（混合专家）架构

解析：

核心原理：不显著增加推理计算量前提下扩大参数规模。每个Token只激活少数专家（如Top-2），总参数大但激活参数小，FLOPs可控。
优势：性价比高，可用更少激活参数实现更强综合能力。
挑战：专家负载均衡（load balancing loss）、通信开销（all-to-all）、存储成本（所有专家参数需驻留内存）。

应用场景：

理解DeepSeek/Mixtral为何能以低成本提供大容量模型
推理定价背后的技术基础
模型选型判断

学习投入产出比：⭐⭐（0.5天）

面试命中率：30%
作为对比性知识，能讲MoE vs Dense的差异即可

27. SSE / WebSocket / WebRTC 协议选型【2026新P1】

解析：

SSE（Server-Sent Events）：单向流，服务器→客户端。简单，适合实时通知/流式输出。缺点：只支持单向通信，浏览器原生支持。
WebSocket：全双工双向通信。适合聊天/实时协作。缺点：需要状态管理、连接维持成本。
WebRTC：P2P实时音视频传输。适合语音/视频通话、低延迟互动场景。缺点：复杂度高（STUN/TURN/ICE信令）。
选型原则：
- 纯文本流式输出 → SSE
- 需要双向实时交互 → WebSocket
- 需要音视频传输 → WebRTC

应用场景：

RealBot/DailySpeak/TechKids的流式对话输出→SSE
多Agent间实时协作→WebSocket
语音交互场景→WebRTC

学习投入产出比：⭐⭐（0.5天）

面试命中率：25%
能讲清楚三种协议的核心区别+选型原则即可
PM视角：关注的是”不同协议对用户体验和成本的影响”

28. LLM 网关治理【2026新P1】

解析：

为什么需要：多个AI功能复用同一个模型API时，需要统一管控流量、成本和质量
核心能力：
- 限流：防止API被单个功能打满（令牌桶/滑动窗口）
- 熔断：模型服务异常时自动切换备用模型
- 多模型路由：按场景分发到不同模型（简单→低成本小模型，复杂→GPT-4o）
- 成本治理：token消耗统计、预算预警、模型级联路由（fallback）
- 监控日志：请求/响应/错误/延迟全链路追踪
- Token成本归因：按功能/用户/场景归因Token消耗→优化资源分配（JavaGuide新考点）

应用场景：

RealBot/DailySpeak/TechKids共用一套模型API时的网关设计
面试：回答”你怎么管理多个AI功能的模型调用”
成本优化：简单query走小模型→省钱50%+

学习投入产出比：⭐⭐（0.5天）

面试命中率：20%
有后端经验的PM讲网关特别自然
核心：体现你考虑过”多个AI功能共用模型时的治理问题”

29. 数据驱动产品：SQL + 产品指标体系

解析：

SQL：SELECT/JOIN/GROUP BY/窗口函数
产品指标：DAU/WAU/留存/转化/漏斗/ARPU/ARPPU/LTV
IAA指标链：展示率→填充率→eCPM→ARPDAU→影响LTV
分析方法：漏斗分析定位流失节点，留存分析找关键阈值

应用场景：

分析RealBot订阅转化漏斗
评估广告展示节点收益
计算不同渠道用户的LTV差异
定位功能流失点

学习投入产出比：⭐⭐（3天）

面试命中率：50%
数据能力是AI PM的”硬实力”标签
能现场写SQL查留存/转化 = 面试官会高看一眼

30. API / JSON / Postman 理解

解析：

HTTP方法（GET/POST/PUT/DELETE）
JSON请求/返回/错误码
REST API文档读写
Postman/Apifox测试
后端概念（鉴权/限流/异步/重试）
数据库表结构（用户/会话/消息/订阅/广告事件）

应用场景：

PRD附接口定义
测试验收自己调接口验证
排查问题时看懂后端错误日志
200+日活产品线的API维护

学习投入产出比：⭐⭐（1天）

你有软件工程背景，学起来很快
PRD从”页面描述”升级为”研发可落地需求”

31. AI产品商业化：IAA + 订阅转化

解析：

IAA变现：展示率/填充率/eCPM/ARPDAU/广告频控/展示节点设计
订阅转化：定价策略（对标竞品）、漏斗优化（曝光→点击→付费）、试用策略
商业化指标体系：LTV > CAC是健康产品的基础

应用场景：

RealBot订阅功能设计（周$9/月$20/年$75）
DailySpeak免费层广告策略
用户生命周期的变现节点规划

学习投入产出比：⭐⭐（1天）

面试命中率：40%
这是你简历里的实际经验，属于”不费力学但必须能讲”

32. 运营监控体系与成本优化【5/15新增】

2026面试新题：产品上线后的全生命周期管理能力

解析：

三层监控目标：
- 成功率：智能体响应成功率（目标>95%）
- 延迟：端到端响应时间（目标<3s）
- 成本：Token消耗+API调用费（目标+0%增长前提下支撑用户增长）
监控指标：成功率仪表盘、平均/95分位延迟、每日Token消耗、各功能成本分布
优化手段：模型级联路由（简单query走小模型）、语义缓存（重复query不调LLM）、Prompt Caching
PM角度：三个指标不能孤立优化——压延迟会牺牲质量，压成本会影响成功率。需要找平衡点。

应用场景：

RealBot/DailySpeak多AI功能共用模型时的资源监控
面试中回答”产品上线后怎么管”
体现：不是做完了就不管，而是持续关注线上指标

学习投入产出比：⭐⭐（0.5天）

面试命中率：20%（但大厂PM岗命中率更高）
体现”产品+运营”全链路思维
和LLM网关治理联动记忆

33. Function Call 底层真相与非执行机制

来源：小林coding/Kamacoder — 2026面试高频追问，面试官最爱深挖的技术细节

解析：

核心真相：LLM本身不执行函数，只输出结构化的”调用指令”。代码负责解析指令并执行。明确区分LLM的”决策”和应用层的”执行”——这是理解Agent安全性和架构设计的关键。
与Prompt+正则解析的本质区别：
- Prompt+正则：非结构输出→正则硬匹配→不稳定，格式一变就崩
- Function Call：结构化JSON输出→Schema预校验→可靠，格式由模型保证
并行调用（Parallel Function Call）：GPT-4o/Claude 3.5+支持一次返回多个调用。串行执行T=T1+T2+T3，并行执行T=max(T1,T2,T3)——面试官追问概率高。
产品价值：理解这个机制→PRD中定义工具Schema的能力、调教LLM输出格式的信心、排查问题的精准度都会显著提升。

应用场景：

RealBot联网搜索/天气/内部工具的接口定义
TechKids计算器/代码执行工具的Schema设计
面试回答”Function Call和普通解析有什么区别”
调试Agent时的故障定位（是LLM输出错了还是代码解析错了）

学习投入产出比：⭐⭐（0.5天）

面试命中率：60%（2026大厂面试追问率极高）
一句话记住：LLM只做决策，应用层做执行——这是Agent安全的第一道防线

34. Agent vs Workflow 混合架构设计

解析：

核心区别：谁控制流程？
- Workflow：代码控制——稳定、可预测、Token消耗低、调试难度低
- Agent：LLM控制——灵活、适应性强、Token消耗高、调试难度高
混合架构（2026工业界推荐）：不是非此即彼，而是联合使用
- Workflow处理简单稳定任务（标准话术回复/信息收集表单）
- Agent处理复杂异常情况（意图理解偏差/多步推理/非预期输入）
- 当Workflow走到分支点→转Agent决策→回Workflow执行
选型量化对比：

维度	Workflow	Agent	混合推荐
Token消耗	低（固定路径）	高（推理+调用），比Workflow高4-8倍	按需分配
可预测性	高	低	Workflow兜底
灵活性	低	高	Agent处理异常
调试难度	低	高	分步可观测
适用场景	标准化流程	开放决策	复杂业务系统

应用场景：

TechKids自动辅导：Workflow处理标准课程流程→Agent处理学生个性化问题
RealBot客服：Workflow处理FAQ→Agent处理复杂咨询→转人工
面试回答”为什么不用Workflow/Agent二选一”

学习投入产出比：⭐⭐（0.5天）

2026新兴追问方向，面试官爱问”你怎么设计这个流程”
能讲混合架构=体现工程化落地思维，而非学院派二极管
一句话记住：Workflow做骨架，Agent做脑子

35. 生产环境Agent五大陷阱（Production Pitfalls）

来源：Kamacoder面经实战总结——面试官爱问的”你遇到过什么问题”

解析：

陷阱一：死循环
- 现象：Agent在ReAct循环中反复调用工具而不结束
- 方案：最大步数限制（如10步终止）+ 重复动作检测 + 超时控制
- 量化：死循环率从5%降至0.5%
陷阱二：幻觉工具调用
- 现象：模型虚构了一个不存在的工具函数，或生成了错误参数格式
- 方案：参数校验层预处理 + 工具白名单 + 格式非法让LLM重生成
- 量化：非法工具调用率从8%降至1%
陷阱三：上下文污染
- 现象：Agent多次执行后，中间结果混杂在对话中干扰后续决策
- 方案：上下文分层管理（指令层/数据层/输出层），各层隔离
- 量化：决策准确率从75%提升至90%
陷阱四：Token爆炸
- 现象：多步Agent的对话历史+中间结果快速撑爆窗口
- 方案：滑动窗口 + 定期摘要 + Token用量监控告警
- 量化：长任务Token消耗降低40%
陷阱五：Prompt注入攻击
- 现象：用户输入中隐藏指令让Agent执行越权操作
- 方案：数据/指令分离 + 输入过滤 + 最小权限 + 高危操作Human-in-the-Loop

应用场景：

面试必答”你的Agent遇到过什么问题”——选2-3个讲(Problem→Solution→Quantified)
RealBot/TechKids生产环境质量门禁
Agent安全运营基线

学习投入产出比：⭐⭐（0.5天）

面试命中率：70%（面试官极其热爱”踩坑类”追问）
这五个陷阱覆盖80%的Agent生产问题，是区分”做过Agent”和”只是听过Agent”的关键
能结合具体项目讲踩坑经历+量化效果=面试最强加分

36. AI PM 三层指标连接能力（Business-Product-Model）

来源：ProductLeadership 4天前 — “Strong AI PMs combine model metrics, product metrics, and business metrics”

解析：

三层指标结构：
1. Model层：准确率/精确率/召回率/ROUGE/BLEU —— AI好不好
2. Product层：留存/转化/使用频率/功能渗透率 —— 用户用不用
3. Business层：收入/LTV/CAC/ARPDAU/成本 —— 赚不赚钱
PM的核心能力：不是背每一个指标，而是能讲清楚三层之间的因果链。例如：Reranker上线→Top-3命中率从60%升到85%（Model改善）→问答采纳率+20%（Product提升）→用户留存D7+8%（Business影响）。
面试答题框架：一个问题按三层结构展开，先Model再Product再Business——体现你不仅懂技术还懂商业。

应用场景：

面试”你怎么评估AI功能的好坏”
论证新增AI功能的ROI
向老板汇报AI项目效果

学习投入产出比：⭐⭐（0.5天）

面试命中率：50%（但大厂命中率80%+，这是PM面试核心能力）
三层指标框架 = 面试官眼中的”完整产品思维”
一句话记住：不要只讲准确率，要讲准确率怎么影响了用户留存和收入

37. RAG面试追问深度：文档感知切分 / Lost in the Middle

来源：Mianlingai — 2026面试官追问路径汇总，深入考察实际项目经验

解析：

2026追问新深度：不满足于P0的”什么是RAG”，面试官会一路追问细节：
1. 文档切分策略：固定长度 vs 语义切分 vs 文档结构感知。Markdown文档如何根据标题层级切块？表格如何切分不破裂？标题作为Metadata进入向量检索
2. Lost in the Middle问题：LLM对长上下文中间部分的信息”注意力衰减”。检索回的Top-K放中间→LLM可能会忽略关键内容。解法：滑动窗口+Rerank精排+关键信息前插
3. 混合检索决策：什么时候BM25比向量检索更好？——搜索精确术语（产品名/代码/编号）用BM25，非精确语义搜索用向量。Hybrid Search并非万能，需按场景配置权重
4. 效果评估追问：召回率/准确率多少？在什么数据集上测的？如何设计评估指标？数据说不清楚=项目没信服力
面试官真正在测的：不是你对RAG的背诵，而是你亲手调过多少参数、踩过多少坑。能具体说”表格切分我用了Markdown头作为chunk metadata + slide window overlap 10%“就是做过和没做过的分水岭。

应用场景：

DailySpeak多模态文档问答中PDF/网页的结构感知切分
TechKids知识库的文档更新和切分优化
面试”你的RAG系统怎么设计的”追问链

学习投入产出比：⭐⭐（0.5天）

面试命中率：40%（但深度追问出现时是区分度题）
这是P0 RAG（第5项）的追问展开——先确保P0的RAG能吃透，再深入这个
一句话记住：面试官想听你是怎么优化的，不是你怎么搭建的

38. BLEU/ROUGE局限 + LLM-as-Judge评估方法【5/19新增 — Day 5】

来源：CSDN 2026面试复盘 — 面试官追问”你怎么评估模型/系统效果”时的高频深挖方向

解析：

传统自动指标的时代局限：
- BLEU：基于n-gram精确匹配，适合机器翻译。局限：只看字面重叠，语义正确但表述不同→低分；对创造性内容不适用
- ROUGE：基于召回率的n-gram匹配，适合摘要。局限：同BLEU一样依赖参考文本，对生成式AI效果评估严重不足
- 共同问题：无法评估语义正确性、无法检测幻觉、无法评估用户体验
LLM-as-Judge（2026主流方案）：
- 原理：用强模型（GPT-4o/Claude 3.5）作为自动评分器，评估faithfulness（忠实原文）/ relevance（相关）/ helpfulness（有用）/ coherence（连贯）
- Prompt设计：提供详细评分标准（如1-5分各档位的定义）、多维度打分、要求输出理由
- 优势：覆盖语义层面，可定制化打分维度，无需参考标注
- 局限：Judge模型本身可能有偏见（偏好长文本/特定风格），不能完全替代人工；“LLM评估LLM”存在自洽性问题
- 最佳实践：“自动化用LLM-as-Judge+Golden Set做回归，线上用用户反馈交叉验证”
效果评估的”区分度”提问：
- 面试官会问：“你怎么证明新Prompt比旧Prompt好？” → 不能只说”感觉好”，需要评估集+指标+数据
- 答法：“建立50+条Golden Set，离线用LLM-as-Judge跑faithfulness + relevance双维度，对比旧版每项各提升X%”

应用场景：

证明RAG管道改动的效果提升
面试回答”你怎么评估AI功能质量”
DailySpeak/TechKids功能上线前的质量门禁

学习投入产出比：⭐⭐（0.5天）

面试命中率：30%（2026新方向，但大厂命中率正在上升）
一句话记住：BLEU/ROUGE看字面匹配，LLM-as-Judge看语义质量，Golden Set做回归门禁，三者组合才是完整评测

39. DPO vs RLHF 详细对比 + PPO稳定性原理【5/19新增 — Day 5】

来源：CSDN 2026面试复盘 — 面试官对训练对齐知识的要求在2026年明显提升

解析：

DPO（Direct Preference Optimization）：
- 不需要独立的Reward Model，直接基于偏好对优化策略
- 简化训练流程（省去Reward Model的训练和推理），减少不稳定因素
- 适合小参数量模型（<13B）、训练数据量不大（<10K偏好对）、算力有限的场景
RLHF（Reinforcement Learning from Human Feedback）：
- 多一步训练Reward Model（从人类偏好数据训练RM）
- 训练更复杂但理论上效果上限更高（Reward信号可能更准确）
- 适合大参数量模型、有充足标注资源和算力的团队
核心区别：RLHF = SFT → RM训练 → PPO优化；DPO = SFT → 直接偏好优化（跳过RM）
- 一句话评价：DPO降低了RLHF的工程复杂度，但RLHF仍然是大模型的”黄金标准”
PPO稳定性原理（深度追问）：
- Clipping（截断策略）：限制新旧策略比率在[0.8, 1.2]范围内→防止一次更新幅度过大破坏模型能力
- 优势函数（Advantage Function）：判断”某个动作相对于平均水平是好是坏”，引导模型朝更好方向更新
- 价值损失（Value Loss）：辅助损失，帮助优势函数更准确估计状态价值

应用场景：

面试追问”RLHF训练不稳定怎么办”
模型对齐方案选型判断
理解GPT-4o/Claude的训练逻辑（RLHF路线 vs DPO路线）

学习投入产出比：⭐⭐（0.5天）

面试命中率：20%（偏深，但问到了就是”理解深度”的区分度题）
建议：先掌握P1的SFT vs RLHF（第25项），有余力再看DPO。两者联动记忆效率最高

40. GraphRAG 概念与场景【5/19新增 — Day 5】

来源：JavaGuide 2026面试指南 — RAG进阶方向，2026年面试新出现的热点概念

解析：

什么是GraphRAG：在传统RAG（向量检索+重排）基础上引入知识图谱结构。文档不再是独立chunk，而是以实体+关系构建图结构。
解决的核心问题：传统RAG对”跨文档关联推理”弱——如”A文档说X公司推出了产品，B文档说Y公司收购了X公司”→传统RAG可能分别召回但无法关联，GraphRAG通过知识图谱的实体-关系链接实现跨文档推理。
主要优势：
- 多跳推理（Multi-hop Reasoning）：问”X公司被收购后，它的产品线归谁”→图结构能自动关联
- 结构化回答：不仅仅是召回相关段落，还能输出实体关系图
- 可解释性更好：回答路径可追溯（实体A→关系R→实体B）
挑战：构建知识图谱成本高（需要实体抽取+关系抽取+图谱融合）、推理复杂、不是所有场景都需要图结构

应用场景：

面试展示你对RAG演进方向的了解
产品需要跨文档推理时（如企业知识库中的收购合并分析）
面试回答”RAG的下一步是什么”

学习投入产出比：⭐⭐（0.5天）

面试命中率：15%（2026新概念，正在上升但还不是标配考点）
建议：先吃透P0 RAG再做了解
一句话记住：传统RAG找相关段落，GraphRAG找实体关系链——多跳推理场景图结构不可替代

41. 采样参数工程调优（Temperature / Top-P / Top-K 生产实践）【Day 6新增 — P1】

来源：JavaGuide 2026 AI面试指南(2天前) — 面试官追问从”是什么”升级到”生产怎么调”

解析：

Temperature（0-2）：控制输出随机性。低温→确定性高（知识问答设0.1-0.3），高温→创造力强（创意写作设0.7-0.9）。
Top-P（Nucleus Sampling）：累积概率阈值，动态选择候选词。设0.9→只考虑累积概率前90%的词。
Top-K：固定取概率最高的K个词。设K=40→只考虑Top-40个词。
三者协同：面试官会追问”同时设置Temperature和Top-P时谁优先级高？“→实际是两层过滤：先Top-K/Top-P筛候选词集→再Temperature调整概率分布。Top-P和Top-K共用时需注意冲突（如K太小但P没覆盖到）。
最佳实践搭配：
- 知识问答/事实提取 → Temp=0.1-0.3, Top-P=0.1, Top-K=0（关闭）
- 创意写作/头脑风暴 → Temp=0.7-0.9, Top-P=0.9, Top-K=40
- 代码生成 → Temp=0.2, Top-P=0.1, Top-K=10
生产调优原则：先定Temperature（粗调），再微调Top-P（细调）。通过A/B测试找最佳组合，不要凭感觉。

应用场景：

RealBot专家模式（低Temp保证专业输出→灵感模式切换）
TechKids辅导（知识讲解用低Temp，创意编程用高Temp）
面试追问”你的Temperature怎么设的”→不能只说”调了一下”

学习投入产出比：⭐⭐（0.5天）

面试命中率：40%（虽不是新概念，但2026面试追问深度明显加深）
核心不是记住数字，而是能讲清楚”为什么这样设+不同场景怎么权衡”

42. Harness Engineering（Agent测试评估框架）【Day 6新增 — P1】

来源：代码随想录2026大模型面经(1天前) / JavaGuide(2天前) — 2026面试新概念，区分”用过Agent”和”能上生产Agent”

解析：

什么是Harness Engineering：构建Agent的自动化测试评估基础设施。不仅仅是”验证功能正确”，而是建立可重复、可对比、可回归的评估流水线。
对比已有评估体系：
- P1 #22（Agent评估体系）关注”用什么指标评估”
- Harness Engineering关注”用什么工具+怎么搭建评估流程”
工具链：LangSmith（Tracing+评估）、Weights & Biases（实验追踪）、自定义Harness（企业级定制）
Harness核心能力：
1. Golden Set回放：每次代码/Prompt改动后自动跑基准测试集
2. LLM-as-Judge集成：自动打分+多维度评估（faithfulness/relevance/helpfulness）
3. Trace分析：记录Agent每步（调用链+Token消耗+延迟），支持离线回放
4. 回归门禁：新版本效果不低于旧版→自动阻断上线
5. 线上数据回流：生产环境的正/负样本自动补充到测试集
面试答题思路：不要只说”我们有评估”，要说”我们用LangSmith做Trace记录+Golden Set做回归+LLM-as-Judge做自动打分，三管齐下保证每次改动质量”

应用场景：

RealBot每次Prompt优化后的效果量化验证
TechKidsAgent流程改动的回归测试
面试”你怎么保证Agent改好了”→展示Harness体系建设能力

学习投入产出比：⭐⭐（0.5天）

面试命中率：20%（2026新概念，大厂命中率上升中）
这是”评估体系”的工程实践维度——知道概念即可拉高面试印象分
一句话记住：Harness Engineering = 让Agent评估可重复、可自动化、可回归

43. AI PM 五维能力模型与能力跃迁路径【R37/R39 新增 — P1】

来源：大模型面试复习第37轮 / 第39轮 — 2026年AI PM岗位核心能力框架

解析：

AI PM 五大新增能力（区别于传统PM）：
- 技术理解：能判断RAG vs 微调 vs 长上下文适用场景
- 不确定性管理：定义AI输出”够好”的阈值（四层评估体系）
- 成本意识：Token成本 + GPU成本 + 延迟成本三维管控
- 安全对齐：Prompt注入/越狱/幻觉/偏见防御体系
- 迭代节奏：Prompt日更 vs 模型月更的双速管理
能力跃迁三步路径：
- Step 1（0-3月）：补技术认知——玩转Coze/Dify，理解Prompt/知识库/Agent基本概念，做一个可运行Demo
- Step 2（3-6月）：做真实项目——负责一个端到端AI功能，搭建该功能的Eval体系，量化该功能的业务价值
- Step 3（6-12月）：建立方法论——总结一套可复用的AI产品决策框架，在团队内部分享，成为”懂业务+懂AI”的桥梁人物
面试金句：“传统PM管理确定性功能，AI PM管理概率性能力。前者关心’做没做对’，后者关心’好到什么程度才够’。”

应用场景：

面试”传统PM和AI PM最大差异是什么”
自我介绍时展示AI PM能力模型
回答”你的AI产品方法论是什么”

学习投入产出比：⭐⭐（0.5天）

面试命中率：70%（2026年AI PM岗位必问题）
能讲清五维能力模型 = 面试官确认你有AI PM self-awareness
一句话记住：AI PM = 技术理解 × 不确定性管理 × 成本意识 × 安全对齐 × 双速迭代

44. AI 产品用户研究深度方法论【R39 新增 — P1】

来源：大模型面试复习第39轮 — 2026年”会调API就能做AI产品”的红利消失，用户研究能力成为分水岭

解析：

需求验证”三问法”（立项前必做）：
- Q1：这个问题不用AI能解决吗？
- Q2：用AI解决比传统方案好多少？（提升<30%慎重，>50%值得投入）
- Q3：这个优势能持续多久？
用户访谈新范式：AI超级研究员：
- 传统：50场访谈 → 人工整理 → 2周出结论
- 2026新范式：AI并行处理1000+访谈 → 自动聚类 → 24小时出洞察
- 工具链：Otter.ai转录 → AI摘要 → 主题聚类 → 情感分析
- 陷阱：AI摘要会丢失”用户犹豫的停顿”这类非语言信号，关键决策必须回听原音频
MVP验证三阶段（最小可行AI原则）：

阶段周期核心指标决策门
MVP1 1-2周使用率 > 20% 需求是否存在
MVP2 2-4周满意度 > 4.0 体验是否可行
MVP3 4-8周留存提升 > 10% 商业价值是否验证
效果评估五维指标体系（AI产品特有）：
- L1 准确性：人工抽检通过率 > 85%
- L2 响应速度：P95延迟 < 2秒
- L3 用户满意度：NPS/五星评分 > 4.2
- L4 业务价值：功能使用率 > 30%，留存提升 +10%
- L5 成本效率：单次调用成本持续下降

阶段	周期	核心指标	决策门
MVP1	1-2周	使用率 > 20%	需求是否存在
MVP2	2-4周	满意度 > 4.0	体验是否可行
MVP3	4-8周	留存提升 > 10%	商业价值是否验证

应用场景：

面试回答”你怎么验证AI功能的需求”
和算法团队沟通时展示对用户的真实理解
避免”自嗨式AI功能开发”

学习投入产出比：⭐⭐（0.5天）

面试命中率：40%（2026年上升趋势）
能讲清”AI用户研究 ≠ 传统用户研究” = 展示深度认知
一句话记住：AI用户不知道自己想要什么，因为AI能力本身是未知的——给Demo看反应，而不是问他们想要什么

45. Multi-Agent 2026 最新范式：OpenAI Handoff vs LangGraph vs CrewAI + A2A协议【R39 新增 — P1】

来源：大模型面试复习第39轮 — 2026年单体Agent复杂任务完成率仅35%，Multi-Agent系统可达85%+。相同LLM搭配不同协作架构，任务完成率最高相差14个百分点。

解析：

三大主流架构全景对比：

维度	OpenAI Handoff	LangGraph 状态图	CrewAI 角色协作
设计思想	任务移交机制，线性流转	状态图建模，图论编排	角色分工，模拟人类团队
任务完成率	88%	92%（最高）	78%
响应速度	12.3s（最快）	15.7s	18.2s
代码复杂度	低（3个核心概念）	中	低
调试难度	中	低（状态可视化）	中
灵活性	低（线性，无动态分支）	高（任意复杂流程）	中（固定角色分工）
适用场景	快速原型、简单流程、权限控制严格	企业级生产、复杂分支、需审计	角色清晰、可并行子任务

架构选型决策矩阵：

场景判断三检查点：
✅ 任务是否可分解为多个子任务？ → 否 → 不用Multi-Agent
✅ 子任务之间是否需要不同专业能力？ → 否 → 单Agent+工具调用
✅ 子任务之间是否存在协作增值？ → 否 → 并行单Agent

→ 三个都✅ → 值得上Multi-Agent

2026年新增范式：A2A协议（Agent-to-Agent）：
- Google于2025年推出，2026年成为跨框架Agent通信标准
- 核心：Agent之间用标准化JSON Schema交换任务状态，不再依赖特定框架
- 实战意义：LangGraph编排的Agent可以和CrewAI编排的Agent协作
成本控制的五件套（Multi-Agent特有）：
1. 早期终止：低置信度结果立即返回，不继续传递
2. 模型分层：简单子任务用小模型（GPT-4o-mini / Claude Haiku）
3. 结果缓存：相同子任务结果直接复用
4. 并行执行：无依赖子任务全部并行
5. 超时熔断：单个Agent超时自动降级到规则方案

应用场景：

面试追问”为什么选LangGraph而不是CrewAI/OpenAI Handoff”
TechKids自动辅导的多Agent协作架构升级
回答”Multi-Agent的Token成本怎么控制”

学习投入产出比：⭐⭐（0.5天）

面试命中率：50%（2026年Multi-Agent生产落地必经之问）
能讲清三大架构对比 + A2A协议 = 展示2026年最新视野
一句话记住：LangGraph任务完成率最高（92%），OpenAI Handoff速度最快（12.3s），选哪个看你的优先级

46. SSM / Mamba 架构 vs Transformer 深度对比【R40 新增 — P1】

来源：大模型面试复习第40轮 — SSM（状态空间模型）成为Transformer最有力的替代方案，2026年面试新热点

解析：

Transformer的隐忧：自注意力 = O(n²) 复杂度，长序列计算量爆炸。2026年，上下文窗口从128K卷到1M，Transformer成本压力越来越大。
SSM（State Space Model）本质：将序列建模视为连续时间动态系统。输入 x(t) → 隐藏状态 h(t) → 输出 y(t)。核心方程：h’(t) = A·h(t) + B·x(t), y(t) = C·h(t)
Mamba的创新（2023年提出，2026年已成为Transformer最有力的替代方案）：
1. 选择性SSM：A、B、C矩阵不再固定，而是根据输入动态生成。类比：Transformer的Attention是”选择关注哪些token”，Mamba的选择机制是”选择忽略哪些信息”
2. 硬件感知算法：用Scan替代卷积，GPU内存访问模式更友好
3. 简化架构：无注意力层、无MLP块，纯SSM堆叠

Mamba vs Transformer 核心对比：

维度	Transformer	Mamba
计算复杂度	O(n²)	O(n) 线性
长序列效率	随长度平方增长	随长度线性增长
推理速度(128K)	需KV Cache，内存O(n)	状态固定大小O(1)，无KV Cache
并行训练	天然并行（Self-Attention）	需Scan并行化（效率略低）
上下文记忆	显式（Attention直接访问所有token）	隐式（压缩到固定大小状态）
当前霸主场景	通用对话/代码/推理	长序列/基因组/音频（百万token级）

Mamba-2（2024年）核心升级：发现SSM与线性注意力（Linear Attention）的数学等价性，引入结构化掩码注意力（SMA)，训练速度比Mamba-1提升2-8倍，接近Transformer水平。

面试金句：

Transformer的优势是显式记忆——Attention直接访问所有历史token，
Mamba的优势是线性复杂度——O(n)而不是O(n²)。
在128K以内的上下文场景，Transformer仍是王者；
在百万token级（基因组/长视频/代码库），Mamba类架构将逐步替代Transformer。

应用场景：

面试”Transformer会被Mamba/SSM取代吗”
长序列场景（基因组/长视频理解）的模型选型
展示对2026年最新模型架构的认知

学习投入产出比：⭐⭐（0.5天）

面试命中率：25%（新概念，但问到了就是深度区分题）
建议：先吃透P0 Transformer相关，有余力再看Mamba。两者联动记忆效率最高
一句话记住：Transformer在128K以内仍是王者；在百万token级，Mamba类架构是唯一解

47. 端侧 AI 部署全流程：模型选型 + 量化 + 推理引擎【R40 新增 — P1】

来源：大模型面试复习第40轮 — 端侧AI成为2026年产品核心竞争力，Apple/Google均在推本地LLM

解析：

背景：2025-2026年端侧芯片算力跃升（骁龙8 Elite NPU 40 TOPS、A18 Pro Neural Engine 38 TOPS），让端侧运行小模型从”可以”变成”好用”。
端侧AI三步走策略：

Step 1：选模型
- 通用能力：Gemma-3 1B / Llama-3.2 1B-Q4 (~700MB，延迟<500ms)
- 专用能力：Phi-4-mini 3.8B-Q4 (~2GB，推理能力强)
- 中国方案：Qwen2.5-1.5B-Instruct-Q4 (~900MB)
Step 2：量化压缩
- INT4量化：模型体积缩小75%，精度损失<2%
- 典型路径：FP16 → AWQ/GPTQ → INT4 ≈ 1-2GB
- 关键：校准数据质量决定最终精度，需300-500条真实场景数据
Step 3：推理引擎
- iOS：MLX / Core ML / llama.cpp (Metal加速)
- Android：MediaPipe / MLC-LLM / llama.cpp (OpenCL加速)
- 跨平台：ONNX Runtime + 自定义NPU后端

端侧 vs 云端的决策矩阵：

上端侧部署的场景（四个"是"至少满足三个）：
 ✅ 对延迟极敏感（< 500ms，如实时朗读评分）
 ✅ 涉隐私数据（本地聊天记录/文档摘要）
 ✅ 有离线场景需求（通勤/飞行模式）
 ✅ 推理任务固定可预测（摘要/分类/纠错，而非开放对话）
 → 满足条件 → 端侧部署

上云端部署的场景：
 ✅ 需要强推理能力（复杂多步推理/代码生成）
 ✅ 需要实时知识更新（联网搜索）
 ✅ 预算允许且延迟容忍（> 2秒）
 ✅ 用户无隐私顾虑
 → 满足条件 → 云端部署

DailySpeak端侧AI案例速查：

DailySpeak的AI摘要功能选择端侧的三层理由：
1. 场景：通勤/离线场景占比45%，没有网络AI功能就废了
2. 隐私：用户阅读的文档内容属于高敏数据，不能上传云端
3. 成本：日活跃10万用户×每人3次摘要×云端API=月成本$2万+，端侧=月成本$0

技术选型：Qwen2.5-1.5B INT4量化，模型大小1.8GB，iPhone 15+上延迟320ms

应用场景：

DailySpeak端侧离线AI摘要功能设计
面试回答”端侧AI和云端AI怎么选”
展示对AI产品部署的全链路认知

学习投入产出比：⭐⭐（0.5天）

面试命中率：30%（2026年端侧AI成为新方向）
知道三步走 + 决策矩阵即可，PM不需要深入量化算法细节
一句话记住：端侧AI = 模型选型（小） + 量化压缩（狠） + 推理引擎（对）

48. 大模型幻觉检测方法2026前沿【R40 新增 — P1】

来源：大模型面试复习第40轮 — 幻觉检测从”RAG兜底”升级为”多层主动检测”，2026年成为企业级AI必考题

解析：

幻觉分类：
- 事实性幻觉（Factual）：编造不存在的数据/事件/人物
- 忠实性幻觉（Faithfulness）：输出偏离用户指令或上下文
- 逻辑性幻觉（Logical）：推理链中存在逻辑跳跃或错误
2026年五大检测方法：

① SelfCheckGPT（自检法）
- 原理：同一模型生成多个回答，计算一致性。如果模型多次回答不一致 → 高概率是幻觉
- 适合：开放域对话的实时检测
- 成本：需要多次生成，Token消耗×3-5
② NLI-based（自然语言推理法）
- 原理：用专门的NLI模型判断”前提(上下文)是否蕴含假设(生成内容)”
- 如果NLI模型判定”不蕴含”或”矛盾” → 幻觉
- 适合：RAG场景的生成内容校验
③ LLM-as-Judge（更大模型裁判法）
- 原理：用GPT-4o/Claude Sonnet做二次校验
- 优点：准确率最高(92%)；缺点：慢、贵
- 适合：安全关键场景（医疗/法律/金融）
④ 检索验证法（RAG中的事实核查）
- 原理：生成内容的每个factual claim反查检索库
- 查不到 → 标记为不可验证 → 降级处理或拒答
- 适合：企业知识库QA
⑤ 内部状态探针法（2026前沿）
- 原理：训练线性分类器探测模型隐层状态的”置信度”
- 不需要生成多个回答，直接看隐层 → 判断是否在编造
- 适合：低延迟场景的实时监控
面试金句：“幻觉治理不是某一个技术的单点突破，而是一个系统工程。输入端用知识库约束检索范围，生成端用LLM-as-Judge做二次校验，输出端用规则引擎做兜底。三层防护下来，关键场景的幻觉率可以从15%降到2%以下。”

应用场景：

DailySpeak/TechKids/RealBot的幻觉防控体系设计
面试回答”你怎么保证AI输出不出错”
企业级AI功能的安全基线建设

学习投入产出比：⭐⭐（0.5天）

面试命中率：60%（企业级AI岗位必问）
能讲清五大方法 + 适用场景 = 展示工程化落地能力
一句话记住：SelfCheckGPT自检 + NLI推理校验 + LLM裁判 + 检索验证 + 内部探针 = 五层幻觉防御

49. 考前一页纸速查清单与2026十大高频考点【R38 新增 — P1】

来源：大模型面试复习第38轮 — 2026年5月最新面试趋势，Anthropic/OpenAI/Google真实面试题 + 字节四面面经 + 530+高频题库综合

解析：

一页纸速查清单（打印/截图随时翻）：
- 技术概念速记表：MoE/RAG/RLHF/DPO/KV Cache/Flash Attention/量化/Speculative Decoding/Prompt Caching/GraphRAG/Agentic RAG/MCP协议/SAE/DSPy——14个核心概念一句话解释
- 三条产品线核心叙事：RealBot(10万DAU/多模型路由) + TechKids(NPS65/小智Bot) + DailySpeak(50万月活/80%端侧)——一个故事讲完三条线
- 决策框架速查：RAG vs 微调 vs 长上下文 / MoE vs Dense / 大模型 vs 小模型 / 端侧 vs 云端 / Prompt vs 微调 / 单Agent vs Multi-Agent——6大决策框架
- 数字记忆卡片（面试中脱口而出的量化数据）：DeepSeek-V3(671B参数/256专家) / GPT-4o(128K/$5/1M) / Claude 3.5(200K/Prompt Caching省90%)——脱口而出的关键数字
2026十大高频考点自测：
1. Agent架构设计（ReAct vs Function Calling / MCP协议 / Agent漂移检测 / 多Agent工具治理）
2. RAG全链路（最难环节排序 / 混合检索RRF融合 / GraphRAG vs 传统RAG / RAG召回率低排查）
3. 模型选型与成本优化（选型决策树 / 模型网关四层设计）
4. AI安全与对齐（Prompt注入三层防御 / 过度信任三个信号 / EU AI Act 2026.08.02）
5. Context Engineering（Prompt Eng → Context Eng认知升级 / 实战四层上下文管理）
6. AI编程与Vibe Coding（Claude Code不用RAG的原因 / Vibe Coding对PM的影响）
7. 微调技术选型（SFT/RLHF/DPO关系链 / 微调必要性三问）
8. Agent记忆系统（CoALA四层记忆模型 / Mem0/Zep/Letta选型三问）
9. AI产品评估体系（L1-L4渐进 / LLM-as-Judge五大陷阱）
10. 推理引擎与部署（vLLM/SGLang/TensorRT-LLM/llama.cpp四选一 / 高可用五件套）

应用场景：

考前2小时快速过一遍，进入面试状态
面试等待区/洗手间快速复习
回答”你是怎么准备AI PM面试的”

学习投入产出比：⭐⭐（0.5天）

面试命中率：90%（这就是2026年真实考点集合）
能背下这页纸 = 面试覆盖率90%+
一句话记住：一页纸 = 14个概念 + 6个决策框架 + 10大高频考点 = 考前最强武器

50. 量化与蒸馏（INT8/INT4）

解析：

量化：将模型权重从FP16/FP32压缩到INT8/INT4。速度提升2-4x，显存降50%+。代价：轻微精度损失（约1-3%）。
【Day 6增强】精度损失的三个来源（面试官高频追问）：
1. 截断误差：高精度→低比特映射时信息丢失。解决方案→GPTQ（二阶梯度补偿）、AWQ（激活敏感度加权）
2. 粒度粗糙：量化步长过大，相近值映射到同一量化值。解决方案→混合精度（关键层FP16，其余INT4）
3. 离群值问题：少数极大权重拉大量化范围，压缩其他正常值的精度。解决方案→SmoothQuant（将离群值从W平滑迁移到X激活上，因为X逐层可调）
蒸馏：用大模型（Teacher）教小模型（Student）。小模型接近大模型效果但推理成本低。
产品价值：移动端部署的必备技术。INT4量化后7B模型可在手机上运行。

应用场景：

理解RealBot/DailySpeak的移动端部署可行性
面试：回答”你怎么降低AI功能的推理成本”
与算法团队沟通时能对上话

学习投入产出比：⭐⭐⭐（0.5天）

面试命中率：10%
知道概念+能讲对产品的影响即可

51. Plan-and-Execute vs ReAct vs Reflexion 三大Agent推理范式【2026.06新增 — P1】

来源：2026年6月AI Agent全栈面试宝典(1天前) / AgentInTech(6天前) — 2026年面试新增Plan-and-Execute范式考点

解析：

ReAct（推理+行动循环）：Thought→Action→Observation循环。步进式推理，每步基于上一步观察调整。适合即时响应场景（搜索/查库/简单工具调用）。局限：无全局规划，长任务中容易目标漂移。
Plan-and-Execute（先规划后执行）：三层角色分工——Planner（全局任务分解）→ Executor（逐子任务执行，通常用ReAct）→ Replanner（动态重规划，发现偏差调整策略）。适合复杂多步骤目标（步骤>10），长任务成功率更高。核心创新：动态重规划（Dynamic Replanning）允许Agent在中间结果不理想时”转向”，而非盲目执行过时计划。
Reflexion（执行+反思循环）：在ReAct基础上增加自我评估环节。每次执行后LLM自我审查”做得对吗？哪里可以改进？“，将反思结果存入长期记忆指导后续行动。适合需要持续改进的任务（代码调试/策略优化）。三大范式由简到繁：ReAct（基础循环）→ Plan-Execute（全局规划）→ Reflexion（自我改进）。
选型实战：
- 简单单步任务 → ReAct（低延迟，直接循环）
- 复杂多步骤任务（>10步） → Plan-and-Execute（规划与执行解耦，长期任务成功率更高）
- 需要自我改进的任务 → Reflexion（反思存储→后续行动受益）
- 2026最佳实践：Plan-and-Execute的Executor层常用ReAct实现，“Plan→ReAct→Reflect”三层协作形成完整Agent推理栈
面试追问”Plan-Execute与ReAct的核心差异”：
- ReAct：边想边做，每步基于上一步观察。无全局视野，可能局部最优
- Plan-Execute：先想清楚再动手，分工明确（规划者/执行者/重规划者），长期策略更稳定
- 金句：“ReAct是走一步看一步的战术思维，Plan-Execute是先画地图再行军的战略思维”

应用场景：

TechKids自动辅导：Plan-Execute分解”查漏补缺→推荐练习→评估结果”三步，Replanner根据学生答题情况动态调整
面试”你的Agent用了什么推理范式，为什么”
展示对2026年最新Agent架构范式的认知

学习投入产出比：⭐⭐（0.5天）

面试命中率：50%（2026年6月新考点，上升趋势明显）
能讲清三大范式的差异+选型逻辑 = 展示Agent架构深度
一句话记住：ReAct边想边做，Plan-Execute先规划后执行，Reflexion做完了还要反思

52. Prompt Injection 2026 10层纵深防御体系【2026.06新增 — P1】

来源：LushBinary 2026生产级安全指南(5月) / OpenAI 2026.04官方防御指南 / CSDN 6月面试宝典 — Prompt注入攻击2026年激增340%，Gemini CLI曝出CVSS-10级漏洞

解析：

2026年Prompt注入现状：73%的生产Agent部署存在注入漏洞。间接注入（通过网页/文档/代码注释/API响应注入）已成为主要威胁——数据通过合法渠道进入，更难检测。Gemini CLI因npm依赖链代码注释注入被评定为CVSS-10最高危级别。
OpenAI 2026年4月官方立场转变：首次明确承认提示注入无法仅在模型层面完全解决，应用层防御从”可选”变为”必需”。
10层纵深防御体系（Defense-in-Depth，各层独立运作）：
1. 输入验证：剥离已知注入模式（“ignore previous instructions”等），强制长度限制。对所有来源（用户/工具输出/文件/外部数据）统一验证。
2. 输出过滤：工具白名单+参数Schema验证+路径安全（防目录穿越）。Agent输出在执行前需过三道检查。
3. 权限分离：每个Agent仅获最低所需权限。研究Agent不授予文件写权限，编码Agent不授予生产数据库访问权限。
4. 沙箱隔离：Docker容器运行Agent，无网络+只读文件系统+内存/CPU限制。即使注入成功，爆炸半径可控。
5. 内容边界标记：系统提示中用显式分隔符区分”可信指令”和”不可信数据”（---BEGIN UNTRUSTED DATA---）。
6. 指令层级：系统提示 > 应用逻辑 > 用户输入 > 外部数据。GPT-5.5/Claude Opus 4.7已支持API参数显式层级。
7. 金丝雀令牌（Canary Tokens）：嵌入唯一随机令牌到系统提示→每次响应检查是否泄露→泄露=注入成功。独立于注入手法的检测机制。
8. 速率限制：每会话+每分钟双重限制。正常5-10次工具调用→突然50次=注入告警。
9. 异常检测：建立Agent行为基线→ML分类器检测偏离→标记可疑行为。
10. 人机协同（终极后盾）：数据库写入/文件删除/外部请求/凭证访问→必须人类审批才能执行。
核心哲学：“没有单一层能提供完整保护。目标是让攻击者需要同时绕过多个独立防御，难度指数级增长。”

应用场景：

RealBot/DailySpeak/TechKids的Agent安全基线设计
面试”你的Agent怎么防Prompt注入”→展示纵深防御思维
企业级Agent安全合规审查

学习投入产出比：⭐⭐（0.5天）

面试命中率：50%（2026年安全类追问激增）
能讲清”至少5层防御+为什么模型层面不够” = 展示安全工程思维
一句话记住：Prompt注入防御不能只靠模型，需要从输入到人机协同的10层纵深防线

53. 2026年6月大模型军备竞赛与Agent影响【2026.06新增 — P1】

来源：IT168(5月26日) / AI Changelog(5月27日) — GPT-5.6后端日志泄露，6月多家模型密集发布

解析：

GPT-5.6（代号iris-alpha）：OpenAI Codex后端日志发现。上下文窗口150万tokens（较GPT-5.5提升43%），在输入90万token时仍流畅响应，接近商用级前端界面生成能力。预计2026年6月发布。
Claude Sonnet 4.8：Anthropic计划6月发布。
Gemini 3.5 Pro：Google计划6月发布。
Grok 5：xAI（马斯克）计划6月发布。
上下文窗口军备竞赛：从百万级向更高级别迈进。150万token意味着Agent可一次性加载数千页文档或完整代码仓库。
对Agent开发的三层影响：
1. 更长任务记忆：150万token窗口→Agent多步执行几乎不会丢失上下文，减少压缩/摘要需求
2. 更强代码/UI生成：GPT-5.6接近商用级前端生成→Agent驱动的应用构建能力质变
3. 多模型组合使用：不同模型特性可被组合（GPT-5.6做长上下文推理+Claude做代码+Gemini做多模态），Agent可灵活路由
面试价值：展示对行业最新动态的跟踪能力，“6月四家公司同时发布新模型，这意味着什么”——体现行业格局意识。应与#10（大厂差异化策略）联动。

应用场景：

面试”你怎么看2026年大模型竞争格局”
模型选型判断的新变量（150万token窗口改变了什么）
Agent上下文管理策略可能因窗口扩大而调整

学习投入产出比：⭐⭐（0.3天）

面试命中率：30%（但时效性极强，6月面试大概率被问）
知道关键数字（150万/43%/四家同时发布）+能讲对Agent的影响即可
一句话记住：2026年6月=AI模型史上最密集发布月，150万token窗口让Agent”记忆力”质变

54. SITS2026 Agent可观测性标准：语义层追踪【2026.06新增 — P1】

来源：SpoTech(5月19日) — SITS2026标准提案将Agent监控从”请求-响应”粒度提升至”意图-推理-行动”语义层级

解析：

传统APM的三大失明：Trace ID无法穿透LLM黑盒、日志只记录系统事件不记录语义、无法还原Agent的多跳推理因果链。传统监控是Agent的”事后补丁”。
SITS2026三项核心机制（设计阶段内置可观测性）：
1. 嵌入式Trace ID双轨注入：trace_id@intent（追踪完整意图处理路径）+ trace_id@decision（追踪每次内部决策上下文）。在LLM调用前生成，随工具调用参数透传，解决”Trace ID穿不透LLM”的核心痛点。
2. 意图日志Schema：从记录”函数调用”升级为记录”语义事件”——意图识别（user_query/parsed_intent/confidence）、工具选择（selected_tool/candidate_tools/selection_reason）。兼容OpenTelemetry LogRecord格式。
3. 决策溯源图谱（DAG）：将Agent的多跳推理结构化为有向无环图。节点=推理步骤（Intent→Reason→Action→Observation），边=因果关系。错误归因一目了然——是意图理解错了？工具选错了？还是执行错了？
与现有工具链的关系：SITS2026不是替代品，而是语义层标准。底层用OpenTelemetry传播Trace，上层用LangSmith做评估可视化和调试。
面试价值：区别于”埋点+看板”的传统监控回答，SITS2026展示的是”Agent原生可观测性”的前沿认知。和P1 #22（Agent评估体系）、P1 #32（运营监控体系）联动记忆。

应用场景：

RealBot/DailySpeak/TechKids的Agent监控体系升级
面试”你怎么监控Agent的运行状态”→展示语义层追踪概念
Agent故障定位（是意图理解错还是工具调用错）

学习投入产出比：⭐⭐（0.5天）

面试命中率：15%（新标准，但大厂命中率正在上升）
知道三项核心机制名称+一句话讲清与传统监控的区别即可
一句话记住：传统监控看”请求有没有成功”，SITS2026看”Agent每一步在想什么、为什么选这个工具”

55. Claude Code 6层渐进式上下文压缩架构【2026.06新增 — P1】

来源：panzhixiang.cn Claude Code源码分析(4月) / Kamacoder 6月面经 — 2026年Agent上下文管理的工业级最佳实践

解析：

核心设计哲学：“用最小的代价，尽可能晚地动用最重的手段。“不是在上下文满了才被动处理，而是从第一个工具结果产生时就精打细算。Prompt Cache稳定性是所有设计的隐藏约束。
6层架构（按成本/破坏性递增）：
1. 工具自截断：每个工具返回时自动截断（Bash:30K、FileRead:25K+256KB、Grep:250条目+20K）。零成本，最低破坏性。
2. 大结果落盘：结果>50K字符→存磁盘，模型只看到路径+2KB预览。需要时再用FileRead读取。
3. 防并行暴击：限制单条消息内所有工具结果总计<200K字符。超限按大小降序落盘。核心创新——ContentReplacementState冻结决策（每个结果只评估一次，保证Prompt Cache稳定性）。
4. 微压缩：清理已无用的旧工具结果。时间触发（离开60分钟后清旧结果）+缓存编辑（API层编辑不破坏本地消息）+保守选择（只清理可重新获取的结果）。
5. 结构化剪裁：Snip整组删除旧消息 + Context Collapse投影折叠视图（当前为stub，不生效）。
6. 全量摘要：调用AI压缩整个对话历史为9段结构化摘要（请求意图/技术概念/文件代码/错误修复/解决过程/所有用户消息/待办任务/当前工作/下一步建议）。触发阈值=effectiveContextWindow-13K。摘要后恢复最近5文件+技能定义+session hooks。
与常规上下文管理的本质区别：
- 不是”被动应对”，而是”主动渐进”——从L1就开始精打细算
- Prompt Cache稳定性作为核心设计约束（L3的冻结决策为此设计）
- 零成本优先原则（先试时间触发微压缩→Session Memory Compact→最后才全量API摘要）
- 善后恢复机制（压缩后重新注入文件/技能/hooks）

应用场景：

面试”你的Agent怎么做上下文管理”→不只说滑动窗口，能展开6层架构
理解Claude Code为什么能在200K窗口内保持长对话质量
为RealBot/TechKids的上下文管理提供工程参考

学习投入产出比：⭐⭐（0.5天）

面试命中率：20%（但大厂Agent工程岗命中率更高，展示工程深度）
能讲清”6层分别做什么+Prompt Cache是隐藏约束”即可
一句话记住：Claude Code不是在上下文满了才想办法，而是从第一个工具结果就在精打细算

56. CRDT多Agent记忆冲突解决 + 分布式Agent状态同步【2026.06新增 — P1】

来源：CSDN 2026年6月Agent全栈面试宝典(1天前) — 分布式Agent场景的记忆与状态同步成为2026年工程落地核心考点

解析：

CRDT（无冲突复制数据类型）解决共享记忆并发冲突：
- 问题：多Agent共享记忆时，两个Agent同时更新同一条信息→传统Last Write Wins可能导致数据不一致
- CRDT方案：数学上保证最终一致性，无需中央协调器。每个Agent本地更新→自动合并→无冲突
- 与现有方案对比：现有#24的”时效性优先/显式覆盖”解决的是单用户记忆冲突；CRDT解决的是多Agent并发写入同一记忆的冲突
- 适用场景：多个Agent并行处理同一用户请求，各自产生记忆写入→需要无冲突合并
分布式Agent WebSocket状态同步（Redis Pub/Sub）：
- 问题：用户可能在手机和PC两端同时与Agent交互→两端Agent状态需实时同步
- 方案：Redis Pub/Sub消息总线→Agent实例A状态变更→发布事件→Agent实例B订阅同步→断线恢复用Checkpoint续传
- 架构：WebSocket连接层→Redis消息总线→Agent实例池→共享记忆存储
- 关键点：幂等性保证（重复消息不导致状态错乱）、Checkpoint断点续传（网络断开后恢复上下文）
面试价值：将记忆管理讨论从”单Agent单用户”提升到”多Agent分布式”维度，体现大规模系统设计能力。与#24（记忆管理深度）、#7（Agent架构分层）联动。

应用场景：

RealBot多端（PC+手机）同时交互时的状态同步
面试追问”多个Agent共享记忆怎么处理冲突”
分布式Agent系统的架构设计题

学习投入产出比：⭐⭐（0.5天）

面试命中率：15%（偏工程深度，但大厂AgentInfra岗命中率更高）
能讲清CRDT解决什么问题+Redis Pub/Sub同步架构即可
一句话记住：CRDT让多Agent并发写记忆不出冲突，Redis Pub/Sub让多端Agent状态实时同步

🟢 P2 — 学习投入产出比中等（储备知识 + 实战时再深挖）

特点：少数岗位会问，日常用得少，有概念即可。

51. KV Cache 与 Flash Attention

解析：

KV Cache：推理时缓存已生成token的Key/Value矩阵，避免重复计算。直接决定推理速度和显存占用。
Flash Attention：优化注意力计算的内存访问模式（分块+重计算），显著加速推理并减少显存。
【Day 6增强】Flash Attention v1/v2/v3对比（面试官追问→区分理解深度的关键）：
- v1：Tiling + Online Softmax + Recomputation = 解决HBM IO瓶颈。局限：不支持Head Dim > 128
- v2：共享遍历Q/K/V（减少遍历次数）= 额外加速20-40%。主流框架(PyTorch 2.x/HuggingFace)默认支持
- v3/FlashDecoding：针对Decode阶段优化变体，解决FA原始实现Prefill友好但Decode阶段并行度不足的问题。适合长序列Decode场景
面试金句：Flash Attention的本质是IO优化而非算法改变——它把O(n²)的HBM访问降到O(n)，利用的是SRAM和HBM之间100x以上的带宽差距
产品价值：Flash Attention让长上下文推理成为可能，KV Cache优化降低推理成本。

应用场景：

理解为什么DeepSeek 64K/128K能跑动
面试加分项：提到Flash Attention让长上下文推理成本下降

学习投入产出比：⭐⭐⭐（0.5天）

面试命中率：5%
AI PM岗位一般不要求，但能提到说明你对推理优化有认知

52. 埋点与数据看板设计

解析：

事件命名规范、属性定义、触发时机
漏斗路径设计
看板工具（Looker Studio/Metabase/Tableau）
好埋点的标准：谁+在什么时机+做了什么+结果如何

应用场景：

RealBot从”下载→注册→首次对话→留存→订阅”全流程埋点
DailySpeak阅读行为的漏斗分析

学习投入产出比：⭐⭐⭐（0.5天，面试前看看相关文章即可）

面试命中率：15%
有余力再看，简历中已有IAA经验的基础知识足够

53. React + Tailwind Demo 制作

解析：

React（组件/状态/路由）
Tailwind CSS实用样式
Cursor+API快速搭建
PM不需要成工程代码，能跑通Demo展示功能逻辑即可

应用场景：

面试展示可交互Demo（TechKids AI Lab/文档问答助手）
需求验证时快速出原型

学习投入产出比：⭐⭐⭐（4周课程计划中的最后阶段）

面试命中率：10%
学完P0+P1还有时间再排这个

54. AI Coding 工具链理解

解析：

Cursor/Copilot用法
AI Coding原理（补全/Agent模式）
AI Coding边界：复杂重构/多文件联动仍需人工，Agent模式仍有30%+错误率

应用场景：

提升个人开发效率
和工程团队沟通时理解他们的工具链
TechKids/DailySpeak代码迭代

学习投入产出比：⭐⭐⭐（日常积累即可）

面试命中率：10%
但不学的话面试官聊天时可能会显得脱节
“日常使用Cursor+Claude”本身就是一个加分印象

55. 模型训练基础原理（了解级）

解析：

预训练：海量文本无监督学习→知识广度+语言能力
微调：任务数据有监督训练→特定任务适配度
LoRA：低秩适配→消费级显卡微调7B模型，成本从百万降到千元级
量化：INT8/FP16→以少量精度换数倍推理速度，适合移动端部署

应用场景：

理解模型选型（通用vs领域）
和算法团队沟通微调方案
评估量化对产品体验的影响

学习投入产出比：⭐⭐⭐（0.5天，知道概念即可）

面试命中率：10%
AI PM岗位不需要深入训练细节

56. 实时语音Agent设计【Day 6新增 — P2】

来源：JavaGuide 2026 AI应用开发指南 — 语音交互Agent成为2026新兴面试方向

解析：

场景：实时语音对话Agent（如智能客服语音版、语音助手），区别于文本Agent的增量复杂性。
核心组件：
1. VAD（Voice Activity Detection）：检测用户开始/停止说话，决定何时触发LLM响应
2. ASR（自动语音识别）：语音→文本，低延迟流式ASR是实时性关键
3. LLM推理：文本→生成回答，需考虑打断机制（用户中途插话）
4. TTS（文本转语音）：回答→语音输出，流式合成降低等待感
关键技术挑战：
- 打断机制：用户说话时正在生成的回答需中断→状态机管理（Idle→Listening→Thinking→Speaking→打断→Listening循环）
- 低延迟：端到端目标<500ms TED（Turn Endpoint Delay），需要VAD+流式ASR+流式TTS协同优化
- 噪声环境：VAD的误触发率控制，需语音活动检测+静音检测双重机制
协议选型：WebSocket（低延迟双向通信）+ WebRTC（音视频传输，对延迟要求更高的场景）

应用场景：

DailySpeak语音阅读的交互式朗读（用户可随时打断调整）
RealBot语音模式（2026年可能的产品拓展方向）
面试加分：能结合Voice Agent设计展现对”多模态交互”的理解

学习投入产出比：⭐⭐⭐（0.5天）

面试命中率：5%（新方向，部分AI Native公司已开始问）
知道概念+核心挑战即可，PM不需要深入VAD/ASR/LLM/TTS的底层实现

57. AI编程工具面试应对（Claude Code / Vibe Coding / AI时代工程师价值）【Day 6新增 — P2】

来源：代码随想录2026面经 — 面试官关注”你怎么用AI+你比AI强在哪”

解析：

2026面试新倾向：面试官不仅问”你用AI编程吗”，更追问”你如何将AI融入工作流”和”你的不可替代性在哪”。
关键概念：
- Claude Code / Cursor Agent模式：不只是代码补全，而是能自主实现功能的Agent模式。面试官想听你具体怎么用（如”让Claude Code写单元测试框架，我审查逻辑正确性”）
- Vibe Coding（警惕标签）：完全依赖AI写代码=AI能做的你都能做→面试官会质疑你能贡献什么。面试中要主动撇清，展示你对代码的审查和判断能力。
- AI时代工程师/PM核心价值：不是写代码/写Prompt，而是系统架构决策+业务理解+质量把关+权衡判断。
面试答题框架：
- 面试官问”你依赖AI那你的价值在哪”→
  1. 承认AI大幅提升效率（日常编码效率↑50%+）
  2. 但AI有系统性弱点（复杂多文件重构/架构选型/业务上下文理解/一致性约束）
  3. 人的价值在于：知道什么时候信任AI、什么时候审查、什么时候重写
  4. 举例：具体某次AI生成的代码帮你发现了什么，或你纠正了什么

应用场景：

RealBot/DailySpeak/TechKids的实际开发中Cursor/Claude Code的使用经验
面试追问”你怎么用AI的”→准备好2-3个具体case
展现”AI时代PM”的自我定位

学习投入产出比：⭐⭐⭐（日常积累，无需专门学习）

面试命中率：15%（但大厂面试中命中率正在快速上升）
这不是知识点，而是”面试话术”——准备好了就是加分印象
一句话记住：不要只展示”用AI”要展示”管AI”

58. Reflexion 自反思Agent范式【2026.06新增 — P2】

来源：掘金 2026 Agent三大范式对比(3月) / 2026年6月全栈面试宝典 — 在ReAct和Plan-Execute基础上增加自我反思循环

解析：

核心机制：ReAct执行后增加反思评估环节。LLM自我审查”做得对吗？哪里可以改进？“→反思结果存入长期记忆→指导后续行动。
三大范式层级：
- ReAct：基础推理循环（想→做→看），无自我改进能力
- Plan-and-Execute：增加全局规划（规划→执行→重规划），策略层面更优
- Reflexion：增加自我反思（执行→评估→记忆存储），持续自我改进
关键创新：反思不是一次性的——每次反思都存入长期记忆，后续任务能”记住上次哪里做错了”，表现持续提升。适合代码调试、策略优化等需要迭代改进的场景。
面试考点：面试官可能问”ReAct有什么局限，怎么改进”→引出Reflexion作为进阶方案。

应用场景：

TechKids自动辅导的自我优化（反思哪些题型学生容易错→调整辅导策略）
Agent代码调试（生成代码→执行→反思错误→重新生成→收敛）
展示对Agent范式演进的全局理解

学习投入产出比：⭐⭐⭐（0.3天）

面试命中率：10%（新概念，但能讲出来就是区分度）
知道Reflexion=ReAct+自我反思循环即可
一句话记住：ReAct会做，Plan-Execute会规划，Reflexion会从错误中学习

59. 轻量Agent框架设计原则（反LangChain）【2026.06新增 — P2】

来源：CSDN 2026年6月Agent全栈面试宝典(1天前) — LangChain过度抽象的工程反思催生了轻量框架运动

解析：

LangChain的核心问题（面试中展示批判性思维）：
- 过度抽象：层层封装导致”一行代码背后发生十件事”——调试困难
- 版本碎片化：LCEL/StringToJSON/旧版Agent三种API并存，迁移成本高
- 性能开销：不必要的序列化/反序列化，隐形token消耗
- 学习曲线：“用LangChain省下的时间，都花在学LangChain上了”
轻量Agent框架设计原则（2026年工程首选）：
1. 显式优于隐式：代码即流程，不用”魔法”抽象
2. 最小抽象：只用必要的抽象层（LLM调用+工具定义+循环控制），其余用原生代码
3. 自带可观测性：每个LLM调用/工具调用/状态变更都自动日志+Trace
4. 纯异步+流式：AsyncIO + SSE流式输出，避免阻塞

手撕轻量框架的核心逻辑（200行级别）：

# 核心循环
while not task_complete and step < max_steps:
    thought = llm.generate(system_prompt + messages)
    action = parse_action(thought)      # 显式解析
    observation = execute_tool(action)   # 直接调用
    messages.append(observation)
    step += 1

对比LangChain的AgentExecutor——你需要理解AgentAction/AgentFinish/AgentStep等十几个内部类。

面试价值：被问”你用LangChain还是自研框架”时，能批判性地分析LangChain的工程问题+讲轻量框架设计原则=展示真正的工程判断力。

应用场景：

面试回答”你对LangChain怎么看”
快速原型开发时选择轻量方案的决策依据
展示”不盲从框架”的工程思维

学习投入产出比：⭐⭐⭐（0.3天）

面试命中率：15%（批判性框架讨论越来越常见）
知道LangChain三个核心问题+轻量框架四个原则即可
一句话记住：好的Agent框架应该让你每行代码都知道在做什么——显式优于隐式

📋 复习优先级总表

梯度	知识点	掌握程度	预计时间	面试命中率
P0	LLM基础（Token/窗口/幻觉/Temp/SP/Few-shot/FC）	能讲+能举例	2天	95%
P0	Prompt Engineering（角色/结构化/约束/反例/评测）	能讲+能举例	2天	90%
P0	AI Agent五大能力+本质辨析+无工具边界追问	能讲+能辨析Agent vs Bot	2天	90%
P0	RAG完整管道（含Rerank/K值/重叠/增量索引/稠密vs稀疏）	能讲流程+能深入	2.5天	85%
P0	Agent常见失败场景与解法	能讲3类案例	0.5天	85%
P0	Agent架构分层设计（含规划执行分离追问）	能画5层图+答追问	1天	80%
P0	项目亮点+技术难点（6点+动作化讲述）	能逐点展开+讲决策	1天	100%
P0	幻觉防控工程方案（三层防线）	能讲防线等级	0.5天	80%
P0	大厂差异化Agent策略（腾讯vs字节vs阿里）	能讲格局+逻辑	0.5天	40%
P0	AI PM面试核心转向：权衡判断（Trade-off Judgment）	能掌握十大权衡框架	0.5天	90%
P0	AI系统设计面试答题框架（4阶段+旧vs新对比+评判标准）	能套框架练系统设计题	1天	80%
P0	项目亮点”动作化”讲述技巧	能讲决策过程+量化	0.5天	100%
P0	【Day 5新增】全链路思维框架（Data→Train→Inference→Service→Loop）	能展示端到端思维+排障	0.5天	60%
P1	上下文工程（2026新热点）	能讲与PE的差异	0.5天	⬆️上升
P1	MCP与A2A协议（含MCP管理深度）	能讲定义+产品影响	0.5天	⬆️上升
P1	Skills vs MCP辨析	能讲架构思辨	0.5天	⬆️上升
P1	工具层工程实现+MCP Server治理（分类/元数据/检索/动态加载/权限/统计）	能讲定义+流程+兜底+治理	0.5天	⬆️上升
P1	ReAct vs CoT vs ToT规划对比	能讲选型+实战效果	0.5天	⬆️上升
P1	Query改写（HyDE/Step-Back）	能讲概念+效果	0.5天	30%
P1	增量索引策略	能讲方案对比	0.5天	25%
P1	Multi-Agent协作模式	能讲3种模式	0.5天	⬆️上升
P1	Agent评估体系+生产级评测设计（Golden Set/LLM-as-Judge/Trace回放）	能讲三层+指标+评测体系	0.5天	⬆️上升
P1	多智能体框架（LangGraph/CrewAI/AutoGen/Dify）	能对比框架+选型理由	0.5天	⬆️上升
P1	记忆管理深度（4方案对比+冲突更新机制）	能讲优劣+冲突处理	0.5天	⬆️上升
P1	SFT vs RLHF + RAG vs Fine-tune选型（含LoRA rank深度）	能对比阐述+选型决策	0.5天	40%
P1	MoE 架构	能讲核心优势	0.5天	30%
P1	SSE/WebSocket/WebRTC协议选型	能讲选型原则	0.5天	25%
P1	LLM网关治理（限流/熔断/路由/成本/Token成本归因）	能讲治理四大块	0.5天	20%
P1	SQL + 产品指标	能讲+能现场查	3天	50%
P1	API/JSON/Postman	能讲+能演示	1天	30%
P1	IAA+订阅商业化	能讲策略+数据	1天	40%
P1	运营监控体系与成本优化	能讲三层优化逻辑	0.5天	20%
P1	Function Call 底层真相与非执行机制	能讲LLM决策vs应用执行	0.5天	60%
P1	Agent vs Workflow 混合架构设计	能讲混合选型+量化对比（4-8倍token）	0.5天	⬆️上升
P1	生产环境Agent五大陷阱	能讲3个踩坑案例	0.5天	70%
P1	AI PM三层指标连接（Model-Product-Business）	能讲因果链	0.5天	50%
P1	RAG面试追问深度（文档感知切分/Lost in the Middle/混合检索决策）	能讲优化方案+量化效果	0.5天	40%
P1	【Day 5新增】 BLEU/ROUGE局限 + LLM-as-Judge评估方法	能讲指标局限+现代方案	0.5天	30%
P1	【Day 5新增】 DPO vs RLHF详细对比 + PPO稳定性原理	能对比+理解PPO机制	0.5天	20%
P1	【Day 5新增】 GraphRAG概念与场景	了解概念+场景判断	0.5天	15%
P1	【Day 6新增】采样参数工程调优（Temp/Top-P/Top-K三协同）	能讲生产实践+面试追问	0.5天	40%
P1	【Day 6新增】 Harness Engineering（Agent测试评估框架基础设施）	能讲工具链+评估流水线	0.5天	20%
P1	AI PM 五维能力模型与能力跃迁路径	能讲五维差异+跃迁三步路径	0.5天	70%
P1	AI 产品用户研究深度方法论	能讲三问法+AI超级研究员	0.5天	40%
P1	Multi-Agent 2026最新范式（Handoff/LangGraph/CrewAI+A2A）	能讲架构对比+成本五件套	0.5天	50%
P1	SSM/Mamba架构 vs Transformer 深度对比	能讲O(n)vsO(n²)+混合架构	0.5天	25%
P1	端侧AI部署全流程（模型+量化+推理引擎）	能讲三步走+碎片化对策	0.5天	30%
P1	大模型幻觉检测方法2026前沿	能讲五种方法+适用场景	0.5天	60%
P1	考前一页纸速查清单与2026十大高频考点	能背下14个概念+10大考点	0.5天	90%

| P1 | 【6.6新增】 Plan-and-Execute vs ReAct vs Reflexion三大Agent推理范式 | 能讲清三大范式差异+选型 | 0.5天 | 50% |
| P1 | 【6.6新增】 Prompt Injection 2026 10层纵深防御体系 | 能讲清至少5层+为什么模型层不够 | 0.5天 | 50% |
| P1 | 【6.6新增】 2026年6月大模型军备竞赛（GPT-5.6等四家发布） | 能讲关键数字+对Agent影响 | 0.3天 | 30% |
| P1 | 【6.6新增】 SITS2026 Agent可观测性标准（语义层追踪） | 能讲三项核心机制+与传统监控区别 | 0.5天 | 15% |
| P1 | 【6.6新增】 Claude Code 6层渐进式上下文压缩架构 | 能讲6层架构+Prompt Cache约束 | 0.5天 | 20% |
| P1 | 【6.6新增】 CRDT多Agent记忆冲突+分布式状态同步 | 能讲CRDT原理+Redis Pub/Sub架构 | 0.5天 | 15% |

| P2 | 量化与蒸馏（INT8/INT4） | 了解概念 | 0.5天 | 10% |
| P2 | KV Cache & Flash Attention | 了解概念 | 0.5天 | 5% |
| P2 | 埋点与看板设计 | 会概念 | 0.5天 | 15% |
| P2 | React+Tailwind Demo | 了解即可 | — | 10% |
| P2 | AI Coding工具链 | 了解即可 | — | 10% |
| P2 | 模型训练原理 | 了解概念 | 0.5天 | 10% |
| P2 | 【Day 6新增】 实时语音Agent设计 | 了解概念+技术挑战 | 0.5天 | 5% |
| P2 | 【6.6新增】 AI编程工具面试应对（Claude Code/Vibe Coding） | 准备面试话术 | 日常积累 | 15% |
| P2 | 【6.6新增】 Reflexion 自反思Agent范式 | 了解概念 | 0.3天 | 10% |
| P2 | 【6.6新增】 轻量Agent框架设计原则（反LangChain） | 了解批判点+设计原则 | 0.3天 | 15% |

总计有效复习时间：P0约14天 + P1约28天 + P2约3.5天 = 约45.5天
建议策略：P0反复过3遍（含新增强化全链路思维框架）→ P1筛选”新热点+深挖项”优先（上下文工程/MCP-A2A/Agent失败场景/Agent系统设计/ReAct-CoT-ToT/Plan-Execute-Reflexion/Multi-Agent协作/生产陷阱/FC底层机制/RAG追问深度/BLEU-ROUGE局限/DPO对比/GraphRAG/采样参数调优/Harness Engineering/Prompt Injection防御/大模型军备竞赛/SITS2026/Claude Code压缩/CRDT分布式同步）→ P1旧题过1遍 → P2只看概念

🎯 面试重点自检清单

P0 必须过关

P1 争取过关（2026新增热词优先）

P2 了解即可

知道量化和蒸馏的作用
知道 KV Cache 和 Flash Attention 的基本概念
知道埋点的基本规范
知道 React 的基础概念（组件/状态）
知道 Cursor 的基本用法
知道 LoRA 和量化的作用
【Day 6新增】 知道实时语音Agent的核心组件（VAD/ASR/LLM/TTS）+ 打断机制挑战
【Day 6新增】 知道Claude Code/Cursor Agent模式 + 准备好”AI时代你的不可替代性”面试话术

🔄 2026面试趋势速记（5/20 18:00更新 — Day 6）

趋势	核心要点	对你备考的影响
Agent全面爆发	从”能回答”到”能做事”	P0的Agent五大能力+本质辨析+失败场景要更熟练
协议标准化	MCP连接工具 + A2A连接Agent	P1新增Skills vs MCP辨析，讲MCP管理深度
框架Graph化+低代码化	LangGraph替代LangChain成主流，Dify面向产品/运营	P1多智能体框架扩至4框架对比，新增Dify选型理由
评估体系化	不只是最终结果，中间步骤也要量化	P1新增，PM能讲评估=有系统思维
成本精细化	Prompt Caching/语义缓存/模型级联路由	融入上下文工程+LLM网关治理章节
系统设计题增加	从概念问答→架构设计题	P0新增Agent架构分层设计+系统设计答题框架(4阶段)
面试深度升级	从”有没有用过”到”为什么这么选”	P0项目亮点必须讲决策过程，不能报菜名
行业格局题	大厂差异化Agent策略对比	P0新增，与纯技术候选人拉开距离
运营监控需求	产品上线后全生命周期管理	P1新增运营监控体系与成本优化
面试核心转向	从”你知道什么”到”你怎么权衡”	P0新增Trade-off Judgment十大框架+系统设计答题框架
混合架构共识	Workflow做骨架，Agent做脑子	P1新增Agent vs Workflow混合架构，量化高4-8倍token耗用
FC底层原理	LLM只决策不执行	P1新增Function Call底层真相，面试官追问率60%+
生产陷阱复盘	踩坑案例最能区分做过和听过	P1新增五大生产陷阱，面试高频追问方向
RAG追问深度化	从”懂RAG”到”调过RAG”	P1新增RAG面试追问深度：文档感知切分/Lost in the Middle/混合检索决策/评估设计
面试评判标准升级	读过vs做过明确区分	能讲Cost/Evaluation/Tradeoffs/TTFT/Semantic Caching细节才是做过
选型判断能力	RAG vs Fine-tune决策+框架一句话选型	P1新增RAG vs Fine-tune选型树+4框架选型理由
【Day 5新增】全链路思维成为标配	从Data→Train→Inference→Online Service完整闭环	P0新增第13项：端到端排障能力、上线后效果变差怎么定位
【Day 5新增】评测方法升级	BLEU/ROUGE被质疑，LLM-as-Judge崛起	P1新增BLEU/ROUGE局限 + LLM-as-Judge最佳实践 + Golden Set设计
【Day 5新增】训练对齐知识深化	DPO vs RLHF对比成新考点	P1新增DPO vs RLHF对比 + PPO稳定性原理（Clipping+优势函数）
【Day 5新增】RAG进阶：GraphRAG	跨文档推理→知识图谱+RAG结合	P1新增GraphRAG概念，了解”多跳推理场景”和”图结构价值”
【Day 5新增】MCP治理深度化	从”MCP是什么”到”MCP怎么管”	P1工具层深挖6维度治理（分类/元数据/检索/动态加载/权限/统计）
【Day 5新增】场景化思维	技术服务于业务，空泛理论不再有竞争力	所有P0/P1知识点都必须绑定”什么业务场景用/不用”
【Day 6新增】采样参数工程化	从”知道Temperature是什么”到”生产环境怎么调”	P1新增：Temperature/Top-P/Top-K三参数协同、面试追问深度升级
【Day 6新增】Harness Engineering成为新考点	不只是评估指标，更关注评估基础设施	P1新增：LangSmith/W&B工具链+Golden Set回放+回归门禁
【Day 6新增】语音Agent面试题出现	多模态交互成为产品面试新方向	P2新增：实时语音Agent的VAD/ASR/LLM/TTS四组件+打断机制
【Day 6新增】AI编程面试追问升级	从”用不用AI”到”你的价值在哪”	P2新增：Claude Code/Cursor Agent模式+Vibe Coding警示+面试话术
AI PM能力模型	从”功能管理”到”概率性能力管理”	五维能力成为AI PM面试新标准
用户研究方法论升级	AI超级研究员替代50场访谈	需求验证从2周压缩到24小时
Multi-Agent架构选型	Handoff/LangGraph/CrewAI三选一	架构选择影响任务完成率最高14%
SSM/Mamba崛起	Transformer并非唯一解	百万token场景Mamba O(n)成唯一解
端侧AI成为产品核心竞争力	Apple/Google推本地LLM	离线+隐私+零边际成本三位一体
幻觉检测工程化	从RAG兜底到五层主动检测	企业级AI的幻觉率从15%降到2%
【Day 6新增】第20-21轮复习精华整合	Round 20技术难点深化+Round 21考前冲刺	量化精度三来源+Flash Attention v1/v2/v3对比+FA IO本质解读+“IO优化而非算法改变”金句

本文档由 AI 基于你的学习材料 + 2026年5月最新面试趋势（Day 6: 5/20 18:00 — 整合第20-21轮复习精华 + 新来源：JavaGuide 2026 AI面试指南(2天前)、代码随想录大模型面经(1天前)、小林coding2026 Agent面试题(4天前)、知乎2026 AI Agent面试复盘(43天前)）整理生成。建议每2小时复习时，按 P0→P1→P2 顺序过自检清单。
文档路径：PDM 日志/AI Agent/AI Agent与LLM面试_知识图谱_P0-P2排序.md
总览：P0 13项 / P1 37项 / P2 8项 = 共58项 | 预计总复习时间 ~42天

学习路线

Written By Six_moon