AI Agent 知识图谱排序
AI Agent 知识图谱
按学习投入产出比分级排行,从 P0(最高性价比)→ P2(储备级)
格式:知识点 → 解析 → 应用场景 → 学习投入产出比
📊 总览
| 梯度 | 知识点数 | 学习投入 | 面试产出 + 工作价值 | 策略 |
|---|---|---|---|---|
| P0 | 13项 | ⭐ 理解快,可复用 | ⭐⭐⭐⭐⭐ 面试必问 + 产品日常 | 必背,能讲技术逻辑 + 画流程图 + 答场景题 |
| P1 | 43项 | ⭐⭐ 需对比理解 | ⭐⭐⭐⭐ 面试加分项 + 2026新热点 | 理解原理,面试能对比阐述,2026高频新题 |
| P2 | 9项 | ⭐⭐⭐ 需动手实践 | ⭐⭐⭐ 储备知识,少数岗会问 | 了解概念,实战时再深入 |
🔴 P0 — 最高学习投入产出比(面试必问 + 工作高频)
特点:面试必问题,AI PM 日常工作核心,理解门槛低但展示价值高。
复习策略:反复过3遍,每遍以讲代背。
1. Token / 上下文窗口 / 幻觉
解析:
- Token:大模型最小语义单元,非字非词。中文1字≈1-2 token,英文1词≈1-3 token。直接决定计费与窗口限制。
- 上下文窗口:模型一次能”看到”的最大token数。窗口超限→遗忘,需滑动窗口/摘要压缩兜底。长上下文不等于更好——“Lost in the Middle”问题对长上下文同样存在,长窗口增大检索负担。
- 幻觉:模型概率生成≠数据库查询,自信输出无依据内容是固有缺陷。需RAG引用溯源+自洽性校验压制。
应用场景:
- Token计费与成本控制(聊天记录截断策略)
- 文档问答(先切片再检索→填入窗口)
- 企业级功能(回答必须可溯源”依据段落”)
- DeepSeek 64K vs GPT-4o 128K窗口选择影响产品方案设计
学习投入产出比:⭐(2天)
- 面试命中率:95%
- 理解门槛低,是AI产品经理所有技术讨论的起点
- 能举例说明(TechKids滑动窗口+摘要压缩→成本降30%)
2. Temperature / System Prompt / Few-shot / Function Calling
解析:
- Temperature(0~2):低温=确定(抽字段/SQL),高温=创造(写作/闲聊)。产品可封装”严谨模式/灵感模式”档位。
- System Prompt:最高级指令,定义角色/风格/边界/输出格式。如同”AI的产品经理设定”。
- Few-shot:给示例教模式,无需微调。适合快速验证意图分类、情感分析等。
- Function Calling:模型输出结构化JSON调用外部工具。Agent的基石。
应用场景:
- RealBot专家模式(低Temp保证专业输出→灵感模式切换)
- TechKids小智Bot(System Prompt设定儿童编程助教人格)
- 129条Quick Actions(Few-shot确保风格一致性)
- 联网搜索/查天气/内部工具调用(Function Calling)
学习投入产出比:⭐(2天)
- 面试命中率:90%
- 这4个参数就是AI产品经理的”调参三件套”——能讲明白就是专业
- 结合项目举例是面试最高效的展示方式
3. Prompt Engineering 5大核心技巧
解析:
- 角色设定(Persona):角色越具体越稳定。“资深PM”不如”有5年B端SaaS经验的PM,擅长数据分析驱动决策”。
- 结构化输出(Structured Outputs):用JSON Schema强制约束输出,前端可靠渲染。AI功能落地的关键。JSON Mode vs Structured Outputs vs Function Calling的区别与选择——高区分度追问。
- 约束(Constraints):长度/范围/禁止事项,产品合规与安全的防线。
- 反例(Negative Examples):比正例更高效修复边缘case。
- 评测样例(Eval Set):50+条测试用例,量化评估prompt效果。没有评测集就不能说prompt变好了。
应用场景:
- 129条Quick Actions的风格一致性维护
- 9位AI专家身份不漂移(分层Prompt)
- 文档问答的引用格式约束
- 情感分析的边缘case修复
学习投入产出比:⭐(2天)
- 面试命中率:90%
- PM的核心竞争力——不是”写prompt”而是”设计prompt体系”
- 建立50+条评测集是你推动算法优化的”证据”
4. AI Agent 本质定义 + 5大核心能力(2026重要补充)
解析:
- Agent本质定义:自主决策、多步推理、闭环反馈的系统。不是”聊天机器人+工具”。
- 与ChatBot+插件的区别:ChatBot被动响应,Agent主动规划+执行+反思循环;ChatBot无状态单次调用,Agent有状态多步闭环。
- 与Prompt Chain的区别:Prompt Chain固定路径,Agent动态决策;Chain无状态传递,Agent每步更新状态+反思调整。
- 2026新追问:没有工具调用还算Agent吗? — 纯LLM的多步推理+记忆+反思,不需要外部工具也可能具备Agent属性。工具不是Agent的充分必要条件,自主闭环决策才是本质。没有工具的Agent能力受限但仍成立(如规划型Agent)。
- 五大能力:
- 工具调用(Tool Use):通过Function Calling实现。工具集决定Agent能力上限。
- 记忆(Memory):短期=上下文窗口,长期=向量化摘要存库。记忆成就个性化。
- 任务拆解(Task Decomposition):把复杂目标拆成可执行子任务。能拆解才是真Agent vs 聊天机器人。
- 工作流(Workflow):预定义步骤+条件路由+人工审核节点。可编排、可监控的产品形态。
- 失败兜底(Fallback):重试→降级→转人工。兜底设计决定用户容错度。
应用场景:
- RealBot的联网搜索+查天气+内部工具调用
- TechKids自动拆解”查漏补缺→推荐练习→评估结果”流程
- 错误重试3次→转人工提示
- 2026趋势:MCP协议标准化工具连接,A2A协议标准化Agent间通信
学习投入产出比:⭐(2天)
- 面试命中率:90%
- 2026年最热话题,所有公司都在问Agent相关
- 特别注意:面试官追问Agent本质定义的概率极高,能辨析”Agent vs ChatBot+插件 vs Prompt Chain + 没有工具算不算Agent”直接拉开差距
5. RAG 完整管道及其细节解析
解析:
- 文档切片(Chunking):200-500 tokens/语义完整。策略对比→固定长度 vs 语义切分 vs 父子块(Parent-Child Chunking),不同策略影响检索质量。
- Embedding:文本→高维语义向量。BGE / M3E / OpenAI text-embedding-3选型对比。
- 向量库:Milvus/Qdrant/PGVector。关注搜索速度、准确率、更新机制。与传统数据库的本质区别:相似度查询 vs 精确匹配。稠密向量(语义搜索)vs 稀疏向量(关键词匹配)。
- 召回(Retrieval):混合召回(BM25+向量)提高覆盖面。K值过大→噪声干扰严重,需平衡召回量与准确率。查询改写技术(HyDE、Step-Back Prompt)可显著提升首次召回质量。
- 重排(Reranker -> 2026必选项):交叉编码器精排。2026面试新共识:向量相似度≠语义相关性,Rerank从”锦上添花”变为”生产级RAG标配”。Top-K截断→Rerank精排→取Top-N。K值过大的负面影响:召回率虽高但噪声多→Rerank负担加重→最终回答质量下降。
- 切片重叠区域(Overlap):一般10-20%重叠→避免关键信息被切边界切断。面试官追问细节时的高频考点。
- 增量索引策略:文档更新后→版本控制+哈希校验→分段更新/软删除/定时合并。回答”文档变了怎么办”的工程方案。
- 引用来源(Source Citation):企业AI可信度的核心。
应用场景:
- DailySpeak多模态文档问答(File/URL/Web/Scan→提取→检索→朗读)
- TechKids知识库问答
- 法律合同按条款切/教程按步骤切
学习投入产出比:⭐(2.5天)
- 面试命中率:85%
- RAG是AI PM面试的”标准题型”
- 能画完整6步管道图就是加分
- 精细化追问增多:K值影响、重叠比例、稠密vs稀疏向量、Rerank必要性、增量索引策略
6. Agent 常见失败场景与解决方案【2026新P0】
面试高追问率:腾讯AI平台部、蚂蚁AgentInfra等大厂三次面试均问到
解析:
-
场景一:工具调用失败
- 表现:模型生成的参数格式不合法、工具超时、返回异常
- 方案:参数校验层预处理→格式非法让LLM重生成→关键调用人工兜底
- 量化效果:“工具调用成功率从75%提升至92%+”
-
场景二:上下文溢出
- 表现:长对话遗忘早期信息、Agent多步执行丢失上下文
- 方案:上下文压缩+定期summarize+滑动窗口+关键信息提取
- 量化效果:“有效上下文利用率提升40%”
-
场景三:目标漂移
- 表现:Agent多步执行后偏离原始目标,做了不该做的事
- 方案:每步目标对齐检查(Re-Planning)+定期反思总结+必要时重新规划
- 量化效果:“任务完成准确率从60%提升至85%”
应用场景:
- 面试必问”你的Agent遇到过什么问题”
- TechKids自动辅导路径偏离修正
- RealBot多步任务执行稳定性保障
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:85%(2026年高频追问题)
- 这三个场景覆盖Agent工程化90%的问题,是区分”用过Agent”和”理解Agent”的关键
- 能结合项目讲具体case效果最佳
7. Agent 架构分层设计(系统设计题核心)【2026新P0】
解析:
- 企业级Agent不能全凭LLM裸跑,必须分层架构:
- 接入层:用户输入接收、鉴权、限流
- 对话管理层:短期记忆(Redis+过期)、长期记忆(向量库+召回)
- Agent核心层:规划(Planner)→ 执行(Executor)→ 反思(Reflector)循环
- 工具层:工具注册、参数校验、重试机制、结果解析
- 输出管控层:事实核查、置信度校验、格式约束、安全过滤
核心追问 - 规划与执行要不要拆成两个模型?【2026新追问】
- 拆:强模型(GPT-4o级)负责规划 → 快模型(DeepSeek-Lite级)负责执行 → 确定性校验层兜底
- 不拆:单一模型兼顾规划和执行,结构简单但容易出现”规划时被执行的中间结果干扰”
- 混合推荐方案:强模型规划+快模型执行+确定性校验 === 2026工业界主流选择
- 产品决策逻辑:成本和效果的平衡——规划频率低但质量要求高,执行频率高但容错空间大,分开能最大化性价比
核心追问 - 记忆设计:
- 短期记忆→Redis,设过期时间,存当前会话上下文
- 长期记忆→向量数据库,存用户画像、历史问题总结
- 记忆提取策略:相关性召回+时效性排序
核心追问 - 稳定性保障:
- 超时处理:LLM推理设超时→友好提示
- 降级策略:大模型挂了→降级规则匹配或转人工
- 监控告警:每步成功率/失败原因→异常告警
应用场景:
- 面试系统设计题”设计一个企业客服Agent”
- RealBot Agent功能的架构设计
- TechKids自动辅导系统
学习投入产出比:⭐⭐(1天)
- 2026年二面/三面高频系统设计题
- 能画5层架构图+回答3个追问=面试竞争力碾压
- PM不要求写代码,但要能画流程图、讲清楚每一层干什么
8. 项目亮点与技术难点(面试核心)
面试命中率:100%。这部分是你的”个人案例集”,必须练到能张口就来。
8.1 上下文管理
- 解析:多轮对话token累积→窗口溢出。方案=滑动窗口截断+摘要压缩(summarize recent turns)。
- 应用场景:TechKids多轮对话、RealBot长对话
- 投入产出比:⭐⭐ 务必量化 —— “token成本降低约30%“
8.2 Prompt 工程化 & 专家体系
- 解析:129条Action风格一致性+9位专家身份不漂移。方案=System Prompt分层(角色锚定层+知识边界层+输出格式层)。
- 应用场景:RealBot 9位AI专家、Quick Actions管理
- 投入产出比:⭐⭐ 务必量化 —— “风格一致性95%+“
8.3 流式输出(Streaming)
- 解析:iOS端SSE/WebSocket流不稳定→断连。方案=heartbeat ping+前端状态机(loading→streaming→done→error)。
- 应用场景:RealBot/DailySpeak/TechKids流式对话
- 投入产出比:⭐⭐ 务必量化 —— “断连恢复率从70%提升到95%+“
8.4 RAG 管道调优
- 解析:召回率低+噪声chunk干扰。方案=Hybrid Search+Reranker+Chunk粒度优化+增量索引。
- 应用场景:DailySpeak文档问答
- 投入产出比:⭐⭐ 务必量化 —— “Top-3命中率从60%提升到85%“
8.5 幻觉控制
- 解析:AI领域专家输出技术内容→“自信型幻觉”。方案=self-consistency check+引用溯源+置信度阈值过滤。
- 应用场景:所有AI功能的安全基线
- 投入产出比:⭐⭐ 务必量化 —— “从架构层面嵌入多重验证机制”
8.6 项目讲解”动作化”技巧【新增】
- 不要:报菜名式”我用了LangChain、Pinecone、Reranker……”
- 要:讲决策过程——“最开始直接用向量检索,后来发现相似度≠相关性,所以加了Rerank层精排,Top-3命中率从60%提升到85%”
- 公式:遇到了什么问题 → 为什么这个方案不行 → 做了什么改动 → 量化了什么效果
总投入:1天
项目亮点是所有知识的”挂载点”——每个技术点都要回到你的项目举例
9. 幻觉防控工程方案【2026新P0 / 企业级必问】
解析:
- RAG增强:所有回答基于知识库,不允许无源胡编
- 置信度校验:让LLM对自身答案给自信分→低于阈值转人工/二次校验
- 事实核查:输出结果与检索原文逐句比对→不一致则重新生成
- Prompt防幻觉设计:明确告知检索范围、要求引用来源、提供反例(“如果说不知道也可以”)
- 人工复核兜底:金融/医疗等关键场景→必须有人工审核节点
面试官追问:企业级应用中幻觉零容忍,你有哪些防线?
应用场景:
- DailySpeak文档问答的业务基线
- RealBot专家模式的内容可信度保障
- 任何面向企业的AI功能
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:80%(企业级AI岗位必问)
- 三层防线(RAG→置信度→事实核查)能讲清楚=体现工程化思维
- PM能讲幻觉防控=知道”怎么把AI功能做得靠谱”
10. 大厂差异化Agent策略认知【2026新P0 / 面试拉分题】
5月15日新增——来自CSDN 2026 AI Agent PM面试真题解析,面试官爱问的行业洞察题
解析:
- 腾讯:依托微信+企业微信社交+办公双场景。优势在私有化知识库和多端协同(PC/手机Agent状态同步)。适合B端企业知识库、政企办公场景。
- 字节:更偏向内容推荐+技术驱动的创新产品(豆包),重技术轻社交。聚焦内容创作辅助、智能推荐Agent。
- 阿里:云服务+电商双轮驱动。通义千问+百炼平台布局B端Agent开发平台。
- PM答题逻辑:面试官不是考你对三家公司的理解,而是考你有没有行业格局意识——能讲清”谁做什么、为什么这样做、对产品有什么影响”即可。
应用场景:
- 面试中”你怎么看国内大厂Agent布局”
- 体现行业视野,和纯技术候选人拉开差异
- 影响产品策略判断(如:做社交Agent还是工具Agent)
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:40%(大厂岗位命中率更高)
- 这是PM面试的”重炮题”——能答好=面试官觉得你有大局观
- 不用背细节,讲清楚格局+逻辑即可
11. AI PM 面试核心转向 — 权衡判断(Trade-off Judgment)【5/18新增】
来源:ProductLeadership 4天前 — “AI PM interviews test structured thinking and trade-off judgment more than memorized definitions”
解析:
- 2026面试核心转向:面试不再考”什么是ML”,而是”如何围绕AI的局限性设计产品”。面试官明确在测你做trade-off的能力,而非背诵技术定义。
- 十大核心权衡场景:
| 场景 | 权衡两端 | PM答题逻辑 |
|---|---|---|
| 模型选型 | 效果好但贵 vs 效果一般但便宜 | 按场景分级路由——复杂→GPT-4o,简单→DeepSeek |
| 召回策略 | Precision vs Recall | 用户搜索意图是导航型(高P)还是探索型(高R) |
| 幻觉控制 | 回答丰富度 vs 安全可信 | 策略型(0.7Temp+引用) vs 事实型(0.1Temp+强制RAG) |
| AI优先级 | 商业价值 vs 数据/模型就绪度 | 数据不可用=功能不可做,技术可行性是硬约束 |
| 低精度上线 | 透明度 vs 用户信任 | 不藏着——限制范围+人工兜底+明确告知限制 |
| 个性化 | 深度 vs 探索 | 老用户深度推荐 vs 新用户冷启动探索 |
| A/B测试 | 统计严谨 vs 模型波动 | 不可重复读取 → 延长测试窗口+在线评估 |
| 成本优化 | 模型质量 vs Token消耗 | 语义缓存+模型级联+Prompt Caching |
| 存储策略 | 记忆保留完整 vs 成本可控 | Full History → Sliding Window → Summary → Vector按场景选 |
| 发布策略 | MVP范围太小 vs 太大 | 选有价值且有数据的起点,定义最小可学习模型 |
应用场景:
- 面试中任何”你怎么选/为什么”类问题的底层框架
- “如何改进搜索/推荐/客服Agent”等开放题
- 回答AI产品经理面试的标准思维方式
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:90%(并非直接问,但每题都在测这个能力)
- 这是AI PM面试的”元能力”——不管问什么,你的回答逻辑都要体现权衡思维
- 一句话记住:面试官想看的是你怎么思考,而非你知道什么
12. AI系统设计面试答题框架(4阶段 + 读过vs做过评判标准)
来源:Rubduck.ai (3月) — “The tradeoff conversation is the interview.” / Prachub (4月) — AI system design interview framework
解析:
- 2026系统设计面试核心变化:从”设计Twitter/URL短链”转向”设计文档问答系统/AI客服Agent”。确定性系统→概率性系统,成本从”事后考量”升格为”一等公民工程权衡”。
- 4阶段答题框架(面试标准流程):
| 阶段 | 时间 | 内容要求 |
|---|---|---|
| 1. Clarify需求 | 5min | 用户量/Query量/“正确”定义/幻觉是否可接受/延迟目标/数据新鲜度/成本约束。实时客服vs内部批处理→完全不同的设计 |
| 2. 架构总览 | 5-8min | 客户端→编排层→推理→检索(如有RAG)→存储(向量库+文档库+元数据库+缓存)→可观测性。每个组件说一句选型理由 |
| 3. 深挖风险点 | 10-15min | 通常是检索质量/延迟/评估。准备好讨论权衡 |
| 4. 权衡与瓶颈 | 5min | 诚实说弱点+提缓解方案。“权衡对话就是面试本身” |
- 面试官评判标准:读过vs做过
- 读过:“用RAG做接地” → 做过:解释为什么检索有用,命名具体失败模式,描述检测方法
- 读过:不提成本 → 做过:Prompt Caching/上下文窗口管理/模型分级路由作为一等工程考量
- 读过:泛泛”会测试” → 做过:“离线用RAGAS跑faithfulness+context recall,线上用thumbs-up/down+LLM-as-judge采样”
- 核心金句:“I would choose X over Y because of Z, even though it trades away W”
应用场景:
- 任何系统设计类面试题的”元框架”
- “设计企业知识库问答Agent”、“设计文档问答系统”、“设计50K并发LLM服务”
- 结合你的项目经验(RealBot/DailySpeak/TechKids)套用答题框架
学习投入产出比:⭐⭐(1天)
- 面试命中率:80%(系统设计题已成为二面/三面标配)
- 这不是一个知识点,是一套”面试答题的作战地图”——和P0无工具等你现有的P0知识链联动使用
- 建议:选一个场景(如文档问答系统),用4阶段框架完整练一遍
13. AI面试全链路思维框架【5/19新增 — Day 5】
来源:CSDN 2026最新大模型面试复盘(2天前) / JavaGuide 2026面试指南(1天前) — 面试官核心关注”从数据到服务的完整闭环”
解析:
-
2026面试核心升级:面试官不再满足于单点知识(RAG/Agent是什么),而是要求你展示从数据采集到在线服务的全链路闭环思考能力。一个问题背后,面试官在看你有没有”端到端”的工程视野。
-
五阶段全链路框架(面试答题骨架):
| 链路环节 | 核心考点 | PM答题切入点 |
|---|---|---|
| 1. 数据采集 | 预训练数据类型(网络文本/结构化数据/多语言语料);数据清洗与去重(MinHash/SimHash) | 你负责的产品需要什么数据?数据质量如何保证? |
| 2. 模型选型与训练 | 模型选型(稠密vs稀疏Attention);微调方案(LoRA/QLoRA);训练问题(OOM/梯度爆炸/不收敛) | 为什么选这个模型?微调收益vs成本权衡? |
| 3. 推理与部署 | 推理延迟优化(模型蒸馏/FlashAttention/batch推理);量化(INT8/INT4降显存) | 推理成本如何控制?延迟和质量的trade-off? |
| 4. 在线服务 | 高并发方案(异步队列Kafka/缓存策略/负载均衡);模型网关(限流/熔断/降级/路由) | API出问题怎么降级?模型供应商挂了怎么办? |
| 5. 监控与闭环 | 效果评估(LLM-as-Judge/Golden Set);线上监控(成功率/延迟/成本三表);持续迭代 | 怎么证明你的改动有效?线上效果变差怎么定位? |
- 面试答题技巧:回答任何AI系统问题时,有意识地展示全链路思考——“这个问题不仅影响推理,还会影响数据采集策略和在线服务设计”
- 面试官真正在测的:不是你知道多少,而是当系统出问题时你有没有完整排查思路
应用场景:
- 系统设计题的标准思维扩展框架
- 回答”如果上线后效果变差,你怎么定位”
- 展示你的工程化落地思维,和只会背八股的候选人拉开差距
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:60%(2026大厂命中率80%+,社招面试核心能力)
- 这不是一个单独知识点,而是”将前面12个P0知识点串起来的思维骨架”
- 一句话记住:全链路思维 = 数据→训练→推理→服务→闭环,能在任何一个环节回答”出问题了怎么办”
🟡 P1 — 高价值加分项(2026新热点 + 面试区分度)
特点:2026年新增高频面试方向,问到了就能拉开差距。不是必问,但越来越常见。
复习策略:过1遍,能对比阐述原理即可。
14. 上下文工程(Context Engineering)
2026年面试新热点,区别于Prompt Engineering
解析:
- 定义:管理模型”看到的整个世界”——不是教一条指令,而是管理系统级的信息组织方式。
- 与Prompt Engineering的区别:PE教模型”如何回答”;CE管理模型”能看到什么”。
- 核心方法:
- System Message设计(角色+目标+行为+工具定义+思考链示例)
- 上下文压缩(滑动窗口+向量检索+分层摘要组合)
- 分层记忆架构(闪存+短期+长期三级)
- 控制手段:Prompt Caching(缓存高频system prompt降成本)、语义缓存(重复query不走LLM)
应用场景:
- TechKids的长对话质量维持(不只是截断,而是智能摘要)
- RealBot专家切换时的上下文迁移
- 批量处理场景的上下文复用与成本优化
学习投入产出比:⭐⭐(0.5天)
- 2026面试新题命中率:上升趋势
- 一句话讲清区别即可:“PE教模型怎么说话,CE管模型能看到什么”
- 是P0几项的”元框架”,学了这个能把前面的串起来
15. MCP 与 A2A 协议(2026最热新概念)
解析:
-
MCP(Model Context Protocol):模型连接外部工具和数据源的标准协议。解决”每个模型接一套工具”的碎片化问题。Anthropic提出,2026正成为行业标准。
- 类似”AI的USB-C接口”——一次对接,到处调用
- 产品价值:降低工具集成成本,可插拔工具生态
- 2026面试新深度:MCP多了怎么管理?→分类+元数据+检索+动态加载+权限+统计
-
A2A(Agent-to-Agent):Agent间的通信协议。Google提出,解决多Agent协作的互操作性问题。
- 场景:客服Agent转接给财务Agent,各自保持独立
- 产品价值:多智能体系统不再依赖同一个框架
应用场景:
- 面试回答”如何看待2026 Agent趋势”的绝佳素材
- 平台型AI产品(如RealBot接入更多第三方工具)
- 多Agent协作(如内容审核+客服+数据三Agent协同)
学习投入产出比:⭐⭐(0.5天)
- 2026年面试新题,知道就能拉开信息差
- 不要求深入技术实现,讲清楚”是什么 + 为什么重要 + 产品影响”即可
16. Skills 与 MCP 的辨析【2026新P1】
面试官偏爱的区分度问题——能讲清这个说明你有架构意识
解析:
- MCP(Model Context Protocol):工具连接协议。定义模型如何”插上”外部工具/数据源。单一职责——只管连接。
- Skills(能力包):完整任务能力单元。包含Prompt模板+工具集+工作流+错误处理方案。更高层次的抽象。
- 核心区别:MCP是”插头标准”,Skills是”完整电器”。MCP让Agent能连任何工具,Skills让Agent能执行完整任务。
- 类比:MCP = USB-C接口(怎么连),Skills = 打印机/键盘(能做什么)
- 产品价值:从MCP协议出发构建工具生态,再封装成Skills降低Agent开发复杂度
应用场景:
- RealBot未来开放第三方工具接入(基础MCP层)
- 将复杂工作流打包为可复用Skill(如”文章分析Skill”包含提取+总结+多语言)
- 面试中展示你对Agent生态架构的理解
学习投入产出比:⭐⭐(0.5天)
- 2026面试新概念,能辨析≈你有架构思维
- 一句话记住:MCP是连接标准,Skills是能力封装
17. 工具层(Tool Layer)工程实现 + MCP Server治理深度【5/19深挖】
解析:
-
工具定义:不仅是”调API”,包含完整元数据→名称+描述+参数Schema(必/选参数、类型、枚举)+返回值格式+示例
-
调用流程:Agent生成JSON参数 → 参数校验层预处理 → 执行工具 → 结果解析 → 反馈给Agent
-
错误处理:重试3次(指数退避)→ 参数调整重试 → 降级返回友好提示 → 人工兜底
-
2026趋势:MCP协议标准化工具定义格式,工具生态从”自建”走向”可插拔”
-
【5/19深挖 — MCP Server治理深度】 面试官追问MCP时会进一步考察:
- 分类管理:工具按领域/权限/成本分级,避免工具调用混乱
- 元数据注册:每个工具的名称/描述/参数/返回值/示例完整注册,支持Agent自动发现
- 智能检索:工具数量多(100+)时→Agent需先”搜索”可用工具→再决定调用哪个,而非全部塞入Prompt
- 动态加载:按需加载工具描述到Context→避免Profile污染(只塞当前场景相关的)
- 权限控制:敏感工具(写数据库/发邮件)需额外审批→Human-in-the-Loop
- 调用统计:各工具调用频率/成功率/平均Token消耗→用于优化工具集
应用场景:
- RealBot的联网搜索/天气/内部工具调用
- TechKids的计算器/代码执行工具
- DailySpeak的文档解析工具链
- 面试追问”MCP Server怎么治理”时能有深度回答
学习投入产出比:⭐⭐(0.5天)
- 面试追问:面试官会问”你的Agent怎么调用工具的,失败怎么处理”、“MCP Server怎么管理”
- 能讲清楚工具定义+调用流程+错误兜底+治理深度=体现工程落地能力+架构思维
18. ReAct vs CoT vs ToT 规划方法对比【2026新P1】
解析:
- CoT(Chain-of-Thought):让模型逐步推理,中间生成推理链。适合有明确步骤的逻辑问题(数学/逻辑推理)。简单直接但无反馈回路。
- ReAct(Reasoning + Acting):推理→行动→观察→再推理循环。适合需要与外部交互的Agent场景(搜索/查库/调工具)。Agent场景主流选择。
- ToT(Tree-of-Thoughts):多路径并行探索+剪枝。效果最好但token消耗大(3x+)。适合需要深度探索的复杂问题(规划/策略设计)。
- 选型实战:知识库问答中CoT效果差→换成ReAct准确率提升15%;ToT适合线下深度推理场景,线上成本高。
应用场景:
- 面试中展示你实际用过并理解trade-off
- TechKids自动辅导的路径规划选型
- 回答”你的Agent用了什么规划方法,为什么”
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:上升趋势
- 核心不是会背三种定义,而是能讲清楚”什么场景用什么 + 成本和效果怎么权衡”
- PM视角:关注的是每个方法对用户响应时间和token成本的影响
19. Query 改写技术(HyDE / Step-Back)【2026新P1】
解析:
- HyDE(Hypothetical Document Embeddings):先让LLM基于问题生成一个”假设的理想文档”,再用这个文档去检索。效果:弥补用户问题信息不足的问题。
- Step-Back Prompt:让模型先退一步思考更宏观的问题,再回答具体问题。适合多步推理场景。
- Query Rewrite:直接改写用户原始query(去噪/补全/翻译)→提高检索命中率。
- 产品价值:不增加基础架构成本的前提下提升检索质量5-15%
应用场景:
- DailySpeak文档问答中用户query不精确时的兜底
- TechKids知识库搜索质量优化
- 面试中体现你对RAG检索前处理的理解
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:30%
- 知道概念+能举例说明场景即可,面试不会深入追问实现细节
- PM视角:关注的是”改写了什么 + 效果提升多少 + 成本增加多少”
20. 增量索引策略【2026新P1】
解析:
- 问题:文档更新后,向量库中的旧数据如何处理
- 方案对比:
- 全量重建:简单但耗时,适合低频全量更新
- 版本控制+哈希校验:记录文档版本hash→只更新变化部分
- 分段更新+软删除:标记旧数据为删除状态→新数据写入→定时合并清理
- 实时更新流:文档变更→触发embedding→增量写入向量库
- 产品价值:保证用户总是检索到最新内容,同时避免全量重建的高成本
应用场景:
- DailySpeak文档库的内容更新维护
- TechKids知识库的持续更新
- 答题:面试官问”文档更新了怎么办”的工程方案
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:25%
- P1中偏后排序,有余力再看
- 一句话总结:不做增量索引=用户可能检索到过期内容
21. Multi-Agent 协作模式
解析:
- 为什么需要多Agent:单Agent能力有限,多个专精Agent协作可解决更复杂任务。
- 三种协作模式:
- Supervisor模式:一个主Agent协调分配子任务。适合有明确管理者角色的场景(如客服组长分配工单)。
- Swarm模式:对等Agent各司其职,无统一调度。适合去中心化协作(如多个数据采集Agent并行工作)。
- Hierarchical(层级式):多层嵌套,每一层有自己的Agent集群。适合复杂企业组织架构映射。
- 选型原则:
- 需要严格监控和审批→Supervisor
- 需要高并发并行处理→Swarm
- 需要反映组织层级→Hierarchical
应用场景:
- 多产品线协同(TechKids辅导+RealBot咨询+DailySpeak朗读协作)
- 复杂业务流程自动化(如PRD评审多角色流水线)
- 面试:回答”你怎么设计多Agent协作”
学习投入产出比:⭐⭐(0.5天)
- 2026高频面试题,和多智能体框架联动记忆效率更高
- 能讲三种模式的”设计哲学差异”就够用
- PM视角:关注什么场景适合什么协作模式,而非框架实现
22. Agent 评估体系 + 评测深度【5/19深挖】
解析:
-
为什么需要独立评估:Agent不是单次问答,是多步闭环。最终结果对≠过程最优,可能绕远路、多耗费token。
-
三层评估:
- 结果层:任务完成率(Completion Rate)、用户满意度
- 过程层:规划准确率、工具调用正确率、步数效率
- 成本层:Token消耗、API调用次数、延迟
-
关键指标:
- 任务成功率(Task Success Rate)
- 工具命中率(Tool Hit Rate)
- 循环次数(Loop Count)——检测死循环
- 成本/任务(Cost per Task)
-
【5/19深挖 — 生产级评测体系设计】 2026面试中,面试官对评测的追问已从”用什么指标”升级到”怎么设计评测体系”:
- Golden Set(黄金评测集):精心设计的50-100条测试用例,覆盖正常/边界/异常场景。每次改动后先过Golden Set→通过才能上线
- LLM-as-Judge:用强模型(GPT-4o级)做自动评分器,评估faithfulness/context recall/answer relevance。注意局限:Judge模型本身可能偏见
- Trace回放:记录Agent每步的输入/输出/工具调用/Token消耗→线下回放分析问题
- 线上灰度评估:Deployment后持续收集thumbs-up/down数据+LLM采样评估→与离线结果交叉验证
- 核心标准:“离线用Golden Set + 自动化评测,线上用A/B + 用户反馈,两者交叉验证”
应用场景:
- RealBot的Agent功能上线前的质量门禁
- TechKids自动辅导的”正确路径”验证
- DailySpeak TTS工作流的各节点耗时监控
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:上升趋势(2026年Agent爆发→评估需求暴增)
- 体现”系统化思维”——不只是做功能,还知道怎么衡量效果
- PM能讲评估体系 = 知道怎么界定”好”与”不好”
23. 多智能体框架(LangGraph / CrewAI / AutoGen / Dify)
解析:
- LangGraph:状态图思维。适合有状态、有条件分支的复杂工作流。如Code Review→Writer协作。2026趋势:已替代LangChain成为主流Agent框架。
- CrewAI:角色扮演思维。每个Agent有角色描述+任务+流程。如研究/写作/审核三角色。
- AutoGen:对话式多Agent。微软出品,适合讨论/辩论场景。
- Dify:低代码AI应用开发平台(拖拽式+开源+企业级)。适合快速构建RAG/Agent原型,有完整数据集管理+Prompt编排+日志追踪。与LangGraph的本质区别:LangGraph面向开发者(代码控制),Dify面向产品/运营(可视化编排)。面试加分:“Dify适合快速MVP验证,LangGraph适合复杂生产系统”
- 选型原则:
- 需要严格状态流转 → LangGraph
- 需要角色分工协作 → CrewAI
- 需要Agent间辩论/讨论 → AutoGen
- 需要快速可视化成产品 → Dify
- 面试追问”为什么选X而不选Y”:准备2-3个框架用一句话说清择理由
- 2026趋势:框架从Chain→Graph演进,“编排”成为Agent产品的核心能力
应用场景:
- 面试中对比LangGraph vs CrewAI vs AutoGen
- 多产品线协同(TechKids辅导+RealBot咨询+DailySpeak朗读协作)
- 复杂业务流程自动化(如PRD评审多角色流水线)
学习投入产出比:⭐⭐(0.5天)
- 2026高频面试题(字节Agent平台组/蚂蚁AgentInfra等都在问)
- 知道三种框架的”设计哲学差异”就够用
- 产品经理角度:不是选择框架,而是判断什么场景适合什么协作模式
24. 记忆管理深度(Memory Management) + 冲突更新机制【5/19深挖】
解析:
-
四种记忆方案对比:
- Full History:全部保留。优=信息无丢失;劣=撑爆窗口成本高
- Sliding Window:固定长度最新对话。优=成本低;劣=早期关键信息丢
- Summary Memory:历史总结摘要。优=平衡信息与成本;劣=摘要丢失细节
- Vector Store Memory:向量化存库。优=理论上无限扩展;劣=检索精度依赖算法,有召回不全风险
-
高级设计:分层记忆架构——闪存(当前步中间结果)+短期(当前会话上下文)+长期(跨会话信息)
-
【5/19深挖 — 记忆冲突更新机制】 面试官高追问方向:
- 问题:用户早期说”我喜欢推荐日料”,后来又说”最近不想吃日料了”→长期记忆中的两条信息冲突。Agent该听哪条?
- 方案:时效性优先(最近表达>早期表达)+ 显式覆盖(“不再推荐日料”触发旧信息失效标记)
- 一致性维护:长短期记忆之间如果冲突→以短期(最新交互)为准→反向修正长期记忆
- 产品设计:用户可手动编辑/删除Agent记住的信息(如”我的偏好”页面)
- 面试金句:“记忆系统设计的核心不是存多少,而是怎么处理冲突和遗忘”
应用场景:
- RealBot跨会话记住用户偏好(长期记忆设计)
- TechKids记住学生上次学到的知识点(学习进度追踪)
- Agent执行长任务时的中间结果暂存(闪存设计)
学习投入产出比:⭐⭐(0.5天)
- 面试追问频率高——P0的”Agent记忆”是基础,这里是被追问后的深度展开
- 能讲四种方案的优劣比较+冲突更新机制即可
- PM视角:关注的是”用户感知到的记忆效果”而非存储细节
25. SFT vs RLHF + RAG vs Fine-tune 选型决策树 + DPO vs RLHF对比【5/19深挖】
解析:
-
SFT(监督微调):人工标注数据直接训练。快速收敛但泛化弱(见过才学得会)。
-
RLHF(基于人类反馈的强化学习):SFT基础上引入奖励模型+PPO算法对齐人类偏好。对齐效果好但训练复杂不稳定(奖励欺骗/模式崩塌)。
-
工业界实践:两者结合——先用SFT快速达标,再用RLHF精调偏好。
-
RAG vs Fine-tune 选型决策树(面试官高频追问题)
- 优先RAG:知识更新频繁(日/周级)、训练数据不足1000条高质量样本、需要可溯源引用
- 优先Fine-tune:输出格式固定(如JSON模板/法律合同)、任务风格明确(客服风格/创意写作)、对延迟敏感(Fine-tune推理成本更低)
- 二者结合(推荐):RAG做知识来源 + Fine-tune做输出风格对齐。如企业客服Agent = RAG检索知识库 + Fine-tuned模型按品牌话术输出
- 量化判断:“知识更新快用RAG,输出格式固定用Fine-tune,两者兼需可结合”
- LoRA参数深度:rank=8适合简单任务,rank=64适合复杂任务;rank过高→过拟合+训练成本上升,rank过低→表达能力不足。QLoRA比LoRA更省显存(4bit量化),适合消费级显卡
-
【5/19深挖 — DPO vs RLHF详细对比】 2026面试新方向:
- DPO(Direct Preference Optimization):不需要独立的Reward Model,直接基于偏好对优化策略。简化训练流程,减少不稳定因素。
- vs RLHF(需要Reward Model):RLHF多一步训练Reward Model,训练更复杂但理论上效果上限更高。
- 什么时候用DPO:小参数量模型(<13B)、训练数据量不大(<10K偏好对)、算力有限——DPO性价比优于RLHF
- 什么时候用RLHF:大参数量模型、有充足标注资源和算力时,RLHF的”奖励信号”可能更准确
- PPO稳定性原理:PPO通过截断策略(Clipping) + 优势函数来保证训练稳定性。Clipping限制策略更新幅度(0.8-1.2倍),避免一次更新破坏模型能力
应用场景:
- 模型选型判断(外包客服→SFT够用;创意助手→RLHF更优)
- 理解ChatGPT/GPT-4的迭代逻辑
- 面试追问”RLHF训练不稳定怎么解决”、“LoRA rank怎么选”
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:40%+(DPO vs RLHF属于2026新考点,命中率在上升)
- 一句话讲清核心差异:SFT解决”学会”,RLHF解决”学对”;DPO解决”没有Reward Model也能对齐”
- 对比RLHF和DPO是面试加分项,理解PPO的Clipping原理是深度加分
26. MoE(混合专家)架构
解析:
- 核心原理:不显著增加推理计算量前提下扩大参数规模。每个Token只激活少数专家(如Top-2),总参数大但激活参数小,FLOPs可控。
- 优势:性价比高,可用更少激活参数实现更强综合能力。
- 挑战:专家负载均衡(load balancing loss)、通信开销(all-to-all)、存储成本(所有专家参数需驻留内存)。
应用场景:
- 理解DeepSeek/Mixtral为何能以低成本提供大容量模型
- 推理定价背后的技术基础
- 模型选型判断
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:30%
- 作为对比性知识,能讲MoE vs Dense的差异即可
27. SSE / WebSocket / WebRTC 协议选型【2026新P1】
解析:
- SSE(Server-Sent Events):单向流,服务器→客户端。简单,适合实时通知/流式输出。缺点:只支持单向通信,浏览器原生支持。
- WebSocket:全双工双向通信。适合聊天/实时协作。缺点:需要状态管理、连接维持成本。
- WebRTC:P2P实时音视频传输。适合语音/视频通话、低延迟互动场景。缺点:复杂度高(STUN/TURN/ICE信令)。
- 选型原则:
- 纯文本流式输出 → SSE
- 需要双向实时交互 → WebSocket
- 需要音视频传输 → WebRTC
应用场景:
- RealBot/DailySpeak/TechKids的流式对话输出→SSE
- 多Agent间实时协作→WebSocket
- 语音交互场景→WebRTC
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:25%
- 能讲清楚三种协议的核心区别+选型原则即可
- PM视角:关注的是”不同协议对用户体验和成本的影响”
28. LLM 网关治理【2026新P1】
解析:
- 为什么需要:多个AI功能复用同一个模型API时,需要统一管控流量、成本和质量
- 核心能力:
- 限流:防止API被单个功能打满(令牌桶/滑动窗口)
- 熔断:模型服务异常时自动切换备用模型
- 多模型路由:按场景分发到不同模型(简单→低成本小模型,复杂→GPT-4o)
- 成本治理:token消耗统计、预算预警、模型级联路由(fallback)
- 监控日志:请求/响应/错误/延迟全链路追踪
- Token成本归因:按功能/用户/场景归因Token消耗→优化资源分配(JavaGuide新考点)
应用场景:
- RealBot/DailySpeak/TechKids共用一套模型API时的网关设计
- 面试:回答”你怎么管理多个AI功能的模型调用”
- 成本优化:简单query走小模型→省钱50%+
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:20%
- 有后端经验的PM讲网关特别自然
- 核心:体现你考虑过”多个AI功能共用模型时的治理问题”
29. 数据驱动产品:SQL + 产品指标体系
解析:
- SQL:SELECT/JOIN/GROUP BY/窗口函数
- 产品指标:DAU/WAU/留存/转化/漏斗/ARPU/ARPPU/LTV
- IAA指标链:展示率→填充率→eCPM→ARPDAU→影响LTV
- 分析方法:漏斗分析定位流失节点,留存分析找关键阈值
应用场景:
- 分析RealBot订阅转化漏斗
- 评估广告展示节点收益
- 计算不同渠道用户的LTV差异
- 定位功能流失点
学习投入产出比:⭐⭐(3天)
- 面试命中率:50%
- 数据能力是AI PM的”硬实力”标签
- 能现场写SQL查留存/转化 = 面试官会高看一眼
30. API / JSON / Postman 理解
解析:
- HTTP方法(GET/POST/PUT/DELETE)
- JSON请求/返回/错误码
- REST API文档读写
- Postman/Apifox测试
- 后端概念(鉴权/限流/异步/重试)
- 数据库表结构(用户/会话/消息/订阅/广告事件)
应用场景:
- PRD附接口定义
- 测试验收自己调接口验证
- 排查问题时看懂后端错误日志
- 200+日活产品线的API维护
学习投入产出比:⭐⭐(1天)
- 你有软件工程背景,学起来很快
- PRD从”页面描述”升级为”研发可落地需求”
31. AI产品商业化:IAA + 订阅转化
解析:
- IAA变现:展示率/填充率/eCPM/ARPDAU/广告频控/展示节点设计
- 订阅转化:定价策略(对标竞品)、漏斗优化(曝光→点击→付费)、试用策略
- 商业化指标体系:LTV > CAC是健康产品的基础
应用场景:
- RealBot订阅功能设计(周$9/月$20/年$75)
- DailySpeak免费层广告策略
- 用户生命周期的变现节点规划
学习投入产出比:⭐⭐(1天)
- 面试命中率:40%
- 这是你简历里的实际经验,属于”不费力学但必须能讲”
32. 运营监控体系与成本优化【5/15新增】
2026面试新题:产品上线后的全生命周期管理能力
解析:
- 三层监控目标:
- 成功率:智能体响应成功率(目标>95%)
- 延迟:端到端响应时间(目标<3s)
- 成本:Token消耗+API调用费(目标+0%增长前提下支撑用户增长)
- 监控指标:成功率仪表盘、平均/95分位延迟、每日Token消耗、各功能成本分布
- 优化手段:模型级联路由(简单query走小模型)、语义缓存(重复query不调LLM)、Prompt Caching
- PM角度:三个指标不能孤立优化——压延迟会牺牲质量,压成本会影响成功率。需要找平衡点。
应用场景:
- RealBot/DailySpeak多AI功能共用模型时的资源监控
- 面试中回答”产品上线后怎么管”
- 体现:不是做完了就不管,而是持续关注线上指标
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:20%(但大厂PM岗命中率更高)
- 体现”产品+运营”全链路思维
- 和LLM网关治理联动记忆
33. Function Call 底层真相与非执行机制
来源:小林coding/Kamacoder — 2026面试高频追问,面试官最爱深挖的技术细节
解析:
- 核心真相:LLM本身不执行函数,只输出结构化的”调用指令”。代码负责解析指令并执行。明确区分LLM的”决策”和应用层的”执行”——这是理解Agent安全性和架构设计的关键。
- 与Prompt+正则解析的本质区别:
- Prompt+正则:非结构输出→正则硬匹配→不稳定,格式一变就崩
- Function Call:结构化JSON输出→Schema预校验→可靠,格式由模型保证
- 并行调用(Parallel Function Call):GPT-4o/Claude 3.5+支持一次返回多个调用。串行执行T=T1+T2+T3,并行执行T=max(T1,T2,T3)——面试官追问概率高。
- 产品价值:理解这个机制→PRD中定义工具Schema的能力、调教LLM输出格式的信心、排查问题的精准度都会显著提升。
应用场景:
- RealBot联网搜索/天气/内部工具的接口定义
- TechKids计算器/代码执行工具的Schema设计
- 面试回答”Function Call和普通解析有什么区别”
- 调试Agent时的故障定位(是LLM输出错了还是代码解析错了)
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:60%(2026大厂面试追问率极高)
- 一句话记住:LLM只做决策,应用层做执行——这是Agent安全的第一道防线
34. Agent vs Workflow 混合架构设计
解析:
- 核心区别:谁控制流程?
- Workflow:代码控制——稳定、可预测、Token消耗低、调试难度低
- Agent:LLM控制——灵活、适应性强、Token消耗高、调试难度高
- 混合架构(2026工业界推荐):不是非此即彼,而是联合使用
- Workflow处理简单稳定任务(标准话术回复/信息收集表单)
- Agent处理复杂异常情况(意图理解偏差/多步推理/非预期输入)
- 当Workflow走到分支点→转Agent决策→回Workflow执行
- 选型量化对比:
| 维度 | Workflow | Agent | 混合推荐 |
|---|---|---|---|
| Token消耗 | 低(固定路径) | 高(推理+调用),比Workflow高4-8倍 | 按需分配 |
| 可预测性 | 高 | 低 | Workflow兜底 |
| 灵活性 | 低 | 高 | Agent处理异常 |
| 调试难度 | 低 | 高 | 分步可观测 |
| 适用场景 | 标准化流程 | 开放决策 | 复杂业务系统 |
应用场景:
- TechKids自动辅导:Workflow处理标准课程流程→Agent处理学生个性化问题
- RealBot客服:Workflow处理FAQ→Agent处理复杂咨询→转人工
- 面试回答”为什么不用Workflow/Agent二选一”
学习投入产出比:⭐⭐(0.5天)
- 2026新兴追问方向,面试官爱问”你怎么设计这个流程”
- 能讲混合架构=体现工程化落地思维,而非学院派二极管
- 一句话记住:Workflow做骨架,Agent做脑子
35. 生产环境Agent五大陷阱(Production Pitfalls)
来源:Kamacoder面经实战总结——面试官爱问的”你遇到过什么问题”
解析:
-
陷阱一:死循环
- 现象:Agent在ReAct循环中反复调用工具而不结束
- 方案:最大步数限制(如10步终止)+ 重复动作检测 + 超时控制
- 量化:死循环率从5%降至0.5%
-
陷阱二:幻觉工具调用
- 现象:模型虚构了一个不存在的工具函数,或生成了错误参数格式
- 方案:参数校验层预处理 + 工具白名单 + 格式非法让LLM重生成
- 量化:非法工具调用率从8%降至1%
-
陷阱三:上下文污染
- 现象:Agent多次执行后,中间结果混杂在对话中干扰后续决策
- 方案:上下文分层管理(指令层/数据层/输出层),各层隔离
- 量化:决策准确率从75%提升至90%
-
陷阱四:Token爆炸
- 现象:多步Agent的对话历史+中间结果快速撑爆窗口
- 方案:滑动窗口 + 定期摘要 + Token用量监控告警
- 量化:长任务Token消耗降低40%
-
陷阱五:Prompt注入攻击
- 现象:用户输入中隐藏指令让Agent执行越权操作
- 方案:数据/指令分离 + 输入过滤 + 最小权限 + 高危操作Human-in-the-Loop
应用场景:
- 面试必答”你的Agent遇到过什么问题”——选2-3个讲(Problem→Solution→Quantified)
- RealBot/TechKids生产环境质量门禁
- Agent安全运营基线
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:70%(面试官极其热爱”踩坑类”追问)
- 这五个陷阱覆盖80%的Agent生产问题,是区分”做过Agent”和”只是听过Agent”的关键
- 能结合具体项目讲踩坑经历+量化效果=面试最强加分
36. AI PM 三层指标连接能力(Business-Product-Model)
来源:ProductLeadership 4天前 — “Strong AI PMs combine model metrics, product metrics, and business metrics”
解析:
- 三层指标结构:
- Model层:准确率/精确率/召回率/ROUGE/BLEU —— AI好不好
- Product层:留存/转化/使用频率/功能渗透率 —— 用户用不用
- Business层:收入/LTV/CAC/ARPDAU/成本 —— 赚不赚钱
- PM的核心能力:不是背每一个指标,而是能讲清楚三层之间的因果链。例如:Reranker上线→Top-3命中率从60%升到85%(Model改善)→问答采纳率+20%(Product提升)→用户留存D7+8%(Business影响)。
- 面试答题框架:一个问题按三层结构展开,先Model再Product再Business——体现你不仅懂技术还懂商业。
应用场景:
- 面试”你怎么评估AI功能的好坏”
- 论证新增AI功能的ROI
- 向老板汇报AI项目效果
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:50%(但大厂命中率80%+,这是PM面试核心能力)
- 三层指标框架 = 面试官眼中的”完整产品思维”
- 一句话记住:不要只讲准确率,要讲准确率怎么影响了用户留存和收入
37. RAG面试追问深度:文档感知切分 / Lost in the Middle
来源:Mianlingai — 2026面试官追问路径汇总,深入考察实际项目经验
解析:
-
2026追问新深度:不满足于P0的”什么是RAG”,面试官会一路追问细节:
- 文档切分策略:固定长度 vs 语义切分 vs 文档结构感知。Markdown文档如何根据标题层级切块?表格如何切分不破裂?标题作为Metadata进入向量检索
- Lost in the Middle问题:LLM对长上下文中间部分的信息”注意力衰减”。检索回的Top-K放中间→LLM可能会忽略关键内容。解法:滑动窗口+Rerank精排+关键信息前插
- 混合检索决策:什么时候BM25比向量检索更好?——搜索精确术语(产品名/代码/编号)用BM25,非精确语义搜索用向量。Hybrid Search并非万能,需按场景配置权重
- 效果评估追问:召回率/准确率多少?在什么数据集上测的?如何设计评估指标?数据说不清楚=项目没信服力
-
面试官真正在测的:不是你对RAG的背诵,而是你亲手调过多少参数、踩过多少坑。能具体说”表格切分我用了Markdown头作为chunk metadata + slide window overlap 10%“就是做过和没做过的分水岭。
应用场景:
- DailySpeak多模态文档问答中PDF/网页的结构感知切分
- TechKids知识库的文档更新和切分优化
- 面试”你的RAG系统怎么设计的”追问链
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:40%(但深度追问出现时是区分度题)
- 这是P0 RAG(第5项)的追问展开——先确保P0的RAG能吃透,再深入这个
- 一句话记住:面试官想听你是怎么优化的,不是你怎么搭建的
38. BLEU/ROUGE局限 + LLM-as-Judge评估方法【5/19新增 — Day 5】
来源:CSDN 2026面试复盘 — 面试官追问”你怎么评估模型/系统效果”时的高频深挖方向
解析:
-
传统自动指标的时代局限:
- BLEU:基于n-gram精确匹配,适合机器翻译。局限:只看字面重叠,语义正确但表述不同→低分;对创造性内容不适用
- ROUGE:基于召回率的n-gram匹配,适合摘要。局限:同BLEU一样依赖参考文本,对生成式AI效果评估严重不足
- 共同问题:无法评估语义正确性、无法检测幻觉、无法评估用户体验
-
LLM-as-Judge(2026主流方案):
- 原理:用强模型(GPT-4o/Claude 3.5)作为自动评分器,评估faithfulness(忠实原文)/ relevance(相关)/ helpfulness(有用)/ coherence(连贯)
- Prompt设计:提供详细评分标准(如1-5分各档位的定义)、多维度打分、要求输出理由
- 优势:覆盖语义层面,可定制化打分维度,无需参考标注
- 局限:Judge模型本身可能有偏见(偏好长文本/特定风格),不能完全替代人工;“LLM评估LLM”存在自洽性问题
- 最佳实践:“自动化用LLM-as-Judge+Golden Set做回归,线上用用户反馈交叉验证”
-
效果评估的”区分度”提问:
- 面试官会问:“你怎么证明新Prompt比旧Prompt好?” → 不能只说”感觉好”,需要评估集+指标+数据
- 答法:“建立50+条Golden Set,离线用LLM-as-Judge跑faithfulness + relevance双维度,对比旧版每项各提升X%”
应用场景:
- 证明RAG管道改动的效果提升
- 面试回答”你怎么评估AI功能质量”
- DailySpeak/TechKids功能上线前的质量门禁
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:30%(2026新方向,但大厂命中率正在上升)
- 一句话记住:BLEU/ROUGE看字面匹配,LLM-as-Judge看语义质量,Golden Set做回归门禁,三者组合才是完整评测
39. DPO vs RLHF 详细对比 + PPO稳定性原理【5/19新增 — Day 5】
来源:CSDN 2026面试复盘 — 面试官对训练对齐知识的要求在2026年明显提升
解析:
-
DPO(Direct Preference Optimization):
- 不需要独立的Reward Model,直接基于偏好对优化策略
- 简化训练流程(省去Reward Model的训练和推理),减少不稳定因素
- 适合小参数量模型(<13B)、训练数据量不大(<10K偏好对)、算力有限的场景
-
RLHF(Reinforcement Learning from Human Feedback):
- 多一步训练Reward Model(从人类偏好数据训练RM)
- 训练更复杂但理论上效果上限更高(Reward信号可能更准确)
- 适合大参数量模型、有充足标注资源和算力的团队
-
核心区别:RLHF = SFT → RM训练 → PPO优化;DPO = SFT → 直接偏好优化(跳过RM)
- 一句话评价:DPO降低了RLHF的工程复杂度,但RLHF仍然是大模型的”黄金标准”
-
PPO稳定性原理(深度追问):
- Clipping(截断策略):限制新旧策略比率在[0.8, 1.2]范围内→防止一次更新幅度过大破坏模型能力
- 优势函数(Advantage Function):判断”某个动作相对于平均水平是好是坏”,引导模型朝更好方向更新
- 价值损失(Value Loss):辅助损失,帮助优势函数更准确估计状态价值
应用场景:
- 面试追问”RLHF训练不稳定怎么办”
- 模型对齐方案选型判断
- 理解GPT-4o/Claude的训练逻辑(RLHF路线 vs DPO路线)
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:20%(偏深,但问到了就是”理解深度”的区分度题)
- 建议:先掌握P1的SFT vs RLHF(第25项),有余力再看DPO。两者联动记忆效率最高
40. GraphRAG 概念与场景【5/19新增 — Day 5】
来源:JavaGuide 2026面试指南 — RAG进阶方向,2026年面试新出现的热点概念
解析:
- 什么是GraphRAG:在传统RAG(向量检索+重排)基础上引入知识图谱结构。文档不再是独立chunk,而是以实体+关系构建图结构。
- 解决的核心问题:传统RAG对”跨文档关联推理”弱——如”A文档说X公司推出了产品,B文档说Y公司收购了X公司”→传统RAG可能分别召回但无法关联,GraphRAG通过知识图谱的实体-关系链接实现跨文档推理。
- 主要优势:
- 多跳推理(Multi-hop Reasoning):问”X公司被收购后,它的产品线归谁”→图结构能自动关联
- 结构化回答:不仅仅是召回相关段落,还能输出实体关系图
- 可解释性更好:回答路径可追溯(实体A→关系R→实体B)
- 挑战:构建知识图谱成本高(需要实体抽取+关系抽取+图谱融合)、推理复杂、不是所有场景都需要图结构
应用场景:
- 面试展示你对RAG演进方向的了解
- 产品需要跨文档推理时(如企业知识库中的收购合并分析)
- 面试回答”RAG的下一步是什么”
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:15%(2026新概念,正在上升但还不是标配考点)
- 建议:先吃透P0 RAG再做了解
- 一句话记住:传统RAG找相关段落,GraphRAG找实体关系链——多跳推理场景图结构不可替代
41. 采样参数工程调优(Temperature / Top-P / Top-K 生产实践)【Day 6新增 — P1】
来源:JavaGuide 2026 AI面试指南(2天前) — 面试官追问从”是什么”升级到”生产怎么调”
解析:
- Temperature(0-2):控制输出随机性。低温→确定性高(知识问答设0.1-0.3),高温→创造力强(创意写作设0.7-0.9)。
- Top-P(Nucleus Sampling):累积概率阈值,动态选择候选词。设0.9→只考虑累积概率前90%的词。
- Top-K:固定取概率最高的K个词。设K=40→只考虑Top-40个词。
- 三者协同:面试官会追问”同时设置Temperature和Top-P时谁优先级高?“→实际是两层过滤:先Top-K/Top-P筛候选词集→再Temperature调整概率分布。Top-P和Top-K共用时需注意冲突(如K太小但P没覆盖到)。
- 最佳实践搭配:
- 知识问答/事实提取 → Temp=0.1-0.3, Top-P=0.1, Top-K=0(关闭)
- 创意写作/头脑风暴 → Temp=0.7-0.9, Top-P=0.9, Top-K=40
- 代码生成 → Temp=0.2, Top-P=0.1, Top-K=10
- 生产调优原则:先定Temperature(粗调),再微调Top-P(细调)。通过A/B测试找最佳组合,不要凭感觉。
应用场景:
- RealBot专家模式(低Temp保证专业输出→灵感模式切换)
- TechKids辅导(知识讲解用低Temp,创意编程用高Temp)
- 面试追问”你的Temperature怎么设的”→不能只说”调了一下”
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:40%(虽不是新概念,但2026面试追问深度明显加深)
- 核心不是记住数字,而是能讲清楚”为什么这样设+不同场景怎么权衡”
42. Harness Engineering(Agent测试评估框架)【Day 6新增 — P1】
来源:代码随想录2026大模型面经(1天前) / JavaGuide(2天前) — 2026面试新概念,区分”用过Agent”和”能上生产Agent”
解析:
- 什么是Harness Engineering:构建Agent的自动化测试评估基础设施。不仅仅是”验证功能正确”,而是建立可重复、可对比、可回归的评估流水线。
- 对比已有评估体系:
- P1 #22(Agent评估体系)关注”用什么指标评估”
- Harness Engineering关注”用什么工具+怎么搭建评估流程”
- 工具链:LangSmith(Tracing+评估)、Weights & Biases(实验追踪)、自定义Harness(企业级定制)
- Harness核心能力:
- Golden Set回放:每次代码/Prompt改动后自动跑基准测试集
- LLM-as-Judge集成:自动打分+多维度评估(faithfulness/relevance/helpfulness)
- Trace分析:记录Agent每步(调用链+Token消耗+延迟),支持离线回放
- 回归门禁:新版本效果不低于旧版→自动阻断上线
- 线上数据回流:生产环境的正/负样本自动补充到测试集
- 面试答题思路:不要只说”我们有评估”,要说”我们用LangSmith做Trace记录+Golden Set做回归+LLM-as-Judge做自动打分,三管齐下保证每次改动质量”
应用场景:
- RealBot每次Prompt优化后的效果量化验证
- TechKidsAgent流程改动的回归测试
- 面试”你怎么保证Agent改好了”→展示Harness体系建设能力
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:20%(2026新概念,大厂命中率上升中)
- 这是”评估体系”的工程实践维度——知道概念即可拉高面试印象分
- 一句话记住:Harness Engineering = 让Agent评估可重复、可自动化、可回归
43. AI PM 五维能力模型与能力跃迁路径【R37/R39 新增 — P1】
来源:大模型面试复习第37轮 / 第39轮 — 2026年AI PM岗位核心能力框架
解析:
- AI PM 五大新增能力(区别于传统PM):
- 技术理解:能判断RAG vs 微调 vs 长上下文适用场景
- 不确定性管理:定义AI输出”够好”的阈值(四层评估体系)
- 成本意识:Token成本 + GPU成本 + 延迟成本三维管控
- 安全对齐:Prompt注入/越狱/幻觉/偏见防御体系
- 迭代节奏:Prompt日更 vs 模型月更的双速管理
- 能力跃迁三步路径:
- Step 1(0-3月):补技术认知——玩转Coze/Dify,理解Prompt/知识库/Agent基本概念,做一个可运行Demo
- Step 2(3-6月):做真实项目——负责一个端到端AI功能,搭建该功能的Eval体系,量化该功能的业务价值
- Step 3(6-12月):建立方法论——总结一套可复用的AI产品决策框架,在团队内部分享,成为”懂业务+懂AI”的桥梁人物
- 面试金句:“传统PM管理确定性功能,AI PM管理概率性能力。前者关心’做没做对’,后者关心’好到什么程度才够’。”
应用场景:
- 面试”传统PM和AI PM最大差异是什么”
- 自我介绍时展示AI PM能力模型
- 回答”你的AI产品方法论是什么”
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:70%(2026年AI PM岗位必问题)
- 能讲清五维能力模型 = 面试官确认你有AI PM self-awareness
- 一句话记住:AI PM = 技术理解 × 不确定性管理 × 成本意识 × 安全对齐 × 双速迭代
44. AI 产品用户研究深度方法论【R39 新增 — P1】
来源:大模型面试复习第39轮 — 2026年”会调API就能做AI产品”的红利消失,用户研究能力成为分水岭
解析:
-
需求验证”三问法”(立项前必做):
- Q1:这个问题不用AI能解决吗?
- Q2:用AI解决比传统方案好多少?(提升<30%慎重,>50%值得投入)
- Q3:这个优势能持续多久?
-
用户访谈新范式:AI超级研究员:
- 传统:50场访谈 → 人工整理 → 2周出结论
- 2026新范式:AI并行处理1000+访谈 → 自动聚类 → 24小时出洞察
- 工具链:Otter.ai转录 → AI摘要 → 主题聚类 → 情感分析
- 陷阱:AI摘要会丢失”用户犹豫的停顿”这类非语言信号,关键决策必须回听原音频
-
MVP验证三阶段(最小可行AI原则):
阶段 周期 核心指标 决策门 MVP1 1-2周 使用率 > 20% 需求是否存在 MVP2 2-4周 满意度 > 4.0 体验是否可行 MVP3 4-8周 留存提升 > 10% 商业价值是否验证 -
效果评估五维指标体系(AI产品特有):
- L1 准确性:人工抽检通过率 > 85%
- L2 响应速度:P95延迟 < 2秒
- L3 用户满意度:NPS/五星评分 > 4.2
- L4 业务价值:功能使用率 > 30%,留存提升 +10%
- L5 成本效率:单次调用成本持续下降
应用场景:
- 面试回答”你怎么验证AI功能的需求”
- 和算法团队沟通时展示对用户的真实理解
- 避免”自嗨式AI功能开发”
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:40%(2026年上升趋势)
- 能讲清”AI用户研究 ≠ 传统用户研究” = 展示深度认知
- 一句话记住:AI用户不知道自己想要什么,因为AI能力本身是未知的——给Demo看反应,而不是问他们想要什么
45. Multi-Agent 2026 最新范式:OpenAI Handoff vs LangGraph vs CrewAI + A2A协议【R39 新增 — P1】
来源:大模型面试复习第39轮 — 2026年单体Agent复杂任务完成率仅35%,Multi-Agent系统可达85%+。相同LLM搭配不同协作架构,任务完成率最高相差14个百分点。
解析:
-
三大主流架构全景对比:
维度 OpenAI Handoff LangGraph 状态图 CrewAI 角色协作 设计思想 任务移交机制,线性流转 状态图建模,图论编排 角色分工,模拟人类团队 任务完成率 88% 92%(最高) 78% 响应速度 12.3s(最快) 15.7s 18.2s 代码复杂度 低(3个核心概念) 中 低 调试难度 中 低(状态可视化) 中 灵活性 低(线性,无动态分支) 高(任意复杂流程) 中(固定角色分工) 适用场景 快速原型、简单流程、权限控制严格 企业级生产、复杂分支、需审计 角色清晰、可并行子任务 -
架构选型决策矩阵:
场景判断三检查点: ✅ 任务是否可分解为多个子任务? → 否 → 不用Multi-Agent ✅ 子任务之间是否需要不同专业能力? → 否 → 单Agent+工具调用 ✅ 子任务之间是否存在协作增值? → 否 → 并行单Agent → 三个都✅ → 值得上Multi-Agent -
2026年新增范式:A2A协议(Agent-to-Agent):
- Google于2025年推出,2026年成为跨框架Agent通信标准
- 核心:Agent之间用标准化JSON Schema交换任务状态,不再依赖特定框架
- 实战意义:LangGraph编排的Agent可以和CrewAI编排的Agent协作
-
成本控制的五件套(Multi-Agent特有):
- 早期终止:低置信度结果立即返回,不继续传递
- 模型分层:简单子任务用小模型(GPT-4o-mini / Claude Haiku)
- 结果缓存:相同子任务结果直接复用
- 并行执行:无依赖子任务全部并行
- 超时熔断:单个Agent超时自动降级到规则方案
应用场景:
- 面试追问”为什么选LangGraph而不是CrewAI/OpenAI Handoff”
- TechKids自动辅导的多Agent协作架构升级
- 回答”Multi-Agent的Token成本怎么控制”
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:50%(2026年Multi-Agent生产落地必经之问)
- 能讲清三大架构对比 + A2A协议 = 展示2026年最新视野
- 一句话记住:LangGraph任务完成率最高(92%),OpenAI Handoff速度最快(12.3s),选哪个看你的优先级
46. SSM / Mamba 架构 vs Transformer 深度对比【R40 新增 — P1】
来源:大模型面试复习第40轮 — SSM(状态空间模型)成为Transformer最有力的替代方案,2026年面试新热点
解析:
-
Transformer的隐忧:自注意力 = O(n²) 复杂度,长序列计算量爆炸。2026年,上下文窗口从128K卷到1M,Transformer成本压力越来越大。
-
SSM(State Space Model)本质:将序列建模视为连续时间动态系统。输入 x(t) → 隐藏状态 h(t) → 输出 y(t)。核心方程:h’(t) = A·h(t) + B·x(t), y(t) = C·h(t)
-
Mamba的创新(2023年提出,2026年已成为Transformer最有力的替代方案):
- 选择性SSM:A、B、C矩阵不再固定,而是根据输入动态生成。类比:Transformer的Attention是”选择关注哪些token”,Mamba的选择机制是”选择忽略哪些信息”
- 硬件感知算法:用Scan替代卷积,GPU内存访问模式更友好
- 简化架构:无注意力层、无MLP块,纯SSM堆叠
-
Mamba vs Transformer 核心对比:
维度 Transformer Mamba 计算复杂度 O(n²) O(n) 线性 长序列效率 随长度平方增长 随长度线性增长 推理速度(128K) 需KV Cache,内存O(n) 状态固定大小O(1),无KV Cache 并行训练 天然并行(Self-Attention) 需Scan并行化(效率略低) 上下文记忆 显式(Attention直接访问所有token) 隐式(压缩到固定大小状态) 当前霸主场景 通用对话/代码/推理 长序列/基因组/音频(百万token级) -
Mamba-2(2024年)核心升级:发现SSM与线性注意力(Linear Attention)的数学等价性,引入结构化掩码注意力(SMA),训练速度比Mamba-1提升2-8倍,接近Transformer水平。
-
面试金句:
Transformer的优势是显式记忆——Attention直接访问所有历史token, Mamba的优势是线性复杂度——O(n)而不是O(n²)。 在128K以内的上下文场景,Transformer仍是王者; 在百万token级(基因组/长视频/代码库),Mamba类架构将逐步替代Transformer。
应用场景:
- 面试”Transformer会被Mamba/SSM取代吗”
- 长序列场景(基因组/长视频理解)的模型选型
- 展示对2026年最新模型架构的认知
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:25%(新概念,但问到了就是深度区分题)
- 建议:先吃透P0 Transformer相关,有余力再看Mamba。两者联动记忆效率最高
- 一句话记住:Transformer在128K以内仍是王者;在百万token级,Mamba类架构是唯一解
47. 端侧 AI 部署全流程:模型选型 + 量化 + 推理引擎【R40 新增 — P1】
来源:大模型面试复习第40轮 — 端侧AI成为2026年产品核心竞争力,Apple/Google均在推本地LLM
解析:
-
背景:2025-2026年端侧芯片算力跃升(骁龙8 Elite NPU 40 TOPS、A18 Pro Neural Engine 38 TOPS),让端侧运行小模型从”可以”变成”好用”。
-
端侧AI三步走策略:
Step 1:选模型
- 通用能力:Gemma-3 1B / Llama-3.2 1B-Q4 (~700MB,延迟<500ms)
- 专用能力:Phi-4-mini 3.8B-Q4 (~2GB,推理能力强)
- 中国方案:Qwen2.5-1.5B-Instruct-Q4 (~900MB)
Step 2:量化压缩
- INT4量化:模型体积缩小75%,精度损失<2%
- 典型路径:FP16 → AWQ/GPTQ → INT4 ≈ 1-2GB
- 关键:校准数据质量决定最终精度,需300-500条真实场景数据
Step 3:推理引擎
- iOS:MLX / Core ML / llama.cpp (Metal加速)
- Android:MediaPipe / MLC-LLM / llama.cpp (OpenCL加速)
- 跨平台:ONNX Runtime + 自定义NPU后端
-
端侧 vs 云端的决策矩阵:
上端侧部署的场景(四个"是"至少满足三个): ✅ 对延迟极敏感(< 500ms,如实时朗读评分) ✅ 涉隐私数据(本地聊天记录/文档摘要) ✅ 有离线场景需求(通勤/飞行模式) ✅ 推理任务固定可预测(摘要/分类/纠错,而非开放对话) → 满足条件 → 端侧部署 上云端部署的场景: ✅ 需要强推理能力(复杂多步推理/代码生成) ✅ 需要实时知识更新(联网搜索) ✅ 预算允许且延迟容忍(> 2秒) ✅ 用户无隐私顾虑 → 满足条件 → 云端部署 -
DailySpeak端侧AI案例速查:
DailySpeak的AI摘要功能选择端侧的三层理由: 1. 场景:通勤/离线场景占比45%,没有网络AI功能就废了 2. 隐私:用户阅读的文档内容属于高敏数据,不能上传云端 3. 成本:日活跃10万用户×每人3次摘要×云端API=月成本$2万+,端侧=月成本$0 技术选型:Qwen2.5-1.5B INT4量化,模型大小1.8GB,iPhone 15+上延迟320ms
应用场景:
- DailySpeak端侧离线AI摘要功能设计
- 面试回答”端侧AI和云端AI怎么选”
- 展示对AI产品部署的全链路认知
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:30%(2026年端侧AI成为新方向)
- 知道三步走 + 决策矩阵即可,PM不需要深入量化算法细节
- 一句话记住:端侧AI = 模型选型(小) + 量化压缩(狠) + 推理引擎(对)
48. 大模型幻觉检测方法2026前沿【R40 新增 — P1】
来源:大模型面试复习第40轮 — 幻觉检测从”RAG兜底”升级为”多层主动检测”,2026年成为企业级AI必考题
解析:
-
幻觉分类:
- 事实性幻觉(Factual):编造不存在的数据/事件/人物
- 忠实性幻觉(Faithfulness):输出偏离用户指令或上下文
- 逻辑性幻觉(Logical):推理链中存在逻辑跳跃或错误
-
2026年五大检测方法:
① SelfCheckGPT(自检法)
- 原理:同一模型生成多个回答,计算一致性。如果模型多次回答不一致 → 高概率是幻觉
- 适合:开放域对话的实时检测
- 成本:需要多次生成,Token消耗×3-5
② NLI-based(自然语言推理法)
- 原理:用专门的NLI模型判断”前提(上下文)是否蕴含假设(生成内容)”
- 如果NLI模型判定”不蕴含”或”矛盾” → 幻觉
- 适合:RAG场景的生成内容校验
③ LLM-as-Judge(更大模型裁判法)
- 原理:用GPT-4o/Claude Sonnet做二次校验
- 优点:准确率最高(92%);缺点:慢、贵
- 适合:安全关键场景(医疗/法律/金融)
④ 检索验证法(RAG中的事实核查)
- 原理:生成内容的每个factual claim反查检索库
- 查不到 → 标记为不可验证 → 降级处理或拒答
- 适合:企业知识库QA
⑤ 内部状态探针法(2026前沿)
- 原理:训练线性分类器探测模型隐层状态的”置信度”
- 不需要生成多个回答,直接看隐层 → 判断是否在编造
- 适合:低延迟场景的实时监控
-
面试金句:“幻觉治理不是某一个技术的单点突破,而是一个系统工程。输入端用知识库约束检索范围,生成端用LLM-as-Judge做二次校验,输出端用规则引擎做兜底。三层防护下来,关键场景的幻觉率可以从15%降到2%以下。”
应用场景:
- DailySpeak/TechKids/RealBot的幻觉防控体系设计
- 面试回答”你怎么保证AI输出不出错”
- 企业级AI功能的安全基线建设
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:60%(企业级AI岗位必问)
- 能讲清五大方法 + 适用场景 = 展示工程化落地能力
- 一句话记住:SelfCheckGPT自检 + NLI推理校验 + LLM裁判 + 检索验证 + 内部探针 = 五层幻觉防御
49. 考前一页纸速查清单与2026十大高频考点【R38 新增 — P1】
来源:大模型面试复习第38轮 — 2026年5月最新面试趋势,Anthropic/OpenAI/Google真实面试题 + 字节四面面经 + 530+高频题库综合
解析:
- 一页纸速查清单(打印/截图随时翻):
- 技术概念速记表:MoE/RAG/RLHF/DPO/KV Cache/Flash Attention/量化/Speculative Decoding/Prompt Caching/GraphRAG/Agentic RAG/MCP协议/SAE/DSPy——14个核心概念一句话解释
- 三条产品线核心叙事:RealBot(10万DAU/多模型路由) + TechKids(NPS65/小智Bot) + DailySpeak(50万月活/80%端侧)——一个故事讲完三条线
- 决策框架速查:RAG vs 微调 vs 长上下文 / MoE vs Dense / 大模型 vs 小模型 / 端侧 vs 云端 / Prompt vs 微调 / 单Agent vs Multi-Agent——6大决策框架
- 数字记忆卡片(面试中脱口而出的量化数据):DeepSeek-V3(671B参数/256专家) / GPT-4o(128K/$5/1M) / Claude 3.5(200K/Prompt Caching省90%)——脱口而出的关键数字
- 2026十大高频考点自测:
- Agent架构设计(ReAct vs Function Calling / MCP协议 / Agent漂移检测 / 多Agent工具治理)
- RAG全链路(最难环节排序 / 混合检索RRF融合 / GraphRAG vs 传统RAG / RAG召回率低排查)
- 模型选型与成本优化(选型决策树 / 模型网关四层设计)
- AI安全与对齐(Prompt注入三层防御 / 过度信任三个信号 / EU AI Act 2026.08.02)
- Context Engineering(Prompt Eng → Context Eng认知升级 / 实战四层上下文管理)
- AI编程与Vibe Coding(Claude Code不用RAG的原因 / Vibe Coding对PM的影响)
- 微调技术选型(SFT/RLHF/DPO关系链 / 微调必要性三问)
- Agent记忆系统(CoALA四层记忆模型 / Mem0/Zep/Letta选型三问)
- AI产品评估体系(L1-L4渐进 / LLM-as-Judge五大陷阱)
- 推理引擎与部署(vLLM/SGLang/TensorRT-LLM/llama.cpp四选一 / 高可用五件套)
应用场景:
- 考前2小时快速过一遍,进入面试状态
- 面试等待区/洗手间快速复习
- 回答”你是怎么准备AI PM面试的”
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:90%(这就是2026年真实考点集合)
- 能背下这页纸 = 面试覆盖率90%+
- 一句话记住:一页纸 = 14个概念 + 6个决策框架 + 10大高频考点 = 考前最强武器
50. 量化与蒸馏(INT8/INT4)
解析:
- 量化:将模型权重从FP16/FP32压缩到INT8/INT4。速度提升2-4x,显存降50%+。代价:轻微精度损失(约1-3%)。
- 【Day 6增强】精度损失的三个来源(面试官高频追问):
- 截断误差:高精度→低比特映射时信息丢失。解决方案→GPTQ(二阶梯度补偿)、AWQ(激活敏感度加权)
- 粒度粗糙:量化步长过大,相近值映射到同一量化值。解决方案→混合精度(关键层FP16,其余INT4)
- 离群值问题:少数极大权重拉大量化范围,压缩其他正常值的精度。解决方案→SmoothQuant(将离群值从W平滑迁移到X激活上,因为X逐层可调)
- 蒸馏:用大模型(Teacher)教小模型(Student)。小模型接近大模型效果但推理成本低。
- 产品价值:移动端部署的必备技术。INT4量化后7B模型可在手机上运行。
应用场景:
- 理解RealBot/DailySpeak的移动端部署可行性
- 面试:回答”你怎么降低AI功能的推理成本”
- 与算法团队沟通时能对上话
学习投入产出比:⭐⭐⭐(0.5天)
- 面试命中率:10%
- 知道概念+能讲对产品的影响即可
51. Plan-and-Execute vs ReAct vs Reflexion 三大Agent推理范式【2026.06新增 — P1】
来源:2026年6月AI Agent全栈面试宝典(1天前) / AgentInTech(6天前) — 2026年面试新增Plan-and-Execute范式考点
解析:
-
ReAct(推理+行动循环):Thought→Action→Observation循环。步进式推理,每步基于上一步观察调整。适合即时响应场景(搜索/查库/简单工具调用)。局限:无全局规划,长任务中容易目标漂移。
-
Plan-and-Execute(先规划后执行):三层角色分工——Planner(全局任务分解)→ Executor(逐子任务执行,通常用ReAct)→ Replanner(动态重规划,发现偏差调整策略)。适合复杂多步骤目标(步骤>10),长任务成功率更高。核心创新:动态重规划(Dynamic Replanning)允许Agent在中间结果不理想时”转向”,而非盲目执行过时计划。
-
Reflexion(执行+反思循环):在ReAct基础上增加自我评估环节。每次执行后LLM自我审查”做得对吗?哪里可以改进?“,将反思结果存入长期记忆指导后续行动。适合需要持续改进的任务(代码调试/策略优化)。三大范式由简到繁:ReAct(基础循环)→ Plan-Execute(全局规划)→ Reflexion(自我改进)。
-
选型实战:
- 简单单步任务 → ReAct(低延迟,直接循环)
- 复杂多步骤任务(>10步) → Plan-and-Execute(规划与执行解耦,长期任务成功率更高)
- 需要自我改进的任务 → Reflexion(反思存储→后续行动受益)
- 2026最佳实践:Plan-and-Execute的Executor层常用ReAct实现,“Plan→ReAct→Reflect”三层协作形成完整Agent推理栈
-
面试追问”Plan-Execute与ReAct的核心差异”:
- ReAct:边想边做,每步基于上一步观察。无全局视野,可能局部最优
- Plan-Execute:先想清楚再动手,分工明确(规划者/执行者/重规划者),长期策略更稳定
- 金句:“ReAct是走一步看一步的战术思维,Plan-Execute是先画地图再行军的战略思维”
应用场景:
- TechKids自动辅导:Plan-Execute分解”查漏补缺→推荐练习→评估结果”三步,Replanner根据学生答题情况动态调整
- 面试”你的Agent用了什么推理范式,为什么”
- 展示对2026年最新Agent架构范式的认知
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:50%(2026年6月新考点,上升趋势明显)
- 能讲清三大范式的差异+选型逻辑 = 展示Agent架构深度
- 一句话记住:ReAct边想边做,Plan-Execute先规划后执行,Reflexion做完了还要反思
52. Prompt Injection 2026 10层纵深防御体系【2026.06新增 — P1】
来源:LushBinary 2026生产级安全指南(5月) / OpenAI 2026.04官方防御指南 / CSDN 6月面试宝典 — Prompt注入攻击2026年激增340%,Gemini CLI曝出CVSS-10级漏洞
解析:
-
2026年Prompt注入现状:73%的生产Agent部署存在注入漏洞。间接注入(通过网页/文档/代码注释/API响应注入)已成为主要威胁——数据通过合法渠道进入,更难检测。Gemini CLI因npm依赖链代码注释注入被评定为CVSS-10最高危级别。
-
OpenAI 2026年4月官方立场转变:首次明确承认提示注入无法仅在模型层面完全解决,应用层防御从”可选”变为”必需”。
-
10层纵深防御体系(Defense-in-Depth,各层独立运作):
- 输入验证:剥离已知注入模式(“ignore previous instructions”等),强制长度限制。对所有来源(用户/工具输出/文件/外部数据)统一验证。
- 输出过滤:工具白名单+参数Schema验证+路径安全(防目录穿越)。Agent输出在执行前需过三道检查。
- 权限分离:每个Agent仅获最低所需权限。研究Agent不授予文件写权限,编码Agent不授予生产数据库访问权限。
- 沙箱隔离:Docker容器运行Agent,无网络+只读文件系统+内存/CPU限制。即使注入成功,爆炸半径可控。
- 内容边界标记:系统提示中用显式分隔符区分”可信指令”和”不可信数据”(
---BEGIN UNTRUSTED DATA---)。 - 指令层级:系统提示 > 应用逻辑 > 用户输入 > 外部数据。GPT-5.5/Claude Opus 4.7已支持API参数显式层级。
- 金丝雀令牌(Canary Tokens):嵌入唯一随机令牌到系统提示→每次响应检查是否泄露→泄露=注入成功。独立于注入手法的检测机制。
- 速率限制:每会话+每分钟双重限制。正常5-10次工具调用→突然50次=注入告警。
- 异常检测:建立Agent行为基线→ML分类器检测偏离→标记可疑行为。
- 人机协同(终极后盾):数据库写入/文件删除/外部请求/凭证访问→必须人类审批才能执行。
-
核心哲学:“没有单一层能提供完整保护。目标是让攻击者需要同时绕过多个独立防御,难度指数级增长。”
应用场景:
- RealBot/DailySpeak/TechKids的Agent安全基线设计
- 面试”你的Agent怎么防Prompt注入”→展示纵深防御思维
- 企业级Agent安全合规审查
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:50%(2026年安全类追问激增)
- 能讲清”至少5层防御+为什么模型层面不够” = 展示安全工程思维
- 一句话记住:Prompt注入防御不能只靠模型,需要从输入到人机协同的10层纵深防线
53. 2026年6月大模型军备竞赛与Agent影响【2026.06新增 — P1】
来源:IT168(5月26日) / AI Changelog(5月27日) — GPT-5.6后端日志泄露,6月多家模型密集发布
解析:
-
GPT-5.6(代号iris-alpha):OpenAI Codex后端日志发现。上下文窗口150万tokens(较GPT-5.5提升43%),在输入90万token时仍流畅响应,接近商用级前端界面生成能力。预计2026年6月发布。
-
Claude Sonnet 4.8:Anthropic计划6月发布。
-
Gemini 3.5 Pro:Google计划6月发布。
-
Grok 5:xAI(马斯克)计划6月发布。
-
上下文窗口军备竞赛:从百万级向更高级别迈进。150万token意味着Agent可一次性加载数千页文档或完整代码仓库。
-
对Agent开发的三层影响:
- 更长任务记忆:150万token窗口→Agent多步执行几乎不会丢失上下文,减少压缩/摘要需求
- 更强代码/UI生成:GPT-5.6接近商用级前端生成→Agent驱动的应用构建能力质变
- 多模型组合使用:不同模型特性可被组合(GPT-5.6做长上下文推理+Claude做代码+Gemini做多模态),Agent可灵活路由
-
面试价值:展示对行业最新动态的跟踪能力,“6月四家公司同时发布新模型,这意味着什么”——体现行业格局意识。应与#10(大厂差异化策略)联动。
应用场景:
- 面试”你怎么看2026年大模型竞争格局”
- 模型选型判断的新变量(150万token窗口改变了什么)
- Agent上下文管理策略可能因窗口扩大而调整
学习投入产出比:⭐⭐(0.3天)
- 面试命中率:30%(但时效性极强,6月面试大概率被问)
- 知道关键数字(150万/43%/四家同时发布)+能讲对Agent的影响即可
- 一句话记住:2026年6月=AI模型史上最密集发布月,150万token窗口让Agent”记忆力”质变
54. SITS2026 Agent可观测性标准:语义层追踪【2026.06新增 — P1】
来源:SpoTech(5月19日) — SITS2026标准提案将Agent监控从”请求-响应”粒度提升至”意图-推理-行动”语义层级
解析:
-
传统APM的三大失明:Trace ID无法穿透LLM黑盒、日志只记录系统事件不记录语义、无法还原Agent的多跳推理因果链。传统监控是Agent的”事后补丁”。
-
SITS2026三项核心机制(设计阶段内置可观测性):
- 嵌入式Trace ID双轨注入:
trace_id@intent(追踪完整意图处理路径)+trace_id@decision(追踪每次内部决策上下文)。在LLM调用前生成,随工具调用参数透传,解决”Trace ID穿不透LLM”的核心痛点。 - 意图日志Schema:从记录”函数调用”升级为记录”语义事件”——意图识别(user_query/parsed_intent/confidence)、工具选择(selected_tool/candidate_tools/selection_reason)。兼容OpenTelemetry LogRecord格式。
- 决策溯源图谱(DAG):将Agent的多跳推理结构化为有向无环图。节点=推理步骤(Intent→Reason→Action→Observation),边=因果关系。错误归因一目了然——是意图理解错了?工具选错了?还是执行错了?
- 嵌入式Trace ID双轨注入:
-
与现有工具链的关系:SITS2026不是替代品,而是语义层标准。底层用OpenTelemetry传播Trace,上层用LangSmith做评估可视化和调试。
-
面试价值:区别于”埋点+看板”的传统监控回答,SITS2026展示的是”Agent原生可观测性”的前沿认知。和P1 #22(Agent评估体系)、P1 #32(运营监控体系)联动记忆。
应用场景:
- RealBot/DailySpeak/TechKids的Agent监控体系升级
- 面试”你怎么监控Agent的运行状态”→展示语义层追踪概念
- Agent故障定位(是意图理解错还是工具调用错)
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:15%(新标准,但大厂命中率正在上升)
- 知道三项核心机制名称+一句话讲清与传统监控的区别即可
- 一句话记住:传统监控看”请求有没有成功”,SITS2026看”Agent每一步在想什么、为什么选这个工具”
55. Claude Code 6层渐进式上下文压缩架构【2026.06新增 — P1】
来源:panzhixiang.cn Claude Code源码分析(4月) / Kamacoder 6月面经 — 2026年Agent上下文管理的工业级最佳实践
解析:
-
核心设计哲学:“用最小的代价,尽可能晚地动用最重的手段。“不是在上下文满了才被动处理,而是从第一个工具结果产生时就精打细算。Prompt Cache稳定性是所有设计的隐藏约束。
-
6层架构(按成本/破坏性递增):
- 工具自截断:每个工具返回时自动截断(Bash:30K、FileRead:25K+256KB、Grep:250条目+20K)。零成本,最低破坏性。
- 大结果落盘:结果>50K字符→存磁盘,模型只看到路径+2KB预览。需要时再用FileRead读取。
- 防并行暴击:限制单条消息内所有工具结果总计<200K字符。超限按大小降序落盘。核心创新——ContentReplacementState冻结决策(每个结果只评估一次,保证Prompt Cache稳定性)。
- 微压缩:清理已无用的旧工具结果。时间触发(离开60分钟后清旧结果)+缓存编辑(API层编辑不破坏本地消息)+保守选择(只清理可重新获取的结果)。
- 结构化剪裁:Snip整组删除旧消息 + Context Collapse投影折叠视图(当前为stub,不生效)。
- 全量摘要:调用AI压缩整个对话历史为9段结构化摘要(请求意图/技术概念/文件代码/错误修复/解决过程/所有用户消息/待办任务/当前工作/下一步建议)。触发阈值=effectiveContextWindow-13K。摘要后恢复最近5文件+技能定义+session hooks。
-
与常规上下文管理的本质区别:
- 不是”被动应对”,而是”主动渐进”——从L1就开始精打细算
- Prompt Cache稳定性作为核心设计约束(L3的冻结决策为此设计)
- 零成本优先原则(先试时间触发微压缩→Session Memory Compact→最后才全量API摘要)
- 善后恢复机制(压缩后重新注入文件/技能/hooks)
应用场景:
- 面试”你的Agent怎么做上下文管理”→不只说滑动窗口,能展开6层架构
- 理解Claude Code为什么能在200K窗口内保持长对话质量
- 为RealBot/TechKids的上下文管理提供工程参考
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:20%(但大厂Agent工程岗命中率更高,展示工程深度)
- 能讲清”6层分别做什么+Prompt Cache是隐藏约束”即可
- 一句话记住:Claude Code不是在上下文满了才想办法,而是从第一个工具结果就在精打细算
56. CRDT多Agent记忆冲突解决 + 分布式Agent状态同步【2026.06新增 — P1】
来源:CSDN 2026年6月Agent全栈面试宝典(1天前) — 分布式Agent场景的记忆与状态同步成为2026年工程落地核心考点
解析:
-
CRDT(无冲突复制数据类型)解决共享记忆并发冲突:
- 问题:多Agent共享记忆时,两个Agent同时更新同一条信息→传统Last Write Wins可能导致数据不一致
- CRDT方案:数学上保证最终一致性,无需中央协调器。每个Agent本地更新→自动合并→无冲突
- 与现有方案对比:现有#24的”时效性优先/显式覆盖”解决的是单用户记忆冲突;CRDT解决的是多Agent并发写入同一记忆的冲突
- 适用场景:多个Agent并行处理同一用户请求,各自产生记忆写入→需要无冲突合并
-
分布式Agent WebSocket状态同步(Redis Pub/Sub):
- 问题:用户可能在手机和PC两端同时与Agent交互→两端Agent状态需实时同步
- 方案:Redis Pub/Sub消息总线→Agent实例A状态变更→发布事件→Agent实例B订阅同步→断线恢复用Checkpoint续传
- 架构:WebSocket连接层→Redis消息总线→Agent实例池→共享记忆存储
- 关键点:幂等性保证(重复消息不导致状态错乱)、Checkpoint断点续传(网络断开后恢复上下文)
-
面试价值:将记忆管理讨论从”单Agent单用户”提升到”多Agent分布式”维度,体现大规模系统设计能力。与#24(记忆管理深度)、#7(Agent架构分层)联动。
应用场景:
- RealBot多端(PC+手机)同时交互时的状态同步
- 面试追问”多个Agent共享记忆怎么处理冲突”
- 分布式Agent系统的架构设计题
学习投入产出比:⭐⭐(0.5天)
- 面试命中率:15%(偏工程深度,但大厂AgentInfra岗命中率更高)
- 能讲清CRDT解决什么问题+Redis Pub/Sub同步架构即可
- 一句话记住:CRDT让多Agent并发写记忆不出冲突,Redis Pub/Sub让多端Agent状态实时同步
🟢 P2 — 学习投入产出比中等(储备知识 + 实战时再深挖)
特点:少数岗位会问,日常用得少,有概念即可。
51. KV Cache 与 Flash Attention
解析:
- KV Cache:推理时缓存已生成token的Key/Value矩阵,避免重复计算。直接决定推理速度和显存占用。
- Flash Attention:优化注意力计算的内存访问模式(分块+重计算),显著加速推理并减少显存。
- 【Day 6增强】Flash Attention v1/v2/v3对比(面试官追问→区分理解深度的关键):
- v1:Tiling + Online Softmax + Recomputation = 解决HBM IO瓶颈。局限:不支持Head Dim > 128
- v2:共享遍历Q/K/V(减少遍历次数)= 额外加速20-40%。主流框架(PyTorch 2.x/HuggingFace)默认支持
- v3/FlashDecoding:针对Decode阶段优化变体,解决FA原始实现Prefill友好但Decode阶段并行度不足的问题。适合长序列Decode场景
- 面试金句:Flash Attention的本质是IO优化而非算法改变——它把O(n²)的HBM访问降到O(n),利用的是SRAM和HBM之间100x以上的带宽差距
- 产品价值:Flash Attention让长上下文推理成为可能,KV Cache优化降低推理成本。
应用场景:
- 理解为什么DeepSeek 64K/128K能跑动
- 面试加分项:提到Flash Attention让长上下文推理成本下降
学习投入产出比:⭐⭐⭐(0.5天)
- 面试命中率:5%
- AI PM岗位一般不要求,但能提到说明你对推理优化有认知
52. 埋点与数据看板设计
解析:
- 事件命名规范、属性定义、触发时机
- 漏斗路径设计
- 看板工具(Looker Studio/Metabase/Tableau)
- 好埋点的标准:谁+在什么时机+做了什么+结果如何
应用场景:
- RealBot从”下载→注册→首次对话→留存→订阅”全流程埋点
- DailySpeak阅读行为的漏斗分析
学习投入产出比:⭐⭐⭐(0.5天,面试前看看相关文章即可)
- 面试命中率:15%
- 有余力再看,简历中已有IAA经验的基础知识足够
53. React + Tailwind Demo 制作
解析:
- React(组件/状态/路由)
- Tailwind CSS实用样式
- Cursor+API快速搭建
- PM不需要成工程代码,能跑通Demo展示功能逻辑即可
应用场景:
- 面试展示可交互Demo(TechKids AI Lab/文档问答助手)
- 需求验证时快速出原型
学习投入产出比:⭐⭐⭐(4周课程计划中的最后阶段)
- 面试命中率:10%
- 学完P0+P1还有时间再排这个
54. AI Coding 工具链理解
解析:
- Cursor/Copilot用法
- AI Coding原理(补全/Agent模式)
- AI Coding边界:复杂重构/多文件联动仍需人工,Agent模式仍有30%+错误率
应用场景:
- 提升个人开发效率
- 和工程团队沟通时理解他们的工具链
- TechKids/DailySpeak代码迭代
学习投入产出比:⭐⭐⭐(日常积累即可)
- 面试命中率:10%
- 但不学的话面试官聊天时可能会显得脱节
- “日常使用Cursor+Claude”本身就是一个加分印象
55. 模型训练基础原理(了解级)
解析:
- 预训练:海量文本无监督学习→知识广度+语言能力
- 微调:任务数据有监督训练→特定任务适配度
- LoRA:低秩适配→消费级显卡微调7B模型,成本从百万降到千元级
- 量化:INT8/FP16→以少量精度换数倍推理速度,适合移动端部署
应用场景:
- 理解模型选型(通用vs领域)
- 和算法团队沟通微调方案
- 评估量化对产品体验的影响
学习投入产出比:⭐⭐⭐(0.5天,知道概念即可)
- 面试命中率:10%
- AI PM岗位不需要深入训练细节
56. 实时语音Agent设计【Day 6新增 — P2】
来源:JavaGuide 2026 AI应用开发指南 — 语音交互Agent成为2026新兴面试方向
解析:
- 场景:实时语音对话Agent(如智能客服语音版、语音助手),区别于文本Agent的增量复杂性。
- 核心组件:
- VAD(Voice Activity Detection):检测用户开始/停止说话,决定何时触发LLM响应
- ASR(自动语音识别):语音→文本,低延迟流式ASR是实时性关键
- LLM推理:文本→生成回答,需考虑打断机制(用户中途插话)
- TTS(文本转语音):回答→语音输出,流式合成降低等待感
- 关键技术挑战:
- 打断机制:用户说话时正在生成的回答需中断→状态机管理(Idle→Listening→Thinking→Speaking→打断→Listening循环)
- 低延迟:端到端目标<500ms TED(Turn Endpoint Delay),需要VAD+流式ASR+流式TTS协同优化
- 噪声环境:VAD的误触发率控制,需语音活动检测+静音检测双重机制
- 协议选型:WebSocket(低延迟双向通信)+ WebRTC(音视频传输,对延迟要求更高的场景)
应用场景:
- DailySpeak语音阅读的交互式朗读(用户可随时打断调整)
- RealBot语音模式(2026年可能的产品拓展方向)
- 面试加分:能结合Voice Agent设计展现对”多模态交互”的理解
学习投入产出比:⭐⭐⭐(0.5天)
- 面试命中率:5%(新方向,部分AI Native公司已开始问)
- 知道概念+核心挑战即可,PM不需要深入VAD/ASR/LLM/TTS的底层实现
57. AI编程工具面试应对(Claude Code / Vibe Coding / AI时代工程师价值)【Day 6新增 — P2】
来源:代码随想录2026面经 — 面试官关注”你怎么用AI+你比AI强在哪”
解析:
- 2026面试新倾向:面试官不仅问”你用AI编程吗”,更追问”你如何将AI融入工作流”和”你的不可替代性在哪”。
- 关键概念:
- Claude Code / Cursor Agent模式:不只是代码补全,而是能自主实现功能的Agent模式。面试官想听你具体怎么用(如”让Claude Code写单元测试框架,我审查逻辑正确性”)
- Vibe Coding(警惕标签):完全依赖AI写代码=AI能做的你都能做→面试官会质疑你能贡献什么。面试中要主动撇清,展示你对代码的审查和判断能力。
- AI时代工程师/PM核心价值:不是写代码/写Prompt,而是系统架构决策+业务理解+质量把关+权衡判断。
- 面试答题框架:
- 面试官问”你依赖AI那你的价值在哪”→
- 承认AI大幅提升效率(日常编码效率↑50%+)
- 但AI有系统性弱点(复杂多文件重构/架构选型/业务上下文理解/一致性约束)
- 人的价值在于:知道什么时候信任AI、什么时候审查、什么时候重写
- 举例:具体某次AI生成的代码帮你发现了什么,或你纠正了什么
- 面试官问”你依赖AI那你的价值在哪”→
应用场景:
- RealBot/DailySpeak/TechKids的实际开发中Cursor/Claude Code的使用经验
- 面试追问”你怎么用AI的”→准备好2-3个具体case
- 展现”AI时代PM”的自我定位
学习投入产出比:⭐⭐⭐(日常积累,无需专门学习)
- 面试命中率:15%(但大厂面试中命中率正在快速上升)
- 这不是知识点,而是”面试话术”——准备好了就是加分印象
- 一句话记住:不要只展示”用AI”要展示”管AI”
58. Reflexion 自反思Agent范式【2026.06新增 — P2】
来源:掘金 2026 Agent三大范式对比(3月) / 2026年6月全栈面试宝典 — 在ReAct和Plan-Execute基础上增加自我反思循环
解析:
- 核心机制:ReAct执行后增加反思评估环节。LLM自我审查”做得对吗?哪里可以改进?“→反思结果存入长期记忆→指导后续行动。
- 三大范式层级:
- ReAct:基础推理循环(想→做→看),无自我改进能力
- Plan-and-Execute:增加全局规划(规划→执行→重规划),策略层面更优
- Reflexion:增加自我反思(执行→评估→记忆存储),持续自我改进
- 关键创新:反思不是一次性的——每次反思都存入长期记忆,后续任务能”记住上次哪里做错了”,表现持续提升。适合代码调试、策略优化等需要迭代改进的场景。
- 面试考点:面试官可能问”ReAct有什么局限,怎么改进”→引出Reflexion作为进阶方案。
应用场景:
- TechKids自动辅导的自我优化(反思哪些题型学生容易错→调整辅导策略)
- Agent代码调试(生成代码→执行→反思错误→重新生成→收敛)
- 展示对Agent范式演进的全局理解
学习投入产出比:⭐⭐⭐(0.3天)
- 面试命中率:10%(新概念,但能讲出来就是区分度)
- 知道Reflexion=ReAct+自我反思循环即可
- 一句话记住:ReAct会做,Plan-Execute会规划,Reflexion会从错误中学习
59. 轻量Agent框架设计原则(反LangChain)【2026.06新增 — P2】
来源:CSDN 2026年6月Agent全栈面试宝典(1天前) — LangChain过度抽象的工程反思催生了轻量框架运动
解析:
-
LangChain的核心问题(面试中展示批判性思维):
- 过度抽象:层层封装导致”一行代码背后发生十件事”——调试困难
- 版本碎片化:LCEL/StringToJSON/旧版Agent三种API并存,迁移成本高
- 性能开销:不必要的序列化/反序列化,隐形token消耗
- 学习曲线:“用LangChain省下的时间,都花在学LangChain上了”
-
轻量Agent框架设计原则(2026年工程首选):
- 显式优于隐式:代码即流程,不用”魔法”抽象
- 最小抽象:只用必要的抽象层(LLM调用+工具定义+循环控制),其余用原生代码
- 自带可观测性:每个LLM调用/工具调用/状态变更都自动日志+Trace
- 纯异步+流式:AsyncIO + SSE流式输出,避免阻塞
-
手撕轻量框架的核心逻辑(200行级别):
# 核心循环 while not task_complete and step < max_steps: thought = llm.generate(system_prompt + messages) action = parse_action(thought) # 显式解析 observation = execute_tool(action) # 直接调用 messages.append(observation) step += 1对比LangChain的AgentExecutor——你需要理解AgentAction/AgentFinish/AgentStep等十几个内部类。
-
面试价值:被问”你用LangChain还是自研框架”时,能批判性地分析LangChain的工程问题+讲轻量框架设计原则=展示真正的工程判断力。
应用场景:
- 面试回答”你对LangChain怎么看”
- 快速原型开发时选择轻量方案的决策依据
- 展示”不盲从框架”的工程思维
学习投入产出比:⭐⭐⭐(0.3天)
- 面试命中率:15%(批判性框架讨论越来越常见)
- 知道LangChain三个核心问题+轻量框架四个原则即可
- 一句话记住:好的Agent框架应该让你每行代码都知道在做什么——显式优于隐式
📋 复习优先级总表
| 梯度 | 知识点 | 掌握程度 | 预计时间 | 面试命中率 |
|---|---|---|---|---|
| P0 | LLM基础(Token/窗口/幻觉/Temp/SP/Few-shot/FC) | 能讲+能举例 | 2天 | 95% |
| P0 | Prompt Engineering(角色/结构化/约束/反例/评测) | 能讲+能举例 | 2天 | 90% |
| P0 | AI Agent五大能力+本质辨析+无工具边界追问 | 能讲+能辨析Agent vs Bot | 2天 | 90% |
| P0 | RAG完整管道(含Rerank/K值/重叠/增量索引/稠密vs稀疏) | 能讲流程+能深入 | 2.5天 | 85% |
| P0 | Agent常见失败场景与解法 | 能讲3类案例 | 0.5天 | 85% |
| P0 | Agent架构分层设计(含规划执行分离追问) | 能画5层图+答追问 | 1天 | 80% |
| P0 | 项目亮点+技术难点(6点+动作化讲述) | 能逐点展开+讲决策 | 1天 | 100% |
| P0 | 幻觉防控工程方案(三层防线) | 能讲防线等级 | 0.5天 | 80% |
| P0 | 大厂差异化Agent策略(腾讯vs字节vs阿里) | 能讲格局+逻辑 | 0.5天 | 40% |
| P0 | AI PM面试核心转向:权衡判断(Trade-off Judgment) | 能掌握十大权衡框架 | 0.5天 | 90% |
| P0 | AI系统设计面试答题框架(4阶段+旧vs新对比+评判标准) | 能套框架练系统设计题 | 1天 | 80% |
| P0 | 项目亮点”动作化”讲述技巧 | 能讲决策过程+量化 | 0.5天 | 100% |
| P0 | 【Day 5新增】 全链路思维框架(Data→Train→Inference→Service→Loop) | 能展示端到端思维+排障 | 0.5天 | 60% |
| P1 | 上下文工程(2026新热点) | 能讲与PE的差异 | 0.5天 | ⬆️上升 |
| P1 | MCP与A2A协议(含MCP管理深度) | 能讲定义+产品影响 | 0.5天 | ⬆️上升 |
| P1 | Skills vs MCP辨析 | 能讲架构思辨 | 0.5天 | ⬆️上升 |
| P1 | 工具层工程实现+MCP Server治理(分类/元数据/检索/动态加载/权限/统计) | 能讲定义+流程+兜底+治理 | 0.5天 | ⬆️上升 |
| P1 | ReAct vs CoT vs ToT规划对比 | 能讲选型+实战效果 | 0.5天 | ⬆️上升 |
| P1 | Query改写(HyDE/Step-Back) | 能讲概念+效果 | 0.5天 | 30% |
| P1 | 增量索引策略 | 能讲方案对比 | 0.5天 | 25% |
| P1 | Multi-Agent协作模式 | 能讲3种模式 | 0.5天 | ⬆️上升 |
| P1 | Agent评估体系+生产级评测设计(Golden Set/LLM-as-Judge/Trace回放) | 能讲三层+指标+评测体系 | 0.5天 | ⬆️上升 |
| P1 | 多智能体框架(LangGraph/CrewAI/AutoGen/Dify) | 能对比框架+选型理由 | 0.5天 | ⬆️上升 |
| P1 | 记忆管理深度(4方案对比+冲突更新机制) | 能讲优劣+冲突处理 | 0.5天 | ⬆️上升 |
| P1 | SFT vs RLHF + RAG vs Fine-tune选型(含LoRA rank深度) | 能对比阐述+选型决策 | 0.5天 | 40% |
| P1 | MoE 架构 | 能讲核心优势 | 0.5天 | 30% |
| P1 | SSE/WebSocket/WebRTC协议选型 | 能讲选型原则 | 0.5天 | 25% |
| P1 | LLM网关治理(限流/熔断/路由/成本/Token成本归因) | 能讲治理四大块 | 0.5天 | 20% |
| P1 | SQL + 产品指标 | 能讲+能现场查 | 3天 | 50% |
| P1 | API/JSON/Postman | 能讲+能演示 | 1天 | 30% |
| P1 | IAA+订阅商业化 | 能讲策略+数据 | 1天 | 40% |
| P1 | 运营监控体系与成本优化 | 能讲三层优化逻辑 | 0.5天 | 20% |
| P1 | Function Call 底层真相与非执行机制 | 能讲LLM决策vs应用执行 | 0.5天 | 60% |
| P1 | Agent vs Workflow 混合架构设计 | 能讲混合选型+量化对比(4-8倍token) | 0.5天 | ⬆️上升 |
| P1 | 生产环境Agent五大陷阱 | 能讲3个踩坑案例 | 0.5天 | 70% |
| P1 | AI PM三层指标连接(Model-Product-Business) | 能讲因果链 | 0.5天 | 50% |
| P1 | RAG面试追问深度(文档感知切分/Lost in the Middle/混合检索决策) | 能讲优化方案+量化效果 | 0.5天 | 40% |
| P1 | 【Day 5新增】 BLEU/ROUGE局限 + LLM-as-Judge评估方法 | 能讲指标局限+现代方案 | 0.5天 | 30% |
| P1 | 【Day 5新增】 DPO vs RLHF详细对比 + PPO稳定性原理 | 能对比+理解PPO机制 | 0.5天 | 20% |
| P1 | 【Day 5新增】 GraphRAG概念与场景 | 了解概念+场景判断 | 0.5天 | 15% |
| P1 | 【Day 6新增】 采样参数工程调优(Temp/Top-P/Top-K三协同) | 能讲生产实践+面试追问 | 0.5天 | 40% |
| P1 | 【Day 6新增】 Harness Engineering(Agent测试评估框架基础设施) | 能讲工具链+评估流水线 | 0.5天 | 20% |
| P1 | AI PM 五维能力模型与能力跃迁路径 | 能讲五维差异+跃迁三步路径 | 0.5天 | 70% |
| P1 | AI 产品用户研究深度方法论 | 能讲三问法+AI超级研究员 | 0.5天 | 40% |
| P1 | Multi-Agent 2026最新范式(Handoff/LangGraph/CrewAI+A2A) | 能讲架构对比+成本五件套 | 0.5天 | 50% |
| P1 | SSM/Mamba架构 vs Transformer 深度对比 | 能讲O(n)vsO(n²)+混合架构 | 0.5天 | 25% |
| P1 | 端侧AI部署全流程(模型+量化+推理引擎) | 能讲三步走+碎片化对策 | 0.5天 | 30% |
| P1 | 大模型幻觉检测方法2026前沿 | 能讲五种方法+适用场景 | 0.5天 | 60% |
| P1 | 考前一页纸速查清单与2026十大高频考点 | 能背下14个概念+10大考点 | 0.5天 | 90% |
| P1 | 【6.6新增】 Plan-and-Execute vs ReAct vs Reflexion三大Agent推理范式 | 能讲清三大范式差异+选型 | 0.5天 | 50% |
| P1 | 【6.6新增】 Prompt Injection 2026 10层纵深防御体系 | 能讲清至少5层+为什么模型层不够 | 0.5天 | 50% |
| P1 | 【6.6新增】 2026年6月大模型军备竞赛(GPT-5.6等四家发布) | 能讲关键数字+对Agent影响 | 0.3天 | 30% |
| P1 | 【6.6新增】 SITS2026 Agent可观测性标准(语义层追踪) | 能讲三项核心机制+与传统监控区别 | 0.5天 | 15% |
| P1 | 【6.6新增】 Claude Code 6层渐进式上下文压缩架构 | 能讲6层架构+Prompt Cache约束 | 0.5天 | 20% |
| P1 | 【6.6新增】 CRDT多Agent记忆冲突+分布式状态同步 | 能讲CRDT原理+Redis Pub/Sub架构 | 0.5天 | 15% |
| P2 | 量化与蒸馏(INT8/INT4) | 了解概念 | 0.5天 | 10% |
| P2 | KV Cache & Flash Attention | 了解概念 | 0.5天 | 5% |
| P2 | 埋点与看板设计 | 会概念 | 0.5天 | 15% |
| P2 | React+Tailwind Demo | 了解即可 | — | 10% |
| P2 | AI Coding工具链 | 了解即可 | — | 10% |
| P2 | 模型训练原理 | 了解概念 | 0.5天 | 10% |
| P2 | 【Day 6新增】 实时语音Agent设计 | 了解概念+技术挑战 | 0.5天 | 5% |
| P2 | 【6.6新增】 AI编程工具面试应对(Claude Code/Vibe Coding) | 准备面试话术 | 日常积累 | 15% |
| P2 | 【6.6新增】 Reflexion 自反思Agent范式 | 了解概念 | 0.3天 | 10% |
| P2 | 【6.6新增】 轻量Agent框架设计原则(反LangChain) | 了解批判点+设计原则 | 0.3天 | 15% |
总计有效复习时间:P0约14天 + P1约28天 + P2约3.5天 = 约45.5天
建议策略:P0反复过3遍(含新增强化全链路思维框架)→ P1筛选”新热点+深挖项”优先(上下文工程/MCP-A2A/Agent失败场景/Agent系统设计/ReAct-CoT-ToT/Plan-Execute-Reflexion/Multi-Agent协作/生产陷阱/FC底层机制/RAG追问深度/BLEU-ROUGE局限/DPO对比/GraphRAG/采样参数调优/Harness Engineering/Prompt Injection防御/大模型军备竞赛/SITS2026/Claude Code压缩/CRDT分布式同步)→ P1旧题过1遍 → P2只看概念
🎯 面试重点自检清单
P0 必须过关
- 能画出 TechKids 后端代理架构流程图
- 能讲清 RealBot 的 Prompt 分层体系(3层)
- 能解释 Streaming 状态机(4状态)
- 能画出 RAG 完整管道图(6步骤 + Rerank + 增量索引 + K值影响 + 重叠比例)
- 能说出幻觉控制的3种方案
- 能举例说明 Function Calling 在产品中的应用
- 能对比不同 Temperature 的使用场景
- 能辨析 Agent 与 ChatBot+插件/Prompt Chain 的本质区别 + “没有工具还算Agent吗”边界追问
- 能讲出 Agent 的3类失败场景与解决方案
- 能画出 Agent 5层架构图 + 回答规划执行是否分离
- 能说出幻觉防控的三层防线
- 能用”动作化”方式讲解项目亮点(问题→方案→量化效果)
- 能对比国内大厂Agent打法差异(腾讯vs字节vs阿里)
- 能用十大权衡框架回答开放性问题(Trade-off Judgment)
- 能按三层指标结构(Model-Product-Business)讲AI功能效果
- 能用4阶段答题框架(Clarify→Architecture→Deep Dive→Tradeoffs)练系统设计题
- 能讲”读过vs做过”的区别标准,知道”I would choose X over Y because of Z”面试金句
- 【Day 5新增】 能用全链路思维框架(Data→Train→Inference→Service→Loop)回答”系统出问题了怎么定位”
P1 争取过关(2026新增热词优先)
-
能讲清上下文工程与Prompt Engineering的区别
-
能解释MCP和A2A协议的核心价值
-
能辨析 Skills 与 MCP 的区别
-
能讲清工具层的定义+调用流程+兜底设计
-
【Day 5深挖】 能讲清MCP Server治理的6个维度(分类/元数据/检索/动态加载/权限/统计)
-
能对比 ReAct / CoT / ToT 的选型逻辑与实战效果
-
能解释 HyDE 和 Step-Back 的作用
-
能说出增量索引的4种策略
-
能说出Multi-Agent的3种协作模式与选型
-
能说出Agent评估的三层体系
-
【Day 5深挖】 能讲清生产级评测体系(Golden Set + LLM-as-Judge + Trace回放 + 线上灰度评估)
-
能对比LangGraph/CrewAI/AutoGen的设计哲学差异 + 一句话说清选型理由
-
能说清Dify vs LangGraph的本质区别(可视化编排 vs 代码控制)
-
能对比四种记忆方案的优劣
-
【Day 5深挖】 能讲清记忆冲突更新机制(时效性优先/显式覆盖/一致性维护)
-
能对比 SFT 和 RLHF 的优劣势
-
能讲清RAG vs Fine-tune选型决策框架(知识更新快→RAG,格式固定→Fine-tune,兼需→结合)
-
能讲清 MoE 为什么性价比高
-
能对比 SSE/WebSocket/WebRTC 的选型原则
-
能讲清 LLM 网关治理的4大核心能力
-
能用 SQL 分析留存/转化
-
能读懂 API 文档并调通一个接口
-
能讲清 RealBot 的定价策略与对标依据
-
能讲清运营监控体系的三层平衡(成功率/延迟/成本)
-
能讲清Function Call的底层机制(LLM只决策不执行)
-
能讲清Agent vs Workflow的混合架构设计
-
能说出Agent生产环境的3个常见陷阱+解决方案
-
能按三层因果关系(Model改善→Product提升→Business影响)汇报AI效果
-
能回答RAG追问深度链:文档切分策略/Lost in the Middle/Hybrid Search决策/评估指标设计
-
能讲清Dify vs LangGraph vs CrewAI vs AutoGen四大框架一句话选型理由
-
【Day 5新增】 能讲清BLEU/ROUGE的局限 + LLM-as-Judge的原理+局限+最佳实践
-
【Day 5新增】 能对比DPO vs RLHF的核心区别 + 说出PPO稳定性原理(Clipping+优势函数)
-
【Day 5新增】 能解释GraphRAG是什么 + 什么场景需要
-
【Day 6新增】 能讲清Temperature/Top-P/Top-K三参数协同及生产最佳实践
-
【Day 6新增】 能解释Harness Engineering是什么(工具链+评估流水线+回归门禁)
-
能讲清量化精度损失三个来源(截断误差/粒度粗糙/离群值)及解决方案
-
能对比Flash Attention v1/v2/v3的核心差异 + 知道FlashDecoding
-
能讲清AI PM五维能力模型(技术理解/不确定性管理/成本意识/安全对齐/双速迭代)
-
能讲AI产品用户研究”三问法” + AI超级研究员工具链
-
能对比Multi-Agent三大架构(Handoff/LangGraph/CrewAI) + 讲清A2A协议
-
能讲SSM/Mamba vs Transformer的核心差异(O(n)vsO(n²))
-
能讲端侧AI三步走(模型选型+量化+推理引擎) + 跨设备碎片化对策
-
能讲幻觉检测五大方法(SelfCheckGPT/NLI/LLM-Judge/检索验证/内部探针)
-
能背下一页纸速查清单(14个概念+6个决策框架+10大高频考点)
-
【6.6新增】 能讲清Plan-and-Execute vs ReAct的核心差异 + Reflexion自我反思机制
-
【6.6新增】 能说出Prompt Injection的至少5层防御 + 为什么模型层不够
-
【6.6新增】 能讲GPT-5.6 150万token + 6月四家发布 + 对Agent的影响
-
【6.6新增】 能讲SITS2026的三项核心机制(双轨Trace/意图日志/DAG溯源)
-
【6.6新增】 能讲Claude Code 6层压缩架构 + Prompt Cache作为隐藏约束
-
【6.6新增】 能讲CRDT解决什么记忆问题 + Redis Pub/Sub状态同步架构
P2 了解即可
- 知道量化和蒸馏的作用
- 知道 KV Cache 和 Flash Attention 的基本概念
- 知道埋点的基本规范
- 知道 React 的基础概念(组件/状态)
- 知道 Cursor 的基本用法
- 知道 LoRA 和量化的作用
- 【Day 6新增】 知道实时语音Agent的核心组件(VAD/ASR/LLM/TTS)+ 打断机制挑战
- 【Day 6新增】 知道Claude Code/Cursor Agent模式 + 准备好”AI时代你的不可替代性”面试话术
🔄 2026面试趋势速记(5/20 18:00更新 — Day 6)
| 趋势 | 核心要点 | 对你备考的影响 |
|---|---|---|
| Agent全面爆发 | 从”能回答”到”能做事” | P0的Agent五大能力+本质辨析+失败场景要更熟练 |
| 协议标准化 | MCP连接工具 + A2A连接Agent | P1新增Skills vs MCP辨析,讲MCP管理深度 |
| 框架Graph化+低代码化 | LangGraph替代LangChain成主流,Dify面向产品/运营 | P1多智能体框架扩至4框架对比,新增Dify选型理由 |
| 评估体系化 | 不只是最终结果,中间步骤也要量化 | P1新增,PM能讲评估=有系统思维 |
| 成本精细化 | Prompt Caching/语义缓存/模型级联路由 | 融入上下文工程+LLM网关治理章节 |
| 系统设计题增加 | 从概念问答→架构设计题 | P0新增Agent架构分层设计+系统设计答题框架(4阶段) |
| 面试深度升级 | 从”有没有用过”到”为什么这么选” | P0项目亮点必须讲决策过程,不能报菜名 |
| 行业格局题 | 大厂差异化Agent策略对比 | P0新增,与纯技术候选人拉开距离 |
| 运营监控需求 | 产品上线后全生命周期管理 | P1新增运营监控体系与成本优化 |
| 面试核心转向 | 从”你知道什么”到”你怎么权衡” | P0新增Trade-off Judgment十大框架+系统设计答题框架 |
| 混合架构共识 | Workflow做骨架,Agent做脑子 | P1新增Agent vs Workflow混合架构,量化高4-8倍token耗用 |
| FC底层原理 | LLM只决策不执行 | P1新增Function Call底层真相,面试官追问率60%+ |
| 生产陷阱复盘 | 踩坑案例最能区分做过和听过 | P1新增五大生产陷阱,面试高频追问方向 |
| RAG追问深度化 | 从”懂RAG”到”调过RAG” | P1新增RAG面试追问深度:文档感知切分/Lost in the Middle/混合检索决策/评估设计 |
| 面试评判标准升级 | 读过vs做过明确区分 | 能讲Cost/Evaluation/Tradeoffs/TTFT/Semantic Caching细节才是做过 |
| 选型判断能力 | RAG vs Fine-tune决策+框架一句话选型 | P1新增RAG vs Fine-tune选型树+4框架选型理由 |
| 【Day 5新增】全链路思维成为标配 | 从Data→Train→Inference→Online Service完整闭环 | P0新增第13项:端到端排障能力、上线后效果变差怎么定位 |
| 【Day 5新增】评测方法升级 | BLEU/ROUGE被质疑,LLM-as-Judge崛起 | P1新增BLEU/ROUGE局限 + LLM-as-Judge最佳实践 + Golden Set设计 |
| 【Day 5新增】训练对齐知识深化 | DPO vs RLHF对比成新考点 | P1新增DPO vs RLHF对比 + PPO稳定性原理(Clipping+优势函数) |
| 【Day 5新增】RAG进阶:GraphRAG | 跨文档推理→知识图谱+RAG结合 | P1新增GraphRAG概念,了解”多跳推理场景”和”图结构价值” |
| 【Day 5新增】MCP治理深度化 | 从”MCP是什么”到”MCP怎么管” | P1工具层深挖6维度治理(分类/元数据/检索/动态加载/权限/统计) |
| 【Day 5新增】场景化思维 | 技术服务于业务,空泛理论不再有竞争力 | 所有P0/P1知识点都必须绑定”什么业务场景用/不用” |
| 【Day 6新增】采样参数工程化 | 从”知道Temperature是什么”到”生产环境怎么调” | P1新增:Temperature/Top-P/Top-K三参数协同、面试追问深度升级 |
| 【Day 6新增】Harness Engineering成为新考点 | 不只是评估指标,更关注评估基础设施 | P1新增:LangSmith/W&B工具链+Golden Set回放+回归门禁 |
| 【Day 6新增】语音Agent面试题出现 | 多模态交互成为产品面试新方向 | P2新增:实时语音Agent的VAD/ASR/LLM/TTS四组件+打断机制 |
| 【Day 6新增】AI编程面试追问升级 | 从”用不用AI”到”你的价值在哪” | P2新增:Claude Code/Cursor Agent模式+Vibe Coding警示+面试话术 |
| AI PM能力模型 | 从”功能管理”到”概率性能力管理” | 五维能力成为AI PM面试新标准 |
| 用户研究方法论升级 | AI超级研究员替代50场访谈 | 需求验证从2周压缩到24小时 |
| Multi-Agent架构选型 | Handoff/LangGraph/CrewAI三选一 | 架构选择影响任务完成率最高14% |
| SSM/Mamba崛起 | Transformer并非唯一解 | 百万token场景Mamba O(n)成唯一解 |
| 端侧AI成为产品核心竞争力 | Apple/Google推本地LLM | 离线+隐私+零边际成本三位一体 |
| 幻觉检测工程化 | 从RAG兜底到五层主动检测 | 企业级AI的幻觉率从15%降到2% |
| 【Day 6新增】第20-21轮复习精华整合 | Round 20技术难点深化+Round 21考前冲刺 | 量化精度三来源+Flash Attention v1/v2/v3对比+FA IO本质解读+“IO优化而非算法改变”金句 |
本文档由 AI 基于你的学习材料 + 2026年5月最新面试趋势(Day 6: 5/20 18:00 — 整合第20-21轮复习精华 + 新来源:JavaGuide 2026 AI面试指南(2天前)、代码随想录大模型面经(1天前)、小林coding2026 Agent面试题(4天前)、知乎2026 AI Agent面试复盘(43天前))整理生成。建议每2小时复习时,按 P0→P1→P2 顺序过自检清单。
文档路径:PDM 日志/AI Agent/AI Agent与LLM面试_知识图谱_P0-P2排序.md
总览:P0 13项 / P1 37项 / P2 8项 = 共58项 | 预计总复习时间 ~42天
学习路线
Written By Six_moon