AI Agent & LLM 面试知识图谱
按投入产出比分级排行,从 P0(最高性价比)→ P2(储备级)
📊 总览
| 优先级 | 知识点域 | 投入 | 产出(面试加分 + 工作价值) | 推荐策略 |
|---|
| P0 | LLM基础 / Prompt Engineering / AI Agent / RAG / 项目亮点 | ⭐(理解快,可复用) | ⭐⭐⭐⭐⭐(面试必问 + 产品日常) | 必背,能讲技术逻辑 + 画流程图 + 答场景题 |
| P1 | SFT vs RLHF / MoE / 评估体系 / 数据指标 / API / 商业化 | ⭐⭐(需对比理解) | ⭐⭐⭐⭐(面试加分项 + 差异化) | 理解原理,面试能对比阐述 |
| P2 | 埋点看板 / Demo制作 / AI Coding工具 / 模型训练原理 | ⭐⭐⭐(需动手实践) | ⭐⭐⭐(储备知识,少数岗位会问) | 了解概念,实战时再深入 |
索引
P0 - 最高投入产出比(面试必问 + 工作高频)
特点:面试必问题,AI PM 日常工作核心,理解门槛低但展示价值高
1. Token / 上下文窗口 / 幻觉
| 维度 | 内容 |
|---|
| 知识点 | Token是大模型最小语义单元,中英文token化差异;Context Window是模型一次能”看到”的最大token数;Hallucination是模型自信输出错误/无依据内容 |
| 技术解析 | Token=分词器输出,非字非词;窗口超限→遗忘→滑动窗口/摘要压缩兜底;幻觉根源=概率生成≠数据库查询 |
| 应用场景 | Token计费与成本控制(聊天记录截断策略)、文档问答(先切片再检索→窗口)、企业级功能(回答必须可溯源显示”依据段落”) |
| 面试话术 | ”我的项目里,TechKids通过滑动窗口+摘要压缩控制上下文溢出,成本降低约30%;文档问答设计时用RAG引用来源压制幻觉,而非直接喂全文” |
2. Temperature / System Prompt / Few-shot / Function Calling
| 维度 | 内容 |
|---|
| 知识点 | Temperature控制随机性(0~2);System Prompt是最高级指令(定义角色/风格/边界);Few-shot教模式(给示例不微调);Function Calling输出结构化JSON调用外部工具 |
| 技术解析 | 低温=确定(抽字段/SQL),高温=创造(写作/闲聊);System Prompt如同”AI的产品经理设定”;Function Calling是Agent基石 |
| 应用场景 | RealBot专家模式(低Temp保证专业输出→灵感模式切换)、TechKids小智Bot(System Prompt设定儿童编程助教人格)、129条Quick Actions(Few-shot确保风格一致性) |
| 面试话术 | ”RealBot设计了分层System Prompt(角色锚定+知识边界+输出格式),管理9位AI专家身份不漂移;Function Calling实现联网搜索和内部工具调用” |
3. Prompt Engineering 核心技巧
| 维度 | 内容 |
|---|
| 知识点 | 角色设定(Persona)、结构化输出(Structured Outputs/JSON Schema)、约束(Constraints)、反例(Negative Examples)、评测样例(Eval Set) |
| 技术解析 | 角色越具体越稳定;结构化输出是AI功能落地的关键(前端渲染依赖可靠数据结构);反例比正例更高效修复边缘case;评测集是推动优化的”证据” |
| 应用场景 | 129条Quick Actions的风格一致性维护、AI专家身份不漂移(分层Prompt)、文档问答的引用格式约束、情感分析的边缘case修复 |
| 面试话术 | ”我建立了50+条的Prompt评测集,确保每位AI专家输出风格一致;使用结构化输出约束格式,让前端能可靠渲染卡片” |
4. AI Agent 五大核心能力
| 维度 | 内容 |
|---|
| 知识点 | 工具调用(Tool Use→Function Calling实现)、记忆(Memory→短期窗口+长期向量库)、任务拆解(Task Decomposition)、工作流(Workflow→可编排流水线)、失败兜底(Fallback→降级策略) |
| 技术解析 | 工具决定了Agent的能力上限;记忆成就个性化体验;能拆解多步任务才是真Agent vs 一问一答的聊天机器人;兜底决定用户容错度 |
| 应用场景 | RealBot的联网搜索+查天气+内部工具调用、TechKids自动拆解”查漏补缺→推荐练习→评估结果”流程、错误重试3次→转人工提示 |
| 面试话术 | ”RealBot具备完整的Agent能力:任务拆解(多步推理)、工具调用(外部API)、记忆(对话摘要持久化)、工作流编排(PRD生成流水线)、兜底(3次重试+转人工)“ |
5. RAG 完整管道
| 维度 | 内容 |
|---|
| 知识点 | 文档切片(Chunking→200-500 tokens/语义完整)、Embedding(文本→向量/语义坐标)、向量库(Pinecone/Milvus/PGvector)、召回(Retrieval→BM25+向量混合)、重排(Reranker→交叉编码器精排)、引用来源(Source Citation) |
| 技术解析 | 切片策略直接影响检索质量;混合召回提高覆盖面;重排是成本-效果平衡点;引用是企业AI可信度的核心 |
| 应用场景 | DailySpeak多模态文档问答(File/URL/Web/Scan→提取→检索→朗读)、TechKids知识库问答、法律合同按条款切/教程按步骤切 |
| 面试话术 | ”DailySpeak的RAG管道采用Hybrid Search(BM25+向量)+ Reranker精排,召回率提升约25%;引用来源设计让用户能溯源原文段落” |
6. 项目亮点与技术难点(面试核心)
| 维度 | 内容 |
|---|
| 知识点 | 四个项目(TechKids/RealBot/DailySpeak/Persona-Expert)的核心架构、五项技术难点(上下文管理/Prompt工程化/流式输出/RAG管道/幻觉控制) |
| 技术解析 | 见下方分项拆解 |
| 应用场景 | 面试自我介绍的开场白、技术深挖的”项目经验”部分、系统设计题的素材来源 |
| 面试话术 | 见下方各难点 |
6.1 上下文管理
- 问题:多轮对话Token累积→窗口溢出
- 方案:滑动窗口截断 + 摘要压缩(summarize recent turns),保留关键System Prompt
- 面试话术:“TechKids采用滑动窗口+摘要压缩策略,消费级token成本降低约30%,同时保持多轮对话的业务连续性”
6.2 Prompt 工程化 & 专家体系
- 问题:129条Action风格一致性 + 9位专家身份不漂移
- 方案:System Prompt分层(角色锚定层 + 知识边界层 + 输出格式层)
- 面试话术:“这套分层体系让9位专家维持了95%+的风格一致性,用户感知上是真正的’不同专家在同一平台上协作‘“
6.3 流式输出(Streaming)
- 问题:iOS端SSE/WebSocket流不稳定→断连
- 方案:heartbeat ping + 前端状态机(loading→streaming→done→error)
- 面试话术:“通过状态机管理Streaming生命周期,断连恢复率从70%提升到95%+“
6.4 RAG 管道调优
- 问题:召回率低 + 噪声chunk干扰生成质量
- 方案:Hybrid Search + Reranker + Chunk粒度优化
- 面试话术:“深度优化后召回率提升约25%,重排让Top-3命中率从60%提升到85%“
6.5 幻觉控制
- 问题:AI领域专家输出技术内容→“自信型幻觉”
- 方案:self-consistency check + 引用溯源 + 置信度阈值过滤
- 面试话术:“针对技术场景最易出现的自信型幻觉,我在架构层面嵌入了多重验证机制”
P1 - 高投入产出比(面试加分 + 差异化武器)
特点:不是必问,但问到了就能拉开差距,展示技术深度
7. SFT vs RLHF
| 维度 | 内容 |
|---|
| 知识点 | SFT(监督微调)=人工标注数据直接训练;RLHF(基于人类反馈的强化学习)=在SFT上引入奖励模型+PPO算法对齐人类偏好 |
| 技术解析 | SFT快速收敛但泛化弱(见过才学得会);RLHF对齐效果好但训练复杂不稳定(奖励欺骗/模式崩塌);工业界倾向于两者结合 |
| 应用场景 | 模型选型决策(外包客服→SFT够用;创意助手→RLHF更优);理解模型行为差异背后的技术原因 |
| 面试话术 | ”SFT解决’学会’问题,RLHF解决’学对’问题。我的产品需求中,内容审核场景SFT就够了,但AI创意助手需要RLHF来对齐用户偏好” |
8. MoE(混合专家)架构
| 维度 | 内容 |
|---|
| 知识点 | 不显著增加推理计算量的前提下扩大参数规模;每个Token只激活少数专家网络(如Top-2);总参数大但激活参数小 |
| 技术解析 | 优势:FLOPs可控、可扩展性强;挑战:专家负载均衡(load balancing loss)、通信开销(all-to-all)、存储成本(所有专家参数需驻留内存) |
| 应用场景 | 理解为什么DeepSeek/Mixtral能以低成本提供大容量模型;推理定价背后的技术基础 |
| 面试话术 | ”MoE让DeepSeek用更少的激活参数实现了更强的综合能力,这也是我选择DeepSeek作为TechKids后端API的原因之一——性价比高” |
9. AI 效果评估体系
| 维度 | 内容 |
|---|
| 知识点 | 三层评估:①自动化指标(BLEU/ROUGE/Perplexity)②人工评估(满意度/相关性/忠实度)③业务指标(留存/使用率/对话完成率) |
| 技术解析 | 自动化指标快但不够准(ROUGE对同义改写不敏感);人工评估准但成本高;业务指标最终裁判,AB实验是核心方法 |
| 应用场景 | 功能上线前评估输出质量、A/B实验验证产品功能、Prompt迭代的效果量化 |
| 面试话术 | ”三层体系中业务指标优先,我用对话完成率(Completion Rate)作为RealBot的核心北极星指标,比ROUGE更能反映用户真实满意度” |
10. 数据驱动产品:SQL + 产品指标体系
| 维度 | 内容 |
|---|
| 知识点 | SQL(SELECT/JOIN/GROUP BY/窗口函数);产品指标(DAU/WAU/留存/转化/漏斗/ARPU/ARPPU/LTV);IAA指标(展示率/填充率/eCPM/ARPDAU) |
| 技术解析 | 产品指标的关联性(LTV=ARPU×留存天数);广告指标的计算链(展示率→填充率→eCPM→ARPDAU→影响LTV);漏斗分析定位流失节点 |
| 应用场景 | 分析RealBot的订阅转化漏斗、评估广告展示节点收益、计算不同渠道用户的LTV差异、定位功能流失点 |
| 面试话术 | ”我通过SQL查询用户会话表,发现RealBot的Day 7留存是关键阈值——Day 7后发起对话的用户订阅转化率是Day 1的3倍” |
11. API / JSON / Postman 理解
| 维度 | 内容 |
|---|
| 知识点 | HTTP方法(GET/POST/PUT/DELETE)、JSON请求/返回/错误码、REST API文档读写、Postman/Apifox测试、后端概念(鉴权/限流/异步/重试)、数据库表结构(用户/会话/消息/订阅/广告事件) |
| 技术解析 | API是PM和研发的”接口协议”;错误码设计体现产品对异常的理解;表结构决定了功能的设计边界 |
| 应用场景 | 写PRD时附上接口定义、测试验收时自己调接口验证、排查问题时能看懂后端错误日志 |
| 面试话术 | ”我能独立用Postman测试AI Chat的上传/解析/检索/回答全链路接口,PRD中附接口字段定义,研发不需要反复确认” |
12. AI产品商业化:IAA + 订阅转化
| 维度 | 内容 |
|---|
| 知识点 | IAA变现(展示率/填充率/eCPM/ARPDAU/广告频控/展示节点设计);订阅转化(定价策略/漏斗优化/试用策略);商业化指标体系 |
| 技术解析 | 广告节点设计影响用户体验(展示时机、频次)和收入(展示率→填充率→eCPM);订阅定价需对标竞品(RealBot对标Ask AI、Nova AI周$9/月$20/年$75) |
| 应用场景 | RealBot订阅功能设计、DailySpeak免费层广告策略、用户生命周期的变现节点规划 |
| 面试话术 | ”RealBot定价对标Ask AI和Nova AI,采用周$9/月$20/年$75三级定价;广告展示设计在自然断点(对话间隙/长等待时间),避免打断核心体验” |
P2 - 投入产出比中等(储备知识 + 实战时再深挖)
特点:少数岗位会问,日常用得少,有概念即可
13. 埋点与数据看板设计
| 维度 | 内容 |
|---|
| 知识点 | 事件命名规范、属性定义、触发时机、漏斗路径设计、看板工(Looker Studio/Metabase/Tableau) |
| 技术解析 | 好埋点的标准:谁+在什么时机+做了什么+结果如何;漏斗看板要能逐层下钻 |
| 应用场景 | RealBot从”下载→注册→首次对话→留存→订阅”的全流程埋点 |
| 面试话术 | ”我为RealBot设计了从下载到订阅的完整埋点方案,看板覆盖DAU/对话完成率/广告收入/LTV,能逐层下钻到单用户行为” |
| ⏳ 建议 | 面试前看1-2篇相关文章就好,不需要投入大量时间 |
14. React + Tailwind Demo 制作
| 维度 | 内容 |
|---|
| 知识点 | React(组件/状态/路由)、Tailwind CSS实用样式、Cursor+API快速搭建、LangChain基础概念 |
| 技术解析 | PM不需要成工程代码,能跑通Demo展示功能逻辑即可;API Key直连无需后端 |
| 应用场景 | 面试时展示可交互Demo(TechKids AI Lab / 文档问答助手)、需求验证时快速出原型 |
| 面试话术 | ”我用Cursor+React+DeepSeek API三天搭了一个文档问答Demo,包含上传→检索→引用→订阅弹窗全流程” |
| ⏳ 建议 | 有12周学习计划时可排入最后4周,面试前1-2周快速熟悉 |
15. AI Coding 工具链理解
| 维度 | 内容 |
|---|
| 知识点 | Cursor/Copilot用法、AI Coding的原理(补全/Agent模式)、AI Coding的边界(复杂重构/多文件联动仍需人工) |
| 技术解析 | AI Coding核心是代码补全+上下文理解;Agent模式可自主执行多步操作但仍有30%+的错误率 |
| 应用场景 | 提升个人开发效率、和工程团队沟通时理解他们的工具链、TechKids/DailySpeak代码迭代 |
| 面试话术 | ”我日常使用Cursor+Claude辅助代码开发,理解AI Coding的能力边界,不会过度承诺给业务方” |
| ⏳ 建议 | 面试不常问,但在产品实操场景中逐步积累即可 |
16. 模型训练基础原理(了解级)
| 维度 | 内容 |
|---|
| 知识点 | 预训练(Pretraining→海量文本无监督学习)、微调(Fine-tuning→任务数据有监督训练)、LoRA(低秩适配→参数高效微调)、量化(Quantization→INT8/FP16→推理加速) |
| 技术解析 | 预训练决定”知识广度和语言能力”;微调决定”特定任务的适配度”;LoRA让微调成本从百万降到千元级;量化以少量精度换数倍推理速度 |
| 应用场景 | 理解模型选型(通用vs领域)、和算法团队沟通微调方案、评估量化对产品体验的影响 |
| 面试话术 | ”我理解LoRA可以在消费级显卡上微调7B模型,成本可控;量化后的模型推理速度提升3倍,适合移动端部署” |
| ⏳ 建议 | 知道概念即可,遇到追问的概率很低。AI PM岗位不需要深入训练细节 |
复习优先级总表
| 优先级 | 知识点 | 掌握程度 | 预计时间 | 面试命中率 |
|---|
| P0 | LLM基础(Token/窗口/幻觉/Temp/SP/Few-shot/FC) | 能讲+能举例 | 2天 | 95% |
| P0 | Prompt Engineering(角色/结构化/约束/反例/评测) | 能讲+能举例 | 2天 | 90% |
| P0 | AI Agent(工具/记忆/拆解/工作流/兜底) | 能讲+能举例 | 2天 | 90% |
| P0 | RAG(切片/Embedding/向量库/召回/重排/引用) | 能讲流程+能举例 | 2天 | 85% |
| P0 | 项目亮点+技术难点(5点) | 能逐点展开 | 1天 | 100% |
| P1 | SFT vs RLHF | 能对比阐述 | 0.5天 | 40% |
| P1 | MoE 架构 | 能讲核心优势 | 0.5天 | 30% |
| P1 | AI效果评估体系 | 能讲三层+举例 | 0.5天 | 35% |
| P1 | SQL + 产品指标 | 能讲+能现场查 | 3天 | 50% |
| P1 | API/JSON/Postman | 能讲+能演示 | 1天 | 30% |
| P1 | IAA+订阅商业化 | 能讲策略+数据 | 1天 | 40% |
| P2 | 埋点与看板设计 | 会概念 | 0.5天 | 15% |
| P2 | React+Tailwind Demo | 了解即可 | — | 10% |
| P2 | AI Coding工具链 | 了解即可 | — | 10% |
| P2 | 模型训练原理 | 了解概念 | 0.5天 | 10% |
总计有效复习时间:P0约9天 + P1约6.5天 + P2约1天 = 约16.5天
建议策略:P0反复过3遍 → P1过1遍 → P2只看概念
面试重点自检清单
P0 必须过关
P1 争取过关
P2 了解即可