这篇文章整理了 22 道 RAG 核心面试题,从基础概念到进阶实战,每道题都配有详细答案和延伸追问。建议先收藏,面试前系统性复习一遍。
一、 RAG 到底是什么
题目一:什么是 RAG ,它解决了什么问题
RAG 是 Retrieval-Augmented Generation 的缩写,中文叫检索增强生成。
说白了,就是在让大模型回答问题之前,先去知识库里找相关资料,把找到的内容喂给模型,让它基于这些事实来生成答案。
这样做有两个好处:一是模型能回答训练数据里没有的内容,二是答案有依据,不会瞎编。
题目二: RAG 的基本流程
分两个阶段:
索引阶段:把文档切成片段 → 转成向量 → 存到向量数据库
查询阶段:用户问题转向量 → 检索相似文档 → 拼进 Prompt → 生成答案
关键是检索准确率。检索不到相关内容,或者检索到一堆垃圾,答案质量都会崩。
面试官可能会追问:检索不准确怎么办?
可以回答:从查询优化、索引优化、重排序三个层面入手。查询扩展、 HyDE 技术、文档切分策略、元数据增强、 Cross-Encoder 重排这些方法组合使用。
二、 Embedding 和向量数据库
题目三: Embedding 模型怎么选
四个因素:
语言支持:中文场景用 BGE 、 M3E 、 Text2Vec ;英文选择更多, OpenAI 的 text-embedding-ada-002 、 sentence-transformers 系列都行。
向量维度:维度越高表达能力越强,但存储和计算成本也高。常见有 384 维、 768 维、 1024 维、 1536 维。
上下文长度:要覆盖文档片段大小,常见 512 、 1024 、 2048 、 8192 。
性能指标:关注 MRR 、 NDCG 、 Recall@K 这些评测指标。
题目四:向量数据库选哪个
Faiss : Facebook 开源的,适合小规模本地部署,不支持分布式。
Milvus :专门的向量数据库,支持分布式、多种索引、混合查询,适合生产环境。
Pinecone :托管服务,开箱即用但成本高,适合快速验证。
pgvector : PostgreSQL 的向量扩展,已有 PG 基础设施的场景可以复用。
Elasticsearch :也支持向量搜索,适合需要同时做关键词和向量搜索的场景。
追问可能会问 HNSW 和 IVF 索引的区别。 HNSW 基于图结构,构建慢查询快,适合静态数据。 IVF 基于倒排文件,构建快查询慢一些,适合动态更新。
三、检索优化核心技巧
题目五:怎么提高检索准确率
三个层面:
查询优化:查询扩展(改写成多个同义表达)、查询分解(拆成子问题)、 HyDE (生成假设答案再检索)
索引优化:按语义边界切分、元数据增强、摘要索引
重排序:用 Cross-Encoder 二次排序,或者用 LLM 判断文档是否包含答案
题目六:多轮对话怎么处理
用户问题往往依赖上下文,单独检索当前问题可能找不到信息。
几种方案:
历史拼接:把多轮对话拼在一起,但会引入噪声
查询重写:用 LLM 把当前问题改写成独立完整的问题
历史摘要:维护对话摘要,保留关键信息又控制长度
实际中查询重写效果较好。追问可能会问对话历史太长怎么办,回答滑动窗口或定期生成摘要压缩。
题目七:上下文压缩是什么
检索结果太长,超出模型上下文限制,还会干扰注意力。
压缩方法:
Map-Reduce :分段处理,每段判断相关性,只保留相关部分
Refine :迭代精炼,先部分文档生成初步答案,再逐步完善
相关性过滤:用轻量级模型计算相关性分数,只保留高分片段
LLM 压缩:提取关键信息生成摘要
实际中组合使用,先粗筛再精筛。
四、进阶话题
题目八: Agentic RAG 是什么
传统 RAG 是一次性检索然后生成。 Agentic RAG 让 Agent 自主决定检索策略,可以多次检索、动态调整查询、主动验证信息。
具体做法:查询重写、多步检索、信息验证、主动追问
优势是能处理复杂查询,比如多跳推理。代价是延迟增加、成本上升。
题目九:混合 RAG 有什么好处
同时用多种检索方式:向量检索+关键词检索、稀疏向量+稠密向量、内部知识库+外部搜索引擎
好处是互补优势,提高召回率和准确率。用户搜产品型号,向量检索可能找不到精确匹配,关键词检索能命中。
实现用 RRF 倒数排名融合合并结果。
题目十: RAG 和知识图谱怎么结合
RAG 处理非结构化文本,知识图谱处理结构化关系,互补。
结合方式:
图谱增强检索:先用知识图谱做实体链接和关系推理,扩展查询语义
结构化 RAG :把知识图谱作为检索源,直接检索三元组
混合推理:同时参考文本片段和知识图谱
追问可能问 GraphRAG 原理:用 LLM 从文档提取实体和关系构建图谱,查询时做社区发现找到相关子图,再结合文本生成答案。
五、幻觉与评估
题目十一:怎么避免大模型幻觉
多管齐下:
RAG 增强:让模型基于检索内容生成
Prompt 约束:明确要求基于上下文回答
事实校验:对关键事实用外部工具验证
引用溯源:要求模型给出信息来源
置信度评估:低置信度时提示用户
幻觉没法完全避免,但能大幅降低。关键是让模型有自知之明,不确定时不强行回答。
题目十二: RAG 系统怎么评估
检索阶段: Recall@K 、 MRR 、 NDCG
生成阶段:答案相关性、答案忠实度、答案完整性
评估方法:手工标注测试集、 LLM 当评判员、端到端人工评估
落地要建立持续评估机制,定期抽样,收集反馈,形成数据闭环。
六、企业落地实战
题目十三: RAG 企业落地有什么挑战
三方面:
数据挑战:文档质量参差不齐、权限控制、数据更新同步
技术挑战:系统集成、高可用部署、安全合规
运营挑战:效果持续优化、成本控制、用户培训
追问可能问权限控制怎么实现:文档级别打标签,检索时根据用户权限过滤。
题目十四:文档分块大小和 topK 怎么选
没有固定标准,要通过实验确定。
分块大小:太小丢失上下文,太大降低精度。通常几百个 Token , 256 到 512 之间。按段落或章节边界切分比固定长度好。
topK 参数:权衡召回率和成本。先设较大值比如 10 到 20 ,实验找最优。复杂问题增大 K ,简单问题减小 K 。
七、高频追问汇总
面试官喜欢追问,准备这些:
Embedding 和 One-Hot 区别: One-Hot 维度高稀疏无法表达语义相似性, Embedding 维度低稠密语义相似距离近
召回相似度算法:余弦相似度(关注方向)、欧氏距离(直线距离)、点积(最快)
召回与重排区别:召回快速筛选追求高召回率,重排精确排序追求高准确率
流式输出实现:模型生成过程中逐步返回,前端边收边展示
Milvus 和 ES 向量功能区别: ES 向量是附加功能, Milvus 是专业向量库性能更好
写在最后
这 22 道题覆盖了 RAG 的核心知识点:基础概念、 Embedding 选型、向量数据库、检索优化、 Agentic RAG 、幻觉处理、企业落地。
面试时别只背答案。结合自己的项目经验,准备具体案例和数据支撑。面试官问"怎么提高检索准确率",你说"我们在项目中用 HyDE 技术,召回率从 65%提升到 82%",比干巴巴讲原理强多了。
RAG 是大模型落地的主流方案,这个技能越来越重要。系统性学一遍,面试时从容应对。
推荐阅读
Agentic RAG深度解析:当检索系统学会"思考"
RAG知识库主子切片技术详解