学院/AI数据工程/向量数据库与RAG：构建企业级智能知识库

免费章节 12分钟Chapter 3/5

向量数据库与RAG：构建企业级智能知识库

用向量数据库和RAG技术搭建能回答专业问题的知识系统

本章学习要点

第 3 / 5 章

理解「数据比模型更重要」的核心理念

了解数据工程师的工作职责与技能要求

掌握AI时代对数据工程的新需求

熟悉核心数据工具生态与职业发展路径

「我们有几百份内部文档、操作手册和历史工单，怎么让AI读懂这些资料来回答员工的问题？」这是2025-2026年企业最常见的AI需求。答案就是RAG（Retrieval-Augmented Generation，检索增强生成）+ 向量数据库。

RAG是什么？

大语言模型的知识来自训练数据，有截止日期，也不包含你公司的内部资料。RAG的思路很简单：当用户提问时，先从你的知识库中检索出最相关的内容，把这些内容连同问题一起发给大模型，让它基于检索到的资料来回答。

打个比方：大模型像一个聪明的应届毕业生，什么都懂一点但对你公司的具体业务不了解。RAG就是给他一本公司手册——你问他问题时，他先翻手册找到相关内容，再用自己的理解能力组织出答案。

RAG vs 微调（Fine-tuning）

另一种让AI学会专业知识的方式是微调——用你的数据重新训练模型。但微调的成本高、周期长、数据更新不方便。RAG的优势是：**成本低**（不需要训练模型）、**实时更新**（修改知识库即刻生效）、**可溯源**（能告诉用户答案来自哪份文档）。对于大多数企业场景，RAG是更实用的选择。

向量数据库：RAG的核心引擎

什么是向量？

在RAG中，「向量」是一段文本的数学表示。通过嵌入模型（Embedding Model），一段文字被转换成一个高维数组（如1536个数字）。语义相似的文本，其向量也相似。比如「如何申请年假」和「休假流程是什么」的向量会非常接近，即使它们用的词完全不同。

向量数据库做什么

向量数据库专门用来存储和检索向量。当用户提问时，把问题也转换成向量，然后在数据库中找到最相似的文档片段——这就是「语义搜索」。相比传统的关键词搜索，语义搜索能理解意图和同义词，检索效果大幅提升。

主流向量数据库

**Milvus**：开源，功能最全面，支持百亿级向量的大规模检索。国内团队Zilliz开发，中文文档和社区支持好。适合企业级大规模部署。

**Chroma**：轻量级开源方案，API简洁，安装简单（pip install即可）。非常适合原型开发和中小规模应用。学习RAG的最佳入门选择。

**Pinecone**：全托管的云服务，无需运维。按使用量付费，有免费额度。适合不想管基础设施的团队。

**Weaviate**：开源，支持混合搜索（向量搜索+关键词搜索结合）。在某些场景下混合搜索的效果优于纯向量搜索。

构建RAG系统的完整流程

第一步：文档预处理

把各种格式的文档（PDF、Word、PPT、网页、Markdown）统一转换成纯文本。工具推荐：**Unstructured**库可以处理几乎所有常见文件格式。

第二步：文本切分（Chunking）

把长文档切分成适合检索的小段落。切分策略直接影响检索质量。常用方法：按固定字数切分（如每段500字，重叠50字）、按段落/章节切分（保持语义完整性）、递归切分（先按标题分，再按段落分，最后按句子分）。

**关键参数**：chunk_size（每段的大小）和chunk_overlap（相邻段的重叠量）。一般建议chunk_size设为300-800字，overlap设为50-100字。overlap的作用是确保跨段落的信息不会在切分时被割断。

第三步：向量化和存储

用嵌入模型把每个文本段落转换成向量，存入向量数据库。嵌入模型选择：**OpenAI text-embedding-3-small**（质量好但需要海外访问）、**智谱embedding-3**（国内可用，质量不错）、**BGE系列**（北京智源开源，可本地部署）。

第四步：检索和生成

用户提问 → 问题向量化 → 从向量数据库中检索Top K个最相关的段落 → 把这些段落和问题组装成prompt → 发给大模型生成答案。K值一般设为3-5，太多会引入噪音，太少可能遗漏重要信息。

第五步：优化检索质量

**混合检索**：同时使用向量检索和关键词检索，综合排序。对于专业术语、编号等精确匹配场景，关键词检索比向量检索更准确。

**重排序（Reranking）**：检索出候选段落后，用一个重排序模型对它们的相关性重新打分。这一步通常能显著提升答案质量。推荐工具：Cohere Reranker或BGE-reranker。

注意事项

RAG系统的效果高度依赖文本分段质量。分段太大会引入噪音，太小会丢失上下文。建议按语义完整性分段，每段300-800字为宜。

实际案例：某银行的内部知识库

一家股份制银行把2000多份内部制度文件和业务手册构建成RAG知识库。员工通过企微输入业务问题，系统自动检索相关条款并生成回答，同时附上原文出处供核实。上线后，一线员工查询制度的时间从平均15分钟缩短到30秒，合规培训成本降低60%。

实用建议

学习RAG最快的方式：先用Chroma(轻量级向量数据库，pip install即可)搭建一个最简单的文档问答原型。跑通基本流程后再优化切分策略、添加混合检索和重排序。

注意事项

文本切分质量直接决定RAG效果。切分太大会引入噪音(无关内容干扰回答)，太小会丢失上下文。建议按语义完整性分段，每段300-800字，相邻段重叠50-100字。

重要提醒

RAG相比微调(Fine-tuning)的三大优势：成本低(不需要训练模型)、实时更新(修改知识库即刻生效)、可溯源(能告诉用户答案来自哪份文档)。对大多数企业场景，RAG是更实用的选择。

RAG系统完整流程

文档预处理(格式转换)

文本切分(Chunking)

向量化存储(Embedding)

检索Top K(语义搜索)

大模型生成回答

向量数据库选择指南

学习入门(Chroma轻量)

企业级大规模(Milvus)

无需运维(Pinecone托管)

混合搜索(Weaviate)

章节测验

1/3

1RAG系统中向量的作用是什么？

恭喜你完成了AI数据工程的免费章节！完整课程将继续讲解高级RAG架构、大规模数据管道设计、实时特征工程和MLOps数据运维体系。

数据标注与质量管理：AI模型好坏的决定因素

实战项目：构建一条完整的AI数据管道

本课程章节

AI时代的数据工程：为什么数据比模型更重要数据标注与质量管理：AI模型好坏的决定因素向量数据库与RAG：构建企业级智能知识库实战项目：构建一条完整的AI数据管道完成评估解锁 AI数据工程师求职指南与职业发展完成评估解锁

学完了吗？标记为已完成

完成所有章节后可获得证书

探索更多课程内容

查看完整课程大纲、认证指南和求职模板

查看完整课程