学院/AI核心概念百科/提示词与交互技术：Prompt、RAG与Function Calling

免费章节 13分钟Chapter 3/5

提示词与交互技术：Prompt、RAG与Function Calling

掌握与AI交互的核心技术概念和方法论

本章学习要点

第 3 / 5 章

区分AI/AGI/ASI/ANI四个层次的含义

理解机器学习、深度学习与神经网络的关系

掌握训练(Training)与推理(Inference)的区别

了解模型参数量(7B/70B/405B)的实际意义

区分开源模型与闭源模型的优劣势

知道了AI如何工作还不够，更关键的是掌握如何与AI高效交互。本章将系统讲解Prompt工程、RAG、思维链、Function Calling和多模态等核心交互技术。

Prompt（提示词）

**Prompt是什么？** 你发送给AI模型的一切输入内容都叫Prompt——包括问题、指令、背景信息、示例等。Prompt的质量直接决定AI输出的质量。

**System Prompt（系统提示词）**：设定模型的角色、行为规则和输出格式的指令，用户通常看不到。例如：「你是一个专业的法律顾问，用通俗易懂的语言回答问题，回答长度控制在200字以内」。

**User Prompt（用户提示词）**：用户直接输入的内容，即具体的问题或请求。

**Prompt Engineering（提示词工程）**：通过精心设计Prompt来获得更好AI输出的技术和方法论。这是当前最低门槛、最高ROI的AI技能。

核心Prompt技巧

Zero-shot vs Few-shot

**Zero-shot（零样本）**：直接给AI任务，不提供示例。如：「把这段话翻译成英文」。适用于简单、明确的任务。

**Few-shot（少样本）**：在Prompt中提供1-5个输入-输出示例，帮AI理解你期望的格式和风格。效果通常比Zero-shot好得多。

**实例**：「请将产品描述改写为卖点——示例输入：'这款手机有6.7英寸屏幕'→ 示例输出：'超大6.7英寸巨屏，追剧游戏沉浸感满分'。现在请改写：'这款笔记本重量仅1.2kg'」

Chain of Thought（思维链，CoT）

**CoT是什么？** 让AI在给出最终答案前，先展示推理过程。简单地在Prompt末尾加上「请一步一步思考」就能显著提升复杂推理任务的准确率。

**为什么有效？** LLM的输出是逐Token生成的，让它先生成推理步骤相当于给了它更多的「思考空间」，减少跳步导致的错误。

**应用场景**：数学问题、逻辑推理、复杂分析、多步决策。对简单任务（如翻译、改写）CoT反而会增加不必要的Token消耗。

实用建议

思维链不只是「一步步思考」这一种写法。你也可以用「先分析原因，再给出结论」「请列出你的推理过程」等方式引导AI展示推理步骤。

RAG：检索增强生成

**RAG（Retrieval-Augmented Generation）**是当前最重要的AI应用架构之一。核心思路：先从外部知识库中检索相关信息，再将检索结果作为上下文提供给LLM来生成回答。

**为什么需要RAG？** LLM有两大局限：1）知识截止日期——不知道训练数据之后发生的事；2）幻觉——可能自信地编造不存在的信息。RAG通过引入外部知识源来解决这两个问题。

**RAG的工作流程**：用户提问 → 将问题转为Embedding → 在向量数据库中搜索相似文档 → 将检索到的文档作为上下文传给LLM → LLM基于上下文生成回答。

**RAG的应用场景**：企业知识库问答、客服机器人、文档分析、法律条文查询、医疗知识问答——任何需要基于特定文档回答问题的场景。

重要提醒

RAG vs 微调：RAG适合知识经常更新的场景（更新文档即可），微调适合需要改变模型行为或风格的场景。很多时候RAG是比微调更经济、更灵活的方案。

Function Calling（函数调用）

**Function Calling是什么？** 让LLM能够调用外部工具和API的能力。LLM本身只能生成文本，但通过Function Calling，它可以查询天气、搜索数据库、发送邮件、执行代码等。

**工作流程**：用户提问「北京今天天气如何？」→ LLM判断需要调用天气API → 输出函数调用请求（函数名+参数）→ 应用层执行API调用 → 将结果返回给LLM → LLM用自然语言总结回答。

**核心价值**：让LLM从「只能聊天」变成「能做事」。这是AI Agent的技术基础——Agent就是能自主调用多个工具完成复杂任务的AI系统。

**支持Function Calling的模型**：GPT-4o、Claude 3.5、Gemini 1.5 Pro、Qwen等主流模型都支持。

多模态（Multimodal）

**多模态是什么？** 指AI模型能处理和生成多种类型的数据——不只是文字，还包括图像、音频、视频等。

**多模态输入**：GPT-4o可以同时接受文字+图片输入（如上传一张照片问「这是什么植物」）；Gemini可以直接处理视频内容。

**多模态输出**：DALL-E 3生成图片，Sora生成视频，TTS模型生成语音。目前最热门的方向是统一多模态模型——一个模型同时理解和生成文字、图像、音频。

**多模态的应用场景**：智能客服（语音+文字+图片）、文档理解（OCR+文字分析）、内容创作（文字生成配图）、医疗影像分析（图片+诊断文字）。

Hallucination（幻觉）

**幻觉是什么？** LLM自信地生成不正确、不存在或与事实不符的内容。例如编造不存在的论文引用、虚构法律条文、捏造统计数据。

**为什么会产生幻觉？** 因为LLM本质是根据概率预测下一个Token，而不是从知识库中检索事实。当模型缺乏相关知识时，它会基于模式继续「编」下去。

**如何减少幻觉？** 使用RAG引入外部知识源；在Prompt中要求模型「如果不确定请说不知道」；降低Temperature增加确定性；对关键信息人工核实。

注意事项

在涉及法律、医疗、财务等关键领域时，AI的输出必须经过专业人士核实。不要将未经验证的AI输出直接用于决策——幻觉问题尚未彻底解决。

本章术语速查表

**Prompt**：发送给AI的输入内容。**System Prompt**：设定模型角色和规则的指令。**Zero-shot**：不提供示例的提示方式。**Few-shot**：提供示例的提示方式。**CoT（思维链）**：引导AI展示推理步骤的技巧。**RAG**：检索增强生成，从外部知识库检索信息辅助生成。**Function Calling**：让LLM调用外部工具和API。**多模态**：处理和生成多种数据类型。**幻觉**：AI自信地生成不正确的内容。

RAG工作流程

用户提问

Embedding转换

向量数据库检索

Prompt技巧层级

Zero-shot(直接提问)

Few-shot(提供示例)

CoT(引导推理)

Agent(自主规划执行)

章节测验

1/4

1RAG的核心作用是什么？

下一章我们将探索AI Agent和工具生态——AI从「工具」进化为「助手」的关键概念。

大语言模型核心概念：Token、Embedding与Transformer

AI Agent与工具生态：MCP、LangChain与开发工具

本课程章节

AI基础概念与模型：从机器学习到大语言模型大语言模型核心概念：Token、Embedding与Transformer 提示词与交互技术：Prompt、RAG与Function Calling AI Agent与工具生态：MCP、LangChain与开发工具 AI行业术语与商业概念：从SaaS到AI治理

学完了吗？标记为已完成

完成所有章节后可获得证书

探索更多课程内容

查看完整课程大纲、认证指南和求职模板

查看完整课程