提示词与交互技术:Prompt、RAG与Function Calling
掌握与AI交互的核心技术概念和方法论
本章学习要点
区分AI/AGI/ASI/ANI四个层次的含义
理解机器学习、深度学习与神经网络的关系
掌握训练(Training)与推理(Inference)的区别
了解模型参数量(7B/70B/405B)的实际意义
区分开源模型与闭源模型的优劣势
知道了AI如何工作还不够,更关键的是掌握如何与AI高效交互。本章将系统讲解Prompt工程、RAG、思维链、Function Calling和多模态等核心交互技术。
Prompt(提示词)
**Prompt是什么?** 你发送给AI模型的一切输入内容都叫Prompt——包括问题、指令、背景信息、示例等。Prompt的质量直接决定AI输出的质量。
**System Prompt(系统提示词)**:设定模型的角色、行为规则和输出格式的指令,用户通常看不到。例如:「你是一个专业的法律顾问,用通俗易懂的语言回答问题,回答长度控制在200字以内」。
**User Prompt(用户提示词)**:用户直接输入的内容,即具体的问题或请求。
**Prompt Engineering(提示词工程)**:通过精心设计Prompt来获得更好AI输出的技术和方法论。这是当前最低门槛、最高ROI的AI技能。
核心Prompt技巧
Zero-shot vs Few-shot
**Zero-shot(零样本)**:直接给AI任务,不提供示例。如:「把这段话翻译成英文」。适用于简单、明确的任务。
**Few-shot(少样本)**:在Prompt中提供1-5个输入-输出示例,帮AI理解你期望的格式和风格。效果通常比Zero-shot好得多。
**实例**:「请将产品描述改写为卖点——示例输入:'这款手机有6.7英寸屏幕'→ 示例输出:'超大6.7英寸巨屏,追剧游戏沉浸感满分'。现在请改写:'这款笔记本重量仅1.2kg'」
Chain of Thought(思维链,CoT)
**CoT是什么?** 让AI在给出最终答案前,先展示推理过程。简单地在Prompt末尾加上「请一步一步思考」就能显著提升复杂推理任务的准确率。
**为什么有效?** LLM的输出是逐Token生成的,让它先生成推理步骤相当于给了它更多的「思考空间」,减少跳步导致的错误。
**应用场景**:数学问题、逻辑推理、复杂分析、多步决策。对简单任务(如翻译、改写)CoT反而会增加不必要的Token消耗。
实用建议
思维链不只是「一步步思考」这一种写法。你也可以用「先分析原因,再给出结论」「请列出你的推理过程」等方式引导AI展示推理步骤。
RAG:检索增强生成
**RAG(Retrieval-Augmented Generation)**是当前最重要的AI应用架构之一。核心思路:先从外部知识库中检索相关信息,再将检索结果作为上下文提供给LLM来生成回答。
**为什么需要RAG?** LLM有两大局限:1)知识截止日期——不知道训练数据之后发生的事;2)幻觉——可能自信地编造不存在的信息。RAG通过引入外部知识源来解决这两个问题。
**RAG的工作流程**:用户提问 → 将问题转为Embedding → 在向量数据库中搜索相似文档 → 将检索到的文档作为上下文传给LLM → LLM基于上下文生成回答。
**RAG的应用场景**:企业知识库问答、客服机器人、文档分析、法律条文查询、医疗知识问答——任何需要基于特定文档回答问题的场景。
重要提醒
RAG vs 微调:RAG适合知识经常更新的场景(更新文档即可),微调适合需要改变模型行为或风格的场景。很多时候RAG是比微调更经济、更灵活的方案。
Function Calling(函数调用)
**Function Calling是什么?** 让LLM能够调用外部工具和API的能力。LLM本身只能生成文本,但通过Function Calling,它可以查询天气、搜索数据库、发送邮件、执行代码等。
**工作流程**:用户提问「北京今天天气如何?」→ LLM判断需要调用天气API → 输出函数调用请求(函数名+参数)→ 应用层执行API调用 → 将结果返回给LLM → LLM用自然语言总结回答。
**核心价值**:让LLM从「只能聊天」变成「能做事」。这是AI Agent的技术基础——Agent就是能自主调用多个工具完成复杂任务的AI系统。
**支持Function Calling的模型**:GPT-4o、Claude 3.5、Gemini 1.5 Pro、Qwen等主流模型都支持。
多模态(Multimodal)
**多模态是什么?** 指AI模型能处理和生成多种类型的数据——不只是文字,还包括图像、音频、视频等。
**多模态输入**:GPT-4o可以同时接受文字+图片输入(如上传一张照片问「这是什么植物」);Gemini可以直接处理视频内容。
**多模态输出**:DALL-E 3生成图片,Sora生成视频,TTS模型生成语音。目前最热门的方向是统一多模态模型——一个模型同时理解和生成文字、图像、音频。
**多模态的应用场景**:智能客服(语音+文字+图片)、文档理解(OCR+文字分析)、内容创作(文字生成配图)、医疗影像分析(图片+诊断文字)。
Hallucination(幻觉)
**幻觉是什么?** LLM自信地生成不正确、不存在或与事实不符的内容。例如编造不存在的论文引用、虚构法律条文、捏造统计数据。
**为什么会产生幻觉?** 因为LLM本质是根据概率预测下一个Token,而不是从知识库中检索事实。当模型缺乏相关知识时,它会基于模式继续「编」下去。
**如何减少幻觉?** 使用RAG引入外部知识源;在Prompt中要求模型「如果不确定请说不知道」;降低Temperature增加确定性;对关键信息人工核实。
注意事项
在涉及法律、医疗、财务等关键领域时,AI的输出必须经过专业人士核实。不要将未经验证的AI输出直接用于决策——幻觉问题尚未彻底解决。
本章术语速查表
**Prompt**:发送给AI的输入内容。**System Prompt**:设定模型角色和规则的指令。**Zero-shot**:不提供示例的提示方式。**Few-shot**:提供示例的提示方式。**CoT(思维链)**:引导AI展示推理步骤的技巧。**RAG**:检索增强生成,从外部知识库检索信息辅助生成。**Function Calling**:让LLM调用外部工具和API。**多模态**:处理和生成多种数据类型。**幻觉**:AI自信地生成不正确的内容。
RAG工作流程
Prompt技巧层级
章节测验
1RAG的核心作用是什么?
下一章我们将探索AI Agent和工具生态——AI从「工具」进化为「助手」的关键概念。
本课程章节
学完了吗?标记为已完成
完成所有章节后可获得证书