第1章

智能体概述

零基础认识AI智能体——从概念到组成的全面入门

🤖 什么是智能体(AI Agent)

想象一下,你有一个超级助理:

  • 他能听懂你说的话(感知环境)
  • 他能思考怎么做(做出决策)
  • 他能动手帮你做(执行动作)

这就是智能体(AI Agent)——一个像人一样能感知、能思考、能行动的AI系统。

💡 通俗理解
智能体 = 大脑(LLM)+ (工具)+ 记忆

就像一个人:大脑负责思考,手负责干活,记忆帮你记住事情。

用餐厅服务员来类比

┌─────────────────────────────────────────┐
│           餐厅服务员(智能体)            │
├─────────────────────────────────────────┤
│  🧠 大脑(LLM)                          │
│     → 理解客人点菜、推荐菜品、计算价格     │
├─────────────────────────────────────────┤
│  👂 感知(输入)                          │
│     → 听到客人说话、看到客人手势          │
├─────────────────────────────────────────┤
│  🖐️ 行动(输出)                         │
│     → 端菜上桌、结账收款、叫外卖          │
├─────────────────────────────────────────┤
│  📝 记忆(存储)                          │
│     → 记住常客口味、记录订单历史          │
└─────────────────────────────────────────┘
            

⭐ 智能体的核心特征

智能体有四大"超能力",让它们区别于普通程序:

特征 说明 生活类比
🤖 自主性 不需要人一步一步指挥,能独立完成任务 就像自动驾驶汽车,自己看路、自己开
⚡ 反应性 能感知环境变化并快速做出反应 像恒温空调,温度高了自动降温
🎯 主动性 主动追求目标,不只是被动响应 像贴心的秘书,主动提醒你明天开会
🤝 社会能力 能与其他智能体或人协作交流 像团队中的成员,能分工合作

🔍 智能体 vs 传统程序

很多人分不清智能体和普通程序的区别,我们用一张表说清楚:

对比维度 传统程序 AI智能体
执行方式 按固定规则执行,if...then... 理解意图,自主决策
灵活性 遇到没预设的情况就报错 能应对新情况,灵活处理
学习能力 写死就不会变 能从经验中学习优化
交互方式 人适应机器(学它的用法) 机器适应人(用自然语言)
🌰 举个例子
你说"帮我订个明天去上海的票":

传统程序:找不到"订"这个指令 → 报错 ❌
智能体:理解你要订票 → 查航班 → 选最优 → 帮你订 ✅

🌍 应用场景

智能体已经悄悄走进我们的生活,看看这些应用:

👤 个人助理

代表:AutoGPT

能帮你写邮件、查资料、做计划,你只需要说目标,它自己搞定过程

💻 代码助手

代表:GitHub Copilot

理解你的代码意图,自动补全、找bug、甚至帮你重构

🔬 科研助手

代表:Elicit、ResearchGPT

自动检索论文、整理文献、生成综述

🎮 游戏NPC

代表:《我的世界》AI玩家

有自主目标,会规划行动,让游戏世界更真实

🏗️ 智能体的组成

一个完整的智能体,由四个核心部分组成:

架构图

                    ┌─────────────┐
                    │    用户     │
                    │  (你)     │
                    └──────┬──────┘
                           │ 说:明天北京天气怎样?
                           ▼
    ┌─────────────────────────────────────────────────┐
    │                    智能体                         │
    │  ┌─────────┐  ┌─────────┐  ┌─────────┐  ┌────┐ │
    │  │  🧠    │  │  👁️    │  │  🖐️    │  │ 📝 │ │
    │  │  大脑  │◄─┤  感知  │  │  行动  │  │ 记忆│ │
    │  │ (LLM)  │  │        │  │        │  │     │ │
    │  └────┬────┘  └────────┘  └────┬────┘  └──┬─┘ │
    │       │                         │          │   │
    │       │ 1. 理解意图              │          │   │
    │       │ 2. 规划步骤              │          │   │
    │       ▼                         ▼          │   │
    │   "需要查天气→分析温度→给建议"   │          │   │
    │                              调用API       │   │
    │                               │            │   │
    │                               ▼            │   │
    │                         ┌──────────┐       │   │
    │                         │ 天气服务 │       │   │
    │                         │   API    │       │   │
    │                         └────┬─────┘       │   │
    │                              │            │   │
    │                              ▼            │   │
    │   "北京明天 15-22°C,晴"     ──────────────┘   │
    │       │                                       │
    │       ▼                                       │
    │   生成回复 → 保存到记忆                        │
    └───────┬───────────────────────────────────────┘
            │
            ▼
    "明天北京天气晴朗,15-22°C,建议穿薄外套~"
            

各部分详解

🧠 大脑(LLM)—— 推理决策中心

就像人类的大脑,负责理解、思考、做决策。通常是大语言模型(如GPT、Claude)。

它是智能体的"智商"来源,越聪明的大脑,智能体越厉害。

👁️ 感知 —— 接收输入

接收外界信息的方式:文字输入、语音、图像、传感器数据等。

就像人的眼睛、耳朵,让智能体能"看到"世界。

🖐️ 行动 —— 执行操作

智能体影响世界的方式:调用API、发送邮件、控制设备、生成图片等。

就像人的手,把想法变成实际行动。

📝 记忆 —— 存储信息

短期记忆:当前对话的上下文
长期记忆:用户的偏好、历史记录等

让智能体越用越懂你。

🌰 一个简单示例

来看一个完整的流程,感受智能体是如何工作的:

场景:查询天气并给出穿衣建议

1

用户输入

"明天北京天气怎样,适合穿什么?"

↓ 感知接收
2

大脑理解意图

LLM分析:用户想知道天气 + 需要穿衣建议

↓ 规划任务
3

决策行动

步骤1:调用天气API查询北京明天天气
步骤2:根据温度分析穿衣建议
步骤3:组织语言回复用户

↓ 执行调用
4

调用工具

调用 get_weather(city="北京", date="明天")

返回:明天晴,15-22°C,微风

↓ 分析结果
5

生成回复

LLM整合信息,生成自然语言回复

↓ 更新记忆
6

输出结果

"明天北京天气晴朗,温度15-22°C,比较舒适。建议穿长袖T恤+薄外套,早上出门可以带件防风外套~"

(同时记录:用户关心北京天气,可能住在北京或要去北京)

伪代码展示

# 智能体的简单伪代码

class Agent:
    def __init__(self):
        self.brain = LLM()          # 大脑:大语言模型
        self.memory = Memory()      # 记忆系统
        self.tools = [WeatherAPI()] # 可用工具
    
    def run(self, user_input):
        # 1. 感知:接收输入
        self.memory.add("user", user_input)
        
        # 2. 大脑:理解意图 + 规划任务
        plan = self.brain.think(
            input=user_input,
            memory=self.memory.get(),
            tools=self.tools
        )
        # plan = ["调用天气API", "分析穿衣建议", "回复用户"]
        
        # 3. 执行:调用工具
        result = self.tools["WeatherAPI"].call(city="北京", date="明天")
        
        # 4. 大脑:整合结果生成回复
        response = self.brain.generate(
            task="给出穿衣建议",
            weather=result,
            style="友好、实用"
        )
        
        # 5. 记忆:保存交互
        self.memory.add("assistant", response)
        
        return response
            

📚 本章小结

✅ 核心要点回顾
  • 智能体是能感知→决策→执行的AI系统
  • 智能体 = 大脑(LLM) + 感知 + 行动 + 记忆
  • 相比传统程序,智能体更灵活、自主、懂你
  • 核心特征:自主性、反应性、主动性、社会能力
⚠️ 常见误区
  • 不是所有AI都是智能体——简单的问答机器人不算
  • 智能体不是万能的——它依赖工具和数据
  • 智能体不是真正"有意识的"——只是模拟智能行为