
什麼是 AI Agent?從概念到實踐的完整指南
2026年2月9日 · waiting7777 · 3 分鐘閱讀
AI為什麼現在都在談 AI Agent?
2024 年 ChatGPT 讓大家認識了大型語言模型(LLM),但 2025–2026 年真正的主角是 AI Agent。
差別在哪?ChatGPT 是你問一句、它答一句。AI Agent 則是你給一個目標,它自己拆解步驟、呼叫工具、處理錯誤,直到任務完成。
「LLM 是大腦,Agent 是有手有腳的完整個體。」
AI Agent 的核心組成
一個 AI Agent 通常包含四個部分:
1. 感知(Perception)
Agent 需要接收外部資訊。可能是:
- 使用者的自然語言指令
- 網頁內容(透過爬蟲或瀏覽器自動化)
- API 回傳的結構化資料
- 資料庫查詢結果
2. 規劃(Planning)
這是 Agent 最核心的能力。收到任務後,Agent 會:
- 將大目標拆解成小步驟
- 決定每一步該用什麼工具
- 預判可能的失敗路徑並準備 fallback
常見的規劃策略包括 ReAct(Reasoning + Acting)和 Plan-and-Execute。
3. 工具使用(Tool Use)
Agent 的「手腳」。常見的工具包括:
- 搜尋引擎:查找最新資訊
- 程式碼執行器:跑 Python、SQL
- 瀏覽器自動化:Playwright 操作網頁
- API 呼叫:串接第三方服務
- 檔案系統:讀寫文件
4. 記憶(Memory)
- 短期記憶:當前對話的上下文
- 長期記憶:向量資料庫儲存的歷史知識
- 工作記憶:當前任務的中間狀態
一個真實的例子
假設你對 Agent 說:「幫我研究最近聯盟戰棋的 Meta,整理出前三名的陣容和裝備建議。」
Agent 會:
- 規劃:需要爬取數據 → 分析勝率 → 整理報告
- 執行:用 Playwright 打開戰績網站,抓取排行資料
- 處理:用 LLM 分析數據,比較各陣容的勝率和使用率
- 輸出:產出結構化的 Meta 報告
整個過程不需要你逐步指揮,Agent 自主完成。
Agent vs. Chatbot vs. Copilot
| Chatbot | Copilot | Agent | |
|---|---|---|---|
| 互動方式 | 一問一答 | 即時建議 | 自主執行 |
| 能否使用工具 | 通常不行 | 有限 | 完整工具鏈 |
| 任務複雜度 | 單輪 | 輔助單步 | 多步驟流程 |
| 代表產品 | ChatGPT(基礎) | GitHub Copilot | Devin、Manus |
技術棧一覽
如果你想自己打造 AI Agent,常見的技術組合:
- 框架:LangChain / LangGraph / CrewAI
- LLM:OpenAI GPT-4o、Claude、Gemini
- 向量資料庫:Pinecone、Supabase pgvector
- 瀏覽器自動化:Playwright
- 部署:Docker + GCP / AWS
Agent 的挑戰
不是所有事情都很美好:
- 幻覺問題:Agent 可能基於錯誤資訊做出整條錯誤的決策鏈
- 成本控制:多步驟任務意味著多次 LLM 呼叫,Token 費用會累積
- 安全性:Agent 有執行能力,如果被注入惡意指令後果更嚴重
- 可觀測性:多步驟的 Agent 很難 debug,需要完善的 logging
寫在最後
AI Agent 是 LLM 從「會說話」到「會做事」的關鍵進化。作為開發者,現在正是最好的時機去理解並實踐這項技術。
在 BridgeCraft,我正在將前端工程的嚴謹與 AI Agent 的可能性結合,打造真正的智慧型應用。如果你也對這個方向有興趣,歡迎透過聯絡表單交流。
這是 BridgeCraft「AI Agent 系列」的第一篇,後續會分享實作 LangChain Agent、瀏覽器自動化 Agent 等主題。
訂閱電子報
AI Agent、前端開發、技術深度文章 — 有新內容時直接寄到你的信箱。
