什麼是 AI Agent？從概念到實踐的完整指南

2026年2月9日 · waiting7777 · 3 分鐘閱讀

為什麼現在都在談 AI Agent？

2024 年 ChatGPT 讓大家認識了大型語言模型（LLM），但 2025–2026 年真正的主角是 AI Agent。

差別在哪？ChatGPT 是你問一句、它答一句。AI Agent 則是你給一個目標，它自己拆解步驟、呼叫工具、處理錯誤，直到任務完成。

「LLM 是大腦，Agent 是有手有腳的完整個體。」

AI Agent 的核心組成

一個 AI Agent 通常包含四個部分：

1. 感知（Perception）

Agent 需要接收外部資訊。可能是：

使用者的自然語言指令
網頁內容（透過爬蟲或瀏覽器自動化）
API 回傳的結構化資料
資料庫查詢結果

2. 規劃（Planning）

這是 Agent 最核心的能力。收到任務後，Agent 會：

將大目標拆解成小步驟
決定每一步該用什麼工具
預判可能的失敗路徑並準備 fallback

常見的規劃策略包括 ReAct（Reasoning + Acting）和 Plan-and-Execute。

3. 工具使用（Tool Use）

Agent 的「手腳」。常見的工具包括：

搜尋引擎：查找最新資訊
程式碼執行器：跑 Python、SQL
瀏覽器自動化：Playwright 操作網頁
API 呼叫：串接第三方服務
檔案系統：讀寫文件

4. 記憶（Memory）

短期記憶：當前對話的上下文
長期記憶：向量資料庫儲存的歷史知識
工作記憶：當前任務的中間狀態

一個真實的例子

假設你對 Agent 說：「幫我研究最近聯盟戰棋的 Meta，整理出前三名的陣容和裝備建議。」

Agent 會：

規劃：需要爬取數據 → 分析勝率 → 整理報告
執行：用 Playwright 打開戰績網站，抓取排行資料
處理：用 LLM 分析數據，比較各陣容的勝率和使用率
輸出：產出結構化的 Meta 報告

整個過程不需要你逐步指揮，Agent 自主完成。

Agent vs. Chatbot vs. Copilot

	Chatbot	Copilot	Agent
互動方式	一問一答	即時建議	自主執行
能否使用工具	通常不行	有限	完整工具鏈
任務複雜度	單輪	輔助單步	多步驟流程
代表產品	ChatGPT（基礎）	GitHub Copilot	Devin、Manus

技術棧一覽

如果你想自己打造 AI Agent，常見的技術組合：

框架：LangChain / LangGraph / CrewAI
LLM：OpenAI GPT-4o、Claude、Gemini
向量資料庫：Pinecone、Supabase pgvector
瀏覽器自動化：Playwright
部署：Docker + GCP / AWS

Agent 的挑戰

不是所有事情都很美好：

幻覺問題：Agent 可能基於錯誤資訊做出整條錯誤的決策鏈
成本控制：多步驟任務意味著多次 LLM 呼叫，Token 費用會累積
安全性：Agent 有執行能力，如果被注入惡意指令後果更嚴重
可觀測性：多步驟的 Agent 很難 debug，需要完善的 logging

寫在最後

AI Agent 是 LLM 從「會說話」到「會做事」的關鍵進化。作為開發者，現在正是最好的時機去理解並實踐這項技術。

在 BridgeCraft，我正在將前端工程的嚴謹與 AI Agent 的可能性結合，打造真正的智慧型應用。如果你也對這個方向有興趣，歡迎透過聯絡表單交流。

這是 BridgeCraft「AI Agent 系列」的第一篇，後續會分享實作 LangChain Agent、瀏覽器自動化 Agent 等主題。

訂閱電子報

AI Agent、前端開發、技術深度文章 — 有新內容時直接寄到你的信箱。