Question 1

RAG 和微調之間有什麼區別？

Accepted Answer

RAG 在查詢時檢索相關文件並將其作為上下文提供，使模型能夠存取最新資訊而無需重新訓練。微調在訓練資料上調整模型權重，更適合學習風格或格式，但無法在訓練後新增新知識。

Question 2

如何在不同的代理架構之間做選擇？

Accepted Answer

對於需要工具使用的互動式多步驟推理，使用 ReAct。對於結構化 API 整合，使用函式呼叫。對於需要預先規劃的複雜任務，使用 Plan-and-Execute。當不同子任務需要專業知識時，使用多代理系統。

Question 3

我應該為生產環境選擇什麼向量資料庫？

Accepted Answer

對於大規模的受管服務，使用 Pinecone。對於具備 GraphQL 的自託管方案，使用 Weaviate。對於現有的 PostgreSQL 基礎設施，使用 pgvector。對於原型開發，為了簡單性使用 ChromaDB。

Question 4

我如何降低 LLM API 成本？

Accepted Answer

針對類似查詢實作語意快取，對簡單任務使用較小的模型，優化提示長度，設定適當的溫度（對於可快取回應設為 0），並在主要模型受到速率限制時使用備援模型。

Question 5

我應該為 LLM 應用程式追蹤哪些指標？

Accepted Answer

追蹤效能指標（延遲、每秒 Token 數）、品質指標（使用者滿意度、任務完成率）、成本指標（每次請求成本、快取命中率）和可靠性指標（錯誤率、超時率）。

Question 6

我如何在 RAG 系統中處理幻覺？

Accepted Answer

當上下文不足時，指示模型說「我不知道」，在評估中使用真實性評分，實作檢索品質檢查，並考慮新增驗證步驟，讓模型為其主張引用來源。

llm-app-patterns

測試它