Question 1

RAG 和微调有什么区别？

Accepted Answer

RAG 在查询时检索相关文档并将其作为上下文提供，使模型能够访问最新信息而无需重新训练。微调在训练数据上调整模型权重，更适合学习风格或格式，但无法在训练后添加新知识。

Question 2

如何选择不同的代理架构？

Accepted Answer

对交互式多步骤推理使用工具时选择 ReAct。对结构化 API 集成使用函数调用。对需要提前规划的复杂任务使用计划-执行模式。当不同子任务需要专业知识时使用多代理系统。

Question 3

生产环境应该使用哪个向量数据库？

Accepted Answer

对于高扩展性的托管服务，使用 Pinecone。对于支持 GraphQL 的自托管方案，使用 Weaviate。对于现有的 PostgreSQL 基础设施，使用 pgvector。对于原型开发，为简单起见使用 ChromaDB。

Question 4

如何降低 LLM API 成本？

Accepted Answer

对相似查询实施语义缓存，对简单任务使用较小的模型，优化提示词长度，设置适当的温度（对可缓存响应使用 0），以及在主要模型受到速率限制时使用降级模型。

Question 5

应该为 LLM 应用程序跟踪哪些指标？

Accepted Answer

跟踪性能指标（延迟、每秒令牌数）、质量指标（用户满意度、任务完成率）、成本指标（每次请求成本、缓存命中率）和可靠性指标（错误率、超时率）。

Question 6

如何处理 RAG 系统中的幻觉问题？

Accepted Answer

指示模型在上下文不足时说"我不知道"，在评估中使用基础评分，实施检索质量检查，并考虑添加验证步骤，让模型为其主张引用来源。

llm-app-patterns

测试它