rag-engineer
构建生产级RAG系统
RAG系统常因分块策略不当和简单检索而失败。本技能提供语义分块、混合检索和上下文优化的专家级模式,帮助构建生产级检索系统。
تنزيل ZIP المهارة
رفع في Claude
اذهب إلى Settings → Capabilities → Skills → Upload skill
فعّل وابدأ الاستخدام
اختبرها
استخدام "rag-engineer". How should I chunk PDF documents with headers and tables for a RAG system?
النتيجة المتوقعة:
使用尊重文档结构的语义分块:(1) 解析PDF以提取标题、段落和表格边界,(2) 在保留标题元数据的同时按段落级别分块,(3) 在块之间包含10-20%的重叠以保持上下文连续性,(4) 存储结构元数据以便在检索期间过滤。这种方法比固定令牌分块更好地保持意义。
استخدام "rag-engineer". My RAG system returns relevant documents but the answers are still poor. How do I debug this?
النتيجة المتوقعة:
将检索评估与生成分离:(1) 通过手动检查top-k结果来检查检索精度,(2) 在测试集上测量命中率和MRR,(3) 如果检索看起来良好,问题在于你的提示或LLM选择。常见修复:在初始检索和最终生成之间添加重排序步骤。
التدقيق الأمني
آمنAll 16 static findings evaluated as false positives. The skill is a legitimate RAG (Retrieval-Augmented Generation) engineering documentation skill. External commands flagged are markdown code fence syntax (backticks) showing JavaScript examples. Cryptographic and reconnaissance warnings match keywords in context of semantic search and data pipelines, not security-relevant code.
مشكلات حرجة (3)
درجة الجودة
ماذا يمكنك بناءه
构建文档问答系统
创建基于RAG的问答系统,能够从大型文档集合中准确检索相关上下文
提升现有RAG准确性
使用高级分块和混合检索诊断并修复现有RAG实现中的检索质量问题
设计多跳推理系统
构建能够回答需要来自多个源文档信息的复杂问题的系统
جرّب هذه الموجهات
对于RAG系统,我应该如何对[文档类型]进行分块?哪些策略可以保留意义和上下文?
设计一个结合BM25关键词匹配与向量相似度的混合检索系统。我如何融合这些分数?
如何独立于LLM生成来评估检索系统?我应该跟踪哪些指标?
أفضل الممارسات
- 始终使用命中率和MRR等指标独立于生成质量评估检索质量
- 使用尊重文档结构的语义分块,而非固定令牌计数
- 实现混合检索以结合语义理解与精确关键词匹配
تجنب
- 无论内容结构如何都使用固定大小分块——这会破坏句子并丢失意义
- 不加过滤地嵌入所有内容——增加成本并降低相关性
- 跳过检索评估——假设生成问题总是LLM的问题