技能 embedding-strategies

📦

embedding-strategies

Name: embedding-strategies
Author: wshobson

低风险

优化嵌入模型以实现语义搜索

也可从以下获取: sickn33

选择正确的嵌入模型和分块策略对检索质量至关重要。此技能提供模板和最佳实践,用于实现高质量的向量搜索管道。

支持: Claude Codex Code(CC)

⚠️ 68 差

下载技能 ZIP

在 Claude 中上传

前往设置 → 功能 → 技能 → 上传技能

开启并开始使用

测试它

正在使用“embedding-strategies”。为法律文档搜索系统推荐嵌入模型。我需要高精度并且可以使用 API 服务。

预期结果:

推荐:text-embedding-3-large(3072 维)或 voyage-2(1024 维)
text-embedding-3-large:最佳精度,处理 8191 个 token,非常适合长法律条款
voyage-2:专门用于法律/代码,1024 维,4000 token 限制
考虑按章节标题分块法律文档以保留条款上下文

正在使用“embedding-strategies”。我应该如何为 RAG 系统分块我的技术文档?

预期结果:

策略:使用按标题的语义分块结合递归字符拆分
推荐分块大小:512 个 token,50 个 token 重叠
将代码示例保留为完整分块
添加将分块链接到原始章节的上下文元数据

安全审计

低风险

v5 • 1/21/2026

All static findings are false positives. C2 keyword alerts triggered by hash hex strings. Weak crypto alerts from hash substrings. External command alerts from ASCII flow diagrams using arrows. Hardcoded URL alerts are legitimate documentation links. No malicious code, command execution, or data exfiltration patterns found.

已扫描文件

818

分析行数

发现项

审计总数

未发现安全问题

审计者: claude 查看审计历史 →

质量评分

架构

100

可维护性

内容

社区

安全

规范符合性

你能构建什么

构建 RAG 系统

通过为文档语料库选择适当的嵌入模型和分块策略来实现检索增强生成。

优化语义搜索

通过选择与内容类型匹配的嵌入模型并实现适当的分块和预处理来提高搜索相关性。

创建嵌入管道

构建可扩展的管道,用于处理文档、分块内容、生成嵌入并为向量数据库准备记录。

试试这些提示

选择嵌入模型

我需要为我的 [use case: code search / multilingual documents / legal contracts] 选择一个嵌入模型。我的优先级是 [priority: accuracy / cost / speed]。我有 [constraints: limit on dimensions / need open source / need API access]。推荐 3 个模型并说明理由。

实现分块策略

帮我为我的 [data type: technical documentation / conversational data / code] 实现分块。我需要处理 [requirement: preserve context / maintain semantic boundaries / limit chunk size]。提供 [strategy: token-based / sentence-based / recursive character] 分块的 Python 代码。

构建嵌入管道

创建一个 Python 管道,用于 [input: processes documents from source / generates embeddings / stores in vector database]。包括 [feature: batching / progress tracking / metadata handling]。使用 [model: OpenAI embeddings / sentence-transformers]。

评估检索质量

我的基于嵌入的检索存在 [problem: low recall / inconsistent results / poor precision]。我的设置使用 [model details]。分析潜在原因并提出改进 [metric: precision at k / recall / ndcg] 的建议。

最佳实践

将嵌入模型与内容类型匹配:代码、文本或多语言
标准化嵌入以实现可靠的余弦相似度比较
在分块时使用 token 重叠以保留跨边界的上下文

避免

在同一索引中混合不同的嵌入模型
忽略 token 限制并在思路中间截断内容
跳过预处理,允许噪声降低嵌入质量

常见问题

我应该从哪个嵌入模型开始?

一般用途从 text-embedding-3-small 开始。它平衡了成本和质量。如果需要更高的精度,请切换到 text-embedding-3-large,或针对代码和法律内容使用 voyage-2。

我如何选择分块大小?

对于大多数用例,512 个 token 是一个很好的起点。根据内容复杂性和模型 token 限制进行调整。重叠 50 个 token 以保持跨分块的上下文。

我可以使用本地嵌入模型吗?

可以。Sentence-transformers 支持 BAAI/bge-large-en-v1.5 和 intfloat/multilingual-e5-large 等模型。这些模型在本地运行,适用于开源或离线场景。

我如何评估嵌入质量?

使用 precision@k、recall@k、MRR 和 NDCG@k 指标。使用已知相关文档进行测试,并将检索结果与真实标准进行比较。

我应该标准化嵌入吗?

可以。在使用余弦相似度之前标准化嵌入。大多数现代嵌入模型默认生成标准化向量,但本地模型可能需要显式标准化。

我应该应用什么预处理?

删除过多的空白,标准化 unicode 字符,并过滤特殊字符。保持内容在语义上有意义。代码或结构化数据可能需要特定领域的清理。

开发者详情

作者

wshobson

许可证

MIT

仓库

https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/embedding-strategies

引用

main

文件结构

📄 SKILL.md