embedding-strategies
Otimizar Modelos de Embedding para Busca Semântica
Escolher o modelo de embedding e a estratégia de chunking corretos é fundamental para a qualidade da recuperação. Esta skill fornece templates e melhores práticas para implementar pipelines de busca vetorial de alta qualidade.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "embedding-strategies". Recomende um modelo de embedding para um sistema de busca de documentos jurídicos. Preciso de alta precisão e posso usar serviços de API.
Résultat attendu:
- Recomendado: text-embedding-3-large (3072 dimensões) ou voyage-2 (1024 dimensões)
- text-embedding-3-large: Melhor precisão, lida com 8191 tokens, ideal para cláusulas jurídicas longas
- voyage-2: Especializado para jurídico/código, 1024 dimensões, limite de 4000 tokens
- Considere dividir documentos jurídicos por cabeçalhos de seção para preservar contexto de cláusulas
Utilisation de "embedding-strategies". Como devo dividir minha documentação técnica em chunks para um sistema RAG?
Résultat attendu:
- Estratégia: Use chunking semântico por cabeçalhos combinado com divisão recursiva de caracteres
- Tamanho de chunk recomendado: 512 tokens com sobreposição de 50 tokens
- Preserve exemplos de código como chunks completos
- Adicione metadados de contexto vinculando chunks às seções originais
Audit de sécurité
Risque faibleAll static findings are false positives. C2 keyword alerts triggered by hash hex strings. Weak crypto alerts from hash substrings. External command alerts from ASCII flow diagrams using arrows. Hardcoded URL alerts are legitimate documentation links. No malicious code, command execution, or data exfiltration patterns found.
Score de qualité
Ce que vous pouvez construire
Construir Sistemas RAG
Implementar geração aumentada por recuperação selecionando modelos de embedding e estratégias de chunking apropriados para seu corpus de documentos.
Otimizar Busca Semântica
Melhorar a relevância da busca escolhendo modelos de embedding adequados ao seu tipo de conteúdo e implementando chunking e pré-processamento adequados.
Criar Pipelines de Embedding
Construir pipelines escaláveis que processam documentos, dividem conteúdo em chunks, geram embeddings e preparam registros para bancos de dados vetoriais.
Essayez ces prompts
Preciso escolher um modelo de embedding para meu [use case: code search / multilingual documents / legal contracts]. Minhas prioridades são [priority: accuracy / cost / speed]. Tenho [constraints: limit on dimensions / need open source / need API access]. Recomende 3 modelos com justificativa.
Ajude-me a implementar chunking para meu [data type: technical documentation / conversational data / code]. Preciso lidar com [requirement: preserve context / maintain semantic boundaries / limit chunk size]. Forneça código Python para chunking [strategy: token-based / sentence-based / recursive character].
Crie um pipeline Python que [input: processes documents from source / generates embeddings / stores in vector database]. Inclua [feature: batching / progress tracking / metadata handling]. Use [model: OpenAI embeddings / sentence-transformers].
Minha recuperação baseada em embedding tem [problem: low recall / inconsistent results / poor precision]. Minha configuração usa [model details]. Analise causas potenciais e sugira melhorias para [metric: precision at k / recall / ndcg].
Bonnes pratiques
- Combine o modelo de embedding ao tipo de conteúdo: código, prosa ou multilíngue
- Normalize embeddings para comparações confiáveis de similaridade de cosseno
- Use sobreposição de tokens ao dividir em chunks para preservar contexto entre limites
Éviter
- Misturar diferentes modelos de embedding no mesmo índice
- Ignorar limites de tokens e truncar conteúdo no meio do pensamento
- Pular pré-processamento, permitindo que ruído degrade a qualidade do embedding
Foire aux questions
Qual modelo de embedding devo começar a usar?
Como escolho o tamanho do chunk?
Posso usar modelos de embedding locais?
Como avalio a qualidade do meu embedding?
Devo normalizar embeddings?
Qual pré-processamento devo aplicar?
Détails du développeur
Auteur
wshobsonLicence
MIT
Dépôt
https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/embedding-strategiesRéf
main
Structure de fichiers
📄 SKILL.md