embedding-strategies
Optimizar Modelos de Embedding para Búsqueda Semántica
Elegir el modelo de embedding y la estrategia de fragmentación correctos es fundamental para la calidad de la recuperación. Esta habilidad proporciona plantillas y mejores prácticas para implementar pipelines de búsqueda vectorial de alta calidad.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "embedding-strategies". Recomienda un modelo de embedding para un sistema de búsqueda de documentos legales. Necesito alta precisión y puedo usar servicios API.
Résultat attendu:
- Recomendado: text-embedding-3-large (3072 dimensiones) o voyage-2 (1024 dimensiones)
- text-embedding-3-large: Mejor precisión, maneja 8191 tokens, ideal para cláusulas legales largas
- voyage-2: Especializado en legal/código, 1024 dimensiones, límite de 4000 tokens
- Considera fragmentar documentos legales por encabezados de sección para preservar el contexto de las cláusulas
Utilisation de "embedding-strategies". ¿Cómo debo fragmentar mi documentación técnica para un sistema RAG?
Résultat attendu:
- Estrategia: Usa fragmentación semántica por encabezados combinada con división recursiva de caracteres
- Tamaño de fragmento recomendado: 512 tokens con 50 tokens de superposición
- Preserva ejemplos de código como fragmentos completos
- Agrega metadatos de contexto vinculando fragmentos a secciones originales
Audit de sécurité
Risque faibleAll static findings are false positives. C2 keyword alerts triggered by hash hex strings. Weak crypto alerts from hash substrings. External command alerts from ASCII flow diagrams using arrows. Hardcoded URL alerts are legitimate documentation links. No malicious code, command execution, or data exfiltration patterns found.
Score de qualité
Ce que vous pouvez construire
Construir Sistemas RAG
Implementar generación aumentada por recuperación seleccionando modelos de embedding y estrategias de fragmentación apropiados para su corpus de documentos.
Optimizar Búsqueda Semántica
Mejorar la relevancia de búsqueda eligiendo modelos de embedding adecuados a su tipo de contenido e implementando fragmentación y preprocesamiento apropiados.
Crear Pipelines de Embedding
Construir pipelines escalables que procesen documentos, fragmenten contenido, generen embeddings y preparen registros para bases de datos vectoriales.
Essayez ces prompts
Necesito elegir un modelo de embedding para mi [use case: code search / multilingual documents / legal contracts]. Mis prioridades son [priority: accuracy / cost / speed]. Tengo [constraints: limit on dimensions / need open source / need API access]. Recomienda 3 modelos con justificación.
Ayúdame a implementar fragmentación para mi [data type: technical documentation / conversational data / code]. Necesito manejar [requirement: preserve context / maintain semantic boundaries / limit chunk size]. Proporciona código Python para fragmentación [strategy: token-based / sentence-based / recursive character].
Crea un pipeline en Python que [input: processes documents from source / generates embeddings / stores in vector database]. Incluye [feature: batching / progress tracking / metadata handling]. Usa [model: OpenAI embeddings / sentence-transformers].
Mi recuperación basada en embedding tiene [problem: low recall / inconsistent results / poor precision]. Mi configuración usa [model details]. Analiza las causas potenciales y sugiere mejoras para [metric: precision at k / recall / ndcg].
Bonnes pratiques
- Ajustar el modelo de embedding al tipo de contenido: código, prosa o multilingüe
- Normalizar embeddings para comparaciones confiables de similitud coseno
- Usar superposición de tokens al fragmentar para preservar el contexto entre límites
Éviter
- Mezclar diferentes modelos de embedding en el mismo índice
- Ignorar límites de tokens y truncar contenido a mitad de pensamiento
- Omitir el preprocesamiento, permitiendo que el ruido degrade la calidad del embedding
Foire aux questions
¿Con qué modelo de embedding debo comenzar?
¿Cómo elijo el tamaño del fragmento?
¿Puedo usar modelos de embedding locales?
¿Cómo evalúo la calidad de mi embedding?
¿Debo normalizar los embeddings?
¿Qué preprocesamiento debo aplicar?
Détails du développeur
Auteur
wshobsonLicence
MIT
Dépôt
https://github.com/wshobson/agents/tree/main/plugins/llm-application-dev/skills/embedding-strategiesRéf
main
Structure de fichiers
📄 SKILL.md