📊

umap-learn

Name: umap-learn
Author: K-Dense-AI

Seguro ⚙️ Comandos externos

Aplicar redução de dimensionalidade UMAP para visualização de dados

Também disponível em: davila7

Dados de alta dimensionalidade são difíceis de visualizar e analisar. O UMAP reduz dimensões enquanto preserva a estrutura, permitindo visualizações claras em 2D/3D e melhores resultados de clustering.

Suporta: Claude Codex Code(CC)

📊 69 Adequado

Baixar o ZIP da skill

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

Ative e comece a usar

Testar

A utilizar "umap-learn". Apply UMAP to visualize my iris dataset in 2D

Resultado esperado:

Created UMAP embedding with shape (150, 2)
Applied StandardScaler preprocessing
Generated scatter plot showing three distinct clusters
Preserved 92% of local neighborhood structure
Ready for interactive exploration of species relationships

A utilizar "umap-learn". Use UMAP to preprocess my customer data for clustering

Resultado esperado:

Applied clustering-optimized UMAP with n_neighbors=30, min_dist=0.0
Reduced to 10 dimensions for HDBSCAN
Identified 5 customer segments with HDBSCAN
Found 23 noise points (unassigned customers)
Density preserved better than direct 2D reduction

A utilizar "umap-learn". Apply supervised UMAP with my labeled dataset

Resultado esperado:

Used 5000 labeled samples with 50 features
Supervised embedding achieved 0.89 cluster separation
Classes are clearly visible in 2D visualization
Preserved internal structure within each class

Auditoria de Segurança

Seguro

v4 • 1/17/2026

All static findings are false positives. The 'external_commands' detections are markdown code blocks (```python, ```bash) in documentation files, not actual shell execution. No malicious code, network requests, or security risks exist. This is a legitimate data science library documentation for UMAP dimensionality reduction.

Arquivos analisados

1,740

Linhas analisadas

achados

Total de auditorias

Fatores de risco

⚙️ Comandos externos (6)

SKILL.md:19-21 SKILL.md:27-41 SKILL.md:130-142 references/api_reference.md:5 references/api_reference.md:34-45 references/api_reference.md:378-397

Auditado por: claude Ver Histórico de Auditoria →

Pontuação de qualidade

Arquitetura

100

Manutenibilidade

Conteúdo

Comunidade

100

Segurança

Conformidade com especificações

O Que Você Pode Construir

Visualizar conjuntos de dados de alta dimensionalidade

Criar gráficos de dispersão 2D de dados complexos como expressão gênica, embeddings de texto ou comportamento do cliente para descoberta de padrões.

Pré-processar dados para clustering

Reduzir dimensões antes de aplicar HDBSCAN para superar a maldição da dimensionalidade e melhorar a qualidade dos clusters.

Engenharia de características para pipelines de ML

Criar embeddings compactos de 10-50 dimensões que preservam a estrutura para tarefas de classificação ou regressão downstream.

Tente Estes Prompts

Visualização básica

Aplique UMAP para reduzir meu conjunto de dados para 2D para visualização. Use parâmetros padrão e crie um gráfico de dispersão colorido pela variável alvo.

Otimização de clustering

Configure UMAP para pré-processamento de clustering com n_neighbors=30, min_dist=0.0, n_components=10, depois aplique HDBSCAN para encontrar clusters.

Embedding supervisionado

Crie um embedding UMAP supervisionado usando meus rótulos de classe para separar categorias, preservando a estrutura interna de cada classe.

Seleção de métrica personalizada

Aplique UMAP com distância cossena para meus embeddings de documento, ou use distância de hamming para dados de características binárias.

Melhores Práticas

Sempre padronize as características antes de aplicar UMAP para garantir ponderação igual entre as dimensões
Defina o parâmetro random_state para resultados reprodutíveis entre execuções
Use n_neighbors=30, min_dist=0.0, n_components=10 para workflows de pré-processamento de clustering

Evitar

Aplicar UMAP a dados brutos sem escala produzirá embeddings tendenciosos com ponderação desigual de características
Usar parâmetros padrão para todas as tarefas sem ajustar para objetivos específicos reduz a eficácia
Assumir que UMAP preserva perfeitamente a densidade - ele pode criar divisões artificiais de cluster

Perguntas Frequentes

Quando devo usar UMAP vs t-SNE?

Use UMAP para computação mais rápida, melhor preservação da estrutura global e quando precisar transformar novos dados. UMAP escala melhor para conjuntos de dados maiores.

Por que meus clusters estão desconectados?

Aumente o parâmetro n_neighbors para enfatizar mais a estrutura global e conectar componentes fragmentados. Valores de 50-200 funcionam bem.

Como torno os resultados reprodutíveis?

Defina o parâmetro random_state para qualquer valor inteiro. Isso corrige a semente da otimização estocástica para embeddings consistentes.

UMAP pode lidar com variáveis categóricas?

UMAP funciona com dados numéricos. Codifique variáveis categóricas usando codificação one-hot ou use distância de hamming para dados codificados binariamente.

Qual é a diferença entre fit() e fit_transform()?

fit_transform() combina treinamento e transformação em uma etapa. Use fit() seguido de transform() quando precisar aplicar o mesmo embedding a novos dados.

Como escolho o número certo de componentes?

Use 2-3 para visualização, 5-10 para pré-processamento de clustering, e 10-50 para engenharia de características em pipelines de machine learning.

Detalhes do Desenvolvedor

Autor

K-Dense-AI

Licença

BSD-3-Clause license

Repositório

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/umap-learn

Referência

main

Estrutura de arquivos

📁 references/

📄 api_reference.md

📄 SKILL.md