Compétences umap-learn
📊

umap-learn

Sûr ⚙️ Commandes externes

Aplicar redução de dimensionalidade UMAP para visualização de dados

Également disponible depuis: davila7

Dados de alta dimensionalidade são difíceis de visualizar e analisar. O UMAP reduz dimensões enquanto preserva a estrutura, permitindo visualizações claras em 2D/3D e melhores resultados de clustering.

Prend en charge: Claude Codex Code(CC)
📊 69 Adéquat
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Tester

Utilisation de "umap-learn". Apply UMAP to visualize my iris dataset in 2D

Résultat attendu:

  • Created UMAP embedding with shape (150, 2)
  • Applied StandardScaler preprocessing
  • Generated scatter plot showing three distinct clusters
  • Preserved 92% of local neighborhood structure
  • Ready for interactive exploration of species relationships

Utilisation de "umap-learn". Use UMAP to preprocess my customer data for clustering

Résultat attendu:

  • Applied clustering-optimized UMAP with n_neighbors=30, min_dist=0.0
  • Reduced to 10 dimensions for HDBSCAN
  • Identified 5 customer segments with HDBSCAN
  • Found 23 noise points (unassigned customers)
  • Density preserved better than direct 2D reduction

Utilisation de "umap-learn". Apply supervised UMAP with my labeled dataset

Résultat attendu:

  • Used 5000 labeled samples with 50 features
  • Supervised embedding achieved 0.89 cluster separation
  • Classes are clearly visible in 2D visualization
  • Preserved internal structure within each class

Audit de sécurité

Sûr
v4 • 1/17/2026

All static findings are false positives. The 'external_commands' detections are markdown code blocks (```python, ```bash) in documentation files, not actual shell execution. No malicious code, network requests, or security risks exist. This is a legitimate data science library documentation for UMAP dimensionality reduction.

3
Fichiers analysés
1,740
Lignes analysées
1
résultats
4
Total des audits

Score de qualité

41
Architecture
100
Maintenabilité
87
Contenu
21
Communauté
100
Sécurité
83
Conformité aux spécifications

Ce que vous pouvez construire

Visualizar conjuntos de dados de alta dimensionalidade

Criar gráficos de dispersão 2D de dados complexos como expressão gênica, embeddings de texto ou comportamento do cliente para descoberta de padrões.

Pré-processar dados para clustering

Reduzir dimensões antes de aplicar HDBSCAN para superar a maldição da dimensionalidade e melhorar a qualidade dos clusters.

Engenharia de características para pipelines de ML

Criar embeddings compactos de 10-50 dimensões que preservam a estrutura para tarefas de classificação ou regressão downstream.

Essayez ces prompts

Visualização básica
Aplique UMAP para reduzir meu conjunto de dados para 2D para visualização. Use parâmetros padrão e crie um gráfico de dispersão colorido pela variável alvo.
Otimização de clustering
Configure UMAP para pré-processamento de clustering com n_neighbors=30, min_dist=0.0, n_components=10, depois aplique HDBSCAN para encontrar clusters.
Embedding supervisionado
Crie um embedding UMAP supervisionado usando meus rótulos de classe para separar categorias, preservando a estrutura interna de cada classe.
Seleção de métrica personalizada
Aplique UMAP com distância cossena para meus embeddings de documento, ou use distância de hamming para dados de características binárias.

Bonnes pratiques

  • Sempre padronize as características antes de aplicar UMAP para garantir ponderação igual entre as dimensões
  • Defina o parâmetro random_state para resultados reprodutíveis entre execuções
  • Use n_neighbors=30, min_dist=0.0, n_components=10 para workflows de pré-processamento de clustering

Éviter

  • Aplicar UMAP a dados brutos sem escala produzirá embeddings tendenciosos com ponderação desigual de características
  • Usar parâmetros padrão para todas as tarefas sem ajustar para objetivos específicos reduz a eficácia
  • Assumir que UMAP preserva perfeitamente a densidade - ele pode criar divisões artificiais de cluster

Foire aux questions

Quando devo usar UMAP vs t-SNE?
Use UMAP para computação mais rápida, melhor preservação da estrutura global e quando precisar transformar novos dados. UMAP escala melhor para conjuntos de dados maiores.
Por que meus clusters estão desconectados?
Aumente o parâmetro n_neighbors para enfatizar mais a estrutura global e conectar componentes fragmentados. Valores de 50-200 funcionam bem.
Como torno os resultados reprodutíveis?
Defina o parâmetro random_state para qualquer valor inteiro. Isso corrige a semente da otimização estocástica para embeddings consistentes.
UMAP pode lidar com variáveis categóricas?
UMAP funciona com dados numéricos. Codifique variáveis categóricas usando codificação one-hot ou use distância de hamming para dados codificados binariamente.
Qual é a diferença entre fit() e fit_transform()?
fit_transform() combina treinamento e transformação em uma etapa. Use fit() seguido de transform() quando precisar aplicar o mesmo embedding a novos dados.
Como escolho o número certo de componentes?
Use 2-3 para visualização, 5-10 para pré-processamento de clustering, e 10-50 para engenharia de características em pipelines de machine learning.

Détails du développeur

Structure de fichiers