📊

umap-learn

Name: umap-learn
Author: K-Dense-AI

Sûr ⚙️ Commandes externes

Appliquer la réduction de dimensionnalité UMAP pour la visualisation de données

Également disponible depuis: davila7

Les données de haute dimension sont difficiles à visualiser et à analyser. UMAP réduit les dimensions tout en préservant la structure, permettant des visualisations claires en 2D/3D et de meilleurs résultats de clustering.

Prend en charge: Claude Codex Code(CC)

📊 69 Adéquat

Télécharger le ZIP du skill

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

Activez et commencez à utiliser

Tester

Utilisation de "umap-learn". Appliquer UMAP pour visualiser mon jeu de données iris en 2D

Résultat attendu:

Embedding UMAP créé avec la forme (150, 2)
Prétraitement StandardScaler appliqué
Nuage de points généré montrant trois clusters distincts
92% de la structure de voisinage local préservée
Prêt pour l'exploration interactive des relations entre espèces

Utilisation de "umap-learn". Utiliser UMAP pour prétraiter mes données clients pour le clustering

Résultat attendu:

UMAP optimisé pour le clustering appliqué avec n_neighbors=30, min_dist=0.0
Réduit à 10 dimensions pour HDBSCAN
5 segments de clients identifiés avec HDBSCAN
23 points de bruit trouvés (clients non assignés)
Densité mieux préservée qu'avec une réduction directe en 2D

Utilisation de "umap-learn". Appliquer UMAP supervisé avec mon jeu de données étiqueté

Résultat attendu:

5000 échantillons étiquetés utilisés avec 50 caractéristiques
Embedding supervisé atteint une séparation de clusters de 0.89
Les classes sont clairement visibles dans la visualisation 2D
Structure interne préservée au sein de chaque classe

Audit de sécurité

Sûr

v4 • 1/17/2026

All static findings are false positives. The 'external_commands' detections are markdown code blocks (```python, ```bash) in documentation files, not actual shell execution. No malicious code, network requests, or security risks exist. This is a legitimate data science library documentation for UMAP dimensionality reduction.

Fichiers analysés

1,740

Lignes analysées

résultats

Total des audits

Facteurs de risque

⚙️ Commandes externes (6)

SKILL.md:19-21 SKILL.md:27-41 SKILL.md:130-142 references/api_reference.md:5 references/api_reference.md:34-45 references/api_reference.md:378-397

Audité par: claude Voir l’historique des audits →

Score de qualité

Architecture

100

Maintenabilité

Contenu

Communauté

100

Sécurité

Conformité aux spécifications

Ce que vous pouvez construire

Visualiser des ensembles de données de haute dimension

Créer des nuages de points 2D de données complexes comme l'expression génique, les embeddings de texte ou le comportement des clients pour la découverte de motifs.

Prétraiter les données pour le clustering

Réduire les dimensions avant d'appliquer HDBSCAN pour surmonter la malédiction de la dimensionnalité et améliorer la qualité des clusters.

Feature engineering pour les pipelines ML

Créer des embeddings compacts de 10 à 50 dimensions qui préservent la structure pour les tâches de classification ou de régression en aval.

Essayez ces prompts

Visualisation de base

Appliquer UMAP pour réduire mon ensemble de données en 2D pour la visualisation. Utiliser les paramètres standard et créer un nuage de points colorisé par la variable cible.

Optimisation du clustering

Configurer UMAP pour le prétraitement du clustering avec n_neighbors=30, min_dist=0.0, n_components=10, puis appliquer HDBSCAN pour trouver les clusters.

Embedding supervisé

Créer un embedding UMAP supervisé en utilisant mes étiquettes de classes pour séparer les catégories tout en préservant la structure interne de chaque classe.

Sélection de métrique personnalisée

Appliquer UMAP avec la distance cosinus pour mes embeddings de documents, ou utiliser la distance de Hamming pour les données de caractéristiques binaires.

Bonnes pratiques

Toujours standardiser les caractéristiques avant d'appliquer UMAP pour assurer un poids égal entre les dimensions
Définir le paramètre random_state pour des résultats reproductibles entre les exécutions
Utiliser n_neighbors=30, min_dist=0.0, n_components=10 pour les workflows de prétraitement du clustering

Éviter

Appliquer UMAP à des données brutes non mises à l'échelle produira des embeddings biaisés avec un poids inégal des caractéristiques
Utiliser les paramètres par défaut pour toutes les tâches sans ajustement pour des objectifs spécifiques réduit l'efficacité
Supposer que UMAP préserve parfaitement la densité - il peut créer des divisions de clusters artificielles

Foire aux questions

Quand dois-je utiliser UMAP plutôt que t-SNE ?

Utilisez UMAP pour un calcul plus rapide, une meilleure préservation de la structure globale, et lorsque vous avez besoin de transformer de nouvelles données. UMAP s'adapte mieux aux ensembles de données plus grands.

Pourquoi mes clusters sont-ils déconnectés ?

Augmentez le paramètre n_neighbors pour mettre davantage l'accent sur la structure globale et connecter les composants fragmentés. Les valeurs de 50 à 200 fonctionnent bien.

Comment rendre les résultats reproductibles ?

Définissez le paramètre random_state sur n'importe quelle valeur entière. Cela corrige la graine d'optimisation stochastique pour des embeddings cohérents.

UMAP peut-il gérer les variables catégorielles ?

UMAP fonctionne avec des données numériques. Encodez les variables catégorielles en utilisant l'encodage one-hot ou utilisez la distance de Hamming pour les données encodées binaires.

Quelle est la différence entre fit() et fit_transform() ?

fit_transform() combine l'entraînement et la transformation en une seule étape. Utilisez fit() suivi de transform() lorsque vous devez appliquer le même embedding à de nouvelles données.

Comment choisir le bon nombre de composants ?

Utilisez 2-3 pour la visualisation, 5-10 pour le prétraitement du clustering, et 10-50 pour le feature engineering dans les pipelines de machine learning.

Détails du développeur

Auteur

K-Dense-AI

Licence

BSD-3-Clause license

Dépôt

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/umap-learn

Réf

main

Structure de fichiers

📁 references/

📄 api_reference.md

📄 SKILL.md