umap-learn
Appliquer la réduction de dimensionnalité UMAP pour la visualisation de données
Également disponible depuis: davila7
Les données de haute dimension sont difficiles à visualiser et à analyser. UMAP réduit les dimensions tout en préservant la structure, permettant des visualisations claires en 2D/3D et de meilleurs résultats de clustering.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "umap-learn". Appliquer UMAP pour visualiser mon jeu de données iris en 2D
Résultat attendu:
- Embedding UMAP créé avec la forme (150, 2)
- Prétraitement StandardScaler appliqué
- Nuage de points généré montrant trois clusters distincts
- 92% de la structure de voisinage local préservée
- Prêt pour l'exploration interactive des relations entre espèces
Utilisation de "umap-learn". Utiliser UMAP pour prétraiter mes données clients pour le clustering
Résultat attendu:
- UMAP optimisé pour le clustering appliqué avec n_neighbors=30, min_dist=0.0
- Réduit à 10 dimensions pour HDBSCAN
- 5 segments de clients identifiés avec HDBSCAN
- 23 points de bruit trouvés (clients non assignés)
- Densité mieux préservée qu'avec une réduction directe en 2D
Utilisation de "umap-learn". Appliquer UMAP supervisé avec mon jeu de données étiqueté
Résultat attendu:
- 5000 échantillons étiquetés utilisés avec 50 caractéristiques
- Embedding supervisé atteint une séparation de clusters de 0.89
- Les classes sont clairement visibles dans la visualisation 2D
- Structure interne préservée au sein de chaque classe
Audit de sécurité
SûrAll static findings are false positives. The 'external_commands' detections are markdown code blocks (```python, ```bash) in documentation files, not actual shell execution. No malicious code, network requests, or security risks exist. This is a legitimate data science library documentation for UMAP dimensionality reduction.
Facteurs de risque
Score de qualité
Ce que vous pouvez construire
Visualiser des ensembles de données de haute dimension
Créer des nuages de points 2D de données complexes comme l'expression génique, les embeddings de texte ou le comportement des clients pour la découverte de motifs.
Prétraiter les données pour le clustering
Réduire les dimensions avant d'appliquer HDBSCAN pour surmonter la malédiction de la dimensionnalité et améliorer la qualité des clusters.
Feature engineering pour les pipelines ML
Créer des embeddings compacts de 10 à 50 dimensions qui préservent la structure pour les tâches de classification ou de régression en aval.
Essayez ces prompts
Appliquer UMAP pour réduire mon ensemble de données en 2D pour la visualisation. Utiliser les paramètres standard et créer un nuage de points colorisé par la variable cible.
Configurer UMAP pour le prétraitement du clustering avec n_neighbors=30, min_dist=0.0, n_components=10, puis appliquer HDBSCAN pour trouver les clusters.
Créer un embedding UMAP supervisé en utilisant mes étiquettes de classes pour séparer les catégories tout en préservant la structure interne de chaque classe.
Appliquer UMAP avec la distance cosinus pour mes embeddings de documents, ou utiliser la distance de Hamming pour les données de caractéristiques binaires.
Bonnes pratiques
- Toujours standardiser les caractéristiques avant d'appliquer UMAP pour assurer un poids égal entre les dimensions
- Définir le paramètre random_state pour des résultats reproductibles entre les exécutions
- Utiliser n_neighbors=30, min_dist=0.0, n_components=10 pour les workflows de prétraitement du clustering
Éviter
- Appliquer UMAP à des données brutes non mises à l'échelle produira des embeddings biaisés avec un poids inégal des caractéristiques
- Utiliser les paramètres par défaut pour toutes les tâches sans ajustement pour des objectifs spécifiques réduit l'efficacité
- Supposer que UMAP préserve parfaitement la densité - il peut créer des divisions de clusters artificielles
Foire aux questions
Quand dois-je utiliser UMAP plutôt que t-SNE ?
Pourquoi mes clusters sont-ils déconnectés ?
Comment rendre les résultats reproductibles ?
UMAP peut-il gérer les variables catégorielles ?
Quelle est la différence entre fit() et fit_transform() ?
Comment choisir le bon nombre de composants ?
Détails du développeur
Structure de fichiers