Compétences umap-learn
📊

umap-learn

Sûr ⚙️ Commandes externes

UMAP-Dimensionalitätsreduktion für Datenvisualisierung anwenden

Également disponible depuis: davila7

Hochdimensionale Daten sind schwer zu visualisieren und zu analysieren. UMAP reduziert Dimensionen und erhält dabei die Struktur, was klare 2D/3D-Visualisierungen und bessere Clustering-Ergebnisse ermöglicht.

Prend en charge: Claude Codex Code(CC)
📊 69 Adéquat
1

Télécharger le ZIP du skill

2

Importer dans Claude

Allez dans Paramètres → Capacités → Skills → Importer un skill

3

Activez et commencez à utiliser

Tester

Utilisation de "umap-learn". Wenden Sie UMAP an, um meinen Iris-Datensatz in 2D zu visualisieren

Résultat attendu:

  • UMAP-Einbettung mit Form (150, 2) erstellt
  • StandardScaler-Vorverarbeitung angewendet
  • Streudiagramm mit drei deutlichen Clustern generiert
  • 92% der lokalen Nachbarschaftsstruktur erhalten
  • Bereit für interaktive Erkundung der Artenbeziehungen

Utilisation de "umap-learn". Verwenden Sie UMAP zur Vorverarbeitung meiner Kundendaten für Clustering

Résultat attendu:

  • Clustering-optimiertes UMAP mit n_neighbors=30, min_dist=0.0 angewendet
  • Auf 10 Dimensionen für HDBSCAN reduziert
  • 5 Kundensegmente mit HDBSCAN identifiziert
  • 23 Ausreißerpunkte gefunden (nicht zugeordnete Kunden)
  • Dichte besser erhalten als direkte 2D-Reduktion

Utilisation de "umap-learn". Wenden Sie überwachtes UMAP mit meinem bezeichneten Datensatz an

Résultat attendu:

  • 5000 bezeichnete Stichproben mit 50 Merkmalen verwendet
  • Überwachte Einbettung erreichte 0,89 Clustertrennung
  • Klassen in 2D-Visualisierung deutlich sichtbar
  • Interne Struktur jeder Klasse erhalten

Audit de sécurité

Sûr
v4 • 1/17/2026

All static findings are false positives. The 'external_commands' detections are markdown code blocks (```python, ```bash) in documentation files, not actual shell execution. No malicious code, network requests, or security risks exist. This is a legitimate data science library documentation for UMAP dimensionality reduction.

3
Fichiers analysés
1,740
Lignes analysées
1
résultats
4
Total des audits

Score de qualité

41
Architecture
100
Maintenabilité
87
Contenu
21
Communauté
100
Sécurité
83
Conformité aux spécifications

Ce que vous pouvez construire

Visualisierung hochdimensionaler Datensätze

Erstellen Sie 2D-Streudiagramme komplexer Daten wie Genexpression, Texteinbettungen oder Kundenverhalten zur Mustererkennung.

Datenvorverarbeitung für Clustering

Reduzieren Sie Dimensionen vor der Anwendung von HDBSCAN, um den Fluch der Dimensionalität zu überwinden und die Clusterqualität zu verbessern.

Feature-Engineering für ML-Pipelines

Erstellen Sie kompakte 10-50-dimensionale Einbettungen, die die Struktur für nachgelagerte Klassifikations- oder Regressionsaufgaben erhalten.

Essayez ces prompts

Grundlegende Visualisierung
Wenden Sie UMAP an, um meinen Datensatz auf 2D zur Visualisierung zu reduzieren. Verwenden Sie Standardparameter und erstellen Sie ein Streudiagramm, gefärbt nach der Zielvariable.
Clustering-Optimierung
Konfigurieren Sie UMAP für die Clustering-Vorverarbeitung mit n_neighbors=30, min_dist=0.0, n_components=10, und wenden Sie dann HDBSCAN an, um Cluster zu finden.
Überwachte Einbettung
Erstellen Sie eine überwachte UMAP-Einbettung unter Verwendung meiner Klassenbezeichnungen, um Kategorien zu trennen und dabei die interne Struktur jeder Klasse zu erhalten.
Benutzerdefinierte Metrikauswahl
Wenden Sie UMAP mit Kosinus-Abstand für meine Dokumenteneinbettungen an, oder verwenden Sie Hamming-Abstand für Binärdaten.

Bonnes pratiques

  • Standardisieren Sie Merkmale immer vor der Anwendung von UMAP, um gleiche Gewichtung über alle Dimensionen sicherzustellen
  • Setzen Sie den random_state-Parameter für reproduzierbare Ergebnisse über verschiedene Läufe hinweg
  • Verwenden Sie n_neighbors=30, min_dist=0.0, n_components=10 für Clustering-Vorverarbeitungs-Workflows

Éviter

  • Das Anwenden von UMAP auf rohe, unskalierte Daten führt zu verzerrten Einbettungen mit ungleicher Merkmalsgewichtung
  • Die Verwendung von Standardparametern für alle Aufgaben ohne Anpassung an spezifische Ziele reduziert die Effektivität
  • Annehmen, dass UMAP die Dichte perfekt erhält - es kann künstliche Clusteraufteilungen erstellen

Foire aux questions

Wann sollte ich UMAP vs. t-SNE verwenden?
Verwenden Sie UMAP für schnellere Berechnung, bessere Erhaltung der globalen Struktur und wenn Sie neue Daten transformieren müssen. UMAP skaliert besser auf größere Datensätze.
Warum sind meine Cluster getrennt?
Erhöhen Sie den n_neighbors-Parameter, um mehr globale Struktur zu betonen und fragmentierte Komponenten zu verbinden. Werte von 50-200 funktionieren gut.
Wie mache ich Ergebnisse reproduzierbar?
Setzen Sie den random_state-Parameter auf einen beliebigen Integer-Wert. Dies fixiert den stochastischen Optimierungs-Seed für konsistente Einbettungen.
Kann UMAP kategorische Variablen verarbeiten?
UMAP funktioniert mit numerischen Daten. Kodieren Sie kategorische Variablen mit One-Hot-Encoding oder verwenden Sie Hamming-Abstand für binär kodierte Daten.
Was ist der Unterschied zwischen fit() und fit_transform()?
fit_transform() kombiniert Training und Transformation in einem Schritt. Verwenden Sie fit() gefolgt von transform(), wenn Sie dieselbe Einbettung auf neue Daten anwenden müssen.
Wie wähle ich die richtige Anzahl von Komponenten?
Verwenden Sie 2-3 für Visualisierung, 5-10 für Clustering-Vorverarbeitung und 10-50 für Feature-Engineering in Machine-Learning-Pipelines.

Détails du développeur

Structure de fichiers