Fähigkeiten umap-learn
📊

umap-learn

Sicher ⚙️ Externe Befehle

UMAP-Dimensionalitätsreduktion für Datenvisualisierung anwenden

Auch verfügbar von: davila7

Hochdimensionale Daten sind schwer zu visualisieren und zu analysieren. UMAP reduziert Dimensionen und erhält dabei die Struktur, was klare 2D/3D-Visualisierungen und bessere Clustering-Ergebnisse ermöglicht.

Unterstützt: Claude Codex Code(CC)
📊 69 Angemessen
1

Die Skill-ZIP herunterladen

2

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

3

Einschalten und loslegen

Teste es

Verwendung von "umap-learn". Wenden Sie UMAP an, um meinen Iris-Datensatz in 2D zu visualisieren

Erwartetes Ergebnis:

  • UMAP-Einbettung mit Form (150, 2) erstellt
  • StandardScaler-Vorverarbeitung angewendet
  • Streudiagramm mit drei deutlichen Clustern generiert
  • 92% der lokalen Nachbarschaftsstruktur erhalten
  • Bereit für interaktive Erkundung der Artenbeziehungen

Verwendung von "umap-learn". Verwenden Sie UMAP zur Vorverarbeitung meiner Kundendaten für Clustering

Erwartetes Ergebnis:

  • Clustering-optimiertes UMAP mit n_neighbors=30, min_dist=0.0 angewendet
  • Auf 10 Dimensionen für HDBSCAN reduziert
  • 5 Kundensegmente mit HDBSCAN identifiziert
  • 23 Ausreißerpunkte gefunden (nicht zugeordnete Kunden)
  • Dichte besser erhalten als direkte 2D-Reduktion

Verwendung von "umap-learn". Wenden Sie überwachtes UMAP mit meinem bezeichneten Datensatz an

Erwartetes Ergebnis:

  • 5000 bezeichnete Stichproben mit 50 Merkmalen verwendet
  • Überwachte Einbettung erreichte 0,89 Clustertrennung
  • Klassen in 2D-Visualisierung deutlich sichtbar
  • Interne Struktur jeder Klasse erhalten

Sicherheitsaudit

Sicher
v4 • 1/17/2026

All static findings are false positives. The 'external_commands' detections are markdown code blocks (```python, ```bash) in documentation files, not actual shell execution. No malicious code, network requests, or security risks exist. This is a legitimate data science library documentation for UMAP dimensionality reduction.

3
Gescannte Dateien
1,740
Analysierte Zeilen
1
befunde
4
Gesamtzahl Audits
Auditiert von: claude Audit-Verlauf anzeigen →

Qualitätsbewertung

41
Architektur
100
Wartbarkeit
87
Inhalt
21
Community
100
Sicherheit
83
Spezifikationskonformität

Was du bauen kannst

Visualisierung hochdimensionaler Datensätze

Erstellen Sie 2D-Streudiagramme komplexer Daten wie Genexpression, Texteinbettungen oder Kundenverhalten zur Mustererkennung.

Datenvorverarbeitung für Clustering

Reduzieren Sie Dimensionen vor der Anwendung von HDBSCAN, um den Fluch der Dimensionalität zu überwinden und die Clusterqualität zu verbessern.

Feature-Engineering für ML-Pipelines

Erstellen Sie kompakte 10-50-dimensionale Einbettungen, die die Struktur für nachgelagerte Klassifikations- oder Regressionsaufgaben erhalten.

Probiere diese Prompts

Grundlegende Visualisierung
Wenden Sie UMAP an, um meinen Datensatz auf 2D zur Visualisierung zu reduzieren. Verwenden Sie Standardparameter und erstellen Sie ein Streudiagramm, gefärbt nach der Zielvariable.
Clustering-Optimierung
Konfigurieren Sie UMAP für die Clustering-Vorverarbeitung mit n_neighbors=30, min_dist=0.0, n_components=10, und wenden Sie dann HDBSCAN an, um Cluster zu finden.
Überwachte Einbettung
Erstellen Sie eine überwachte UMAP-Einbettung unter Verwendung meiner Klassenbezeichnungen, um Kategorien zu trennen und dabei die interne Struktur jeder Klasse zu erhalten.
Benutzerdefinierte Metrikauswahl
Wenden Sie UMAP mit Kosinus-Abstand für meine Dokumenteneinbettungen an, oder verwenden Sie Hamming-Abstand für Binärdaten.

Bewährte Verfahren

  • Standardisieren Sie Merkmale immer vor der Anwendung von UMAP, um gleiche Gewichtung über alle Dimensionen sicherzustellen
  • Setzen Sie den random_state-Parameter für reproduzierbare Ergebnisse über verschiedene Läufe hinweg
  • Verwenden Sie n_neighbors=30, min_dist=0.0, n_components=10 für Clustering-Vorverarbeitungs-Workflows

Vermeiden

  • Das Anwenden von UMAP auf rohe, unskalierte Daten führt zu verzerrten Einbettungen mit ungleicher Merkmalsgewichtung
  • Die Verwendung von Standardparametern für alle Aufgaben ohne Anpassung an spezifische Ziele reduziert die Effektivität
  • Annehmen, dass UMAP die Dichte perfekt erhält - es kann künstliche Clusteraufteilungen erstellen

Häufig gestellte Fragen

Wann sollte ich UMAP vs. t-SNE verwenden?
Verwenden Sie UMAP für schnellere Berechnung, bessere Erhaltung der globalen Struktur und wenn Sie neue Daten transformieren müssen. UMAP skaliert besser auf größere Datensätze.
Warum sind meine Cluster getrennt?
Erhöhen Sie den n_neighbors-Parameter, um mehr globale Struktur zu betonen und fragmentierte Komponenten zu verbinden. Werte von 50-200 funktionieren gut.
Wie mache ich Ergebnisse reproduzierbar?
Setzen Sie den random_state-Parameter auf einen beliebigen Integer-Wert. Dies fixiert den stochastischen Optimierungs-Seed für konsistente Einbettungen.
Kann UMAP kategorische Variablen verarbeiten?
UMAP funktioniert mit numerischen Daten. Kodieren Sie kategorische Variablen mit One-Hot-Encoding oder verwenden Sie Hamming-Abstand für binär kodierte Daten.
Was ist der Unterschied zwischen fit() und fit_transform()?
fit_transform() kombiniert Training und Transformation in einem Schritt. Verwenden Sie fit() gefolgt von transform(), wenn Sie dieselbe Einbettung auf neue Daten anwenden müssen.
Wie wähle ich die richtige Anzahl von Komponenten?
Verwenden Sie 2-3 für Visualisierung, 5-10 für Clustering-Vorverarbeitung und 10-50 für Feature-Engineering in Machine-Learning-Pipelines.

Entwicklerdetails

Dateistruktur