umap-learn
UMAP-Dimensionalitätsreduktion für Datenvisualisierung anwenden
Auch verfügbar von: davila7
Hochdimensionale Daten sind schwer zu visualisieren und zu analysieren. UMAP reduziert Dimensionen und erhält dabei die Struktur, was klare 2D/3D-Visualisierungen und bessere Clustering-Ergebnisse ermöglicht.
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "umap-learn". Wenden Sie UMAP an, um meinen Iris-Datensatz in 2D zu visualisieren
Erwartetes Ergebnis:
- UMAP-Einbettung mit Form (150, 2) erstellt
- StandardScaler-Vorverarbeitung angewendet
- Streudiagramm mit drei deutlichen Clustern generiert
- 92% der lokalen Nachbarschaftsstruktur erhalten
- Bereit für interaktive Erkundung der Artenbeziehungen
Verwendung von "umap-learn". Verwenden Sie UMAP zur Vorverarbeitung meiner Kundendaten für Clustering
Erwartetes Ergebnis:
- Clustering-optimiertes UMAP mit n_neighbors=30, min_dist=0.0 angewendet
- Auf 10 Dimensionen für HDBSCAN reduziert
- 5 Kundensegmente mit HDBSCAN identifiziert
- 23 Ausreißerpunkte gefunden (nicht zugeordnete Kunden)
- Dichte besser erhalten als direkte 2D-Reduktion
Verwendung von "umap-learn". Wenden Sie überwachtes UMAP mit meinem bezeichneten Datensatz an
Erwartetes Ergebnis:
- 5000 bezeichnete Stichproben mit 50 Merkmalen verwendet
- Überwachte Einbettung erreichte 0,89 Clustertrennung
- Klassen in 2D-Visualisierung deutlich sichtbar
- Interne Struktur jeder Klasse erhalten
Sicherheitsaudit
SicherAll static findings are false positives. The 'external_commands' detections are markdown code blocks (```python, ```bash) in documentation files, not actual shell execution. No malicious code, network requests, or security risks exist. This is a legitimate data science library documentation for UMAP dimensionality reduction.
Risikofaktoren
Qualitätsbewertung
Was du bauen kannst
Visualisierung hochdimensionaler Datensätze
Erstellen Sie 2D-Streudiagramme komplexer Daten wie Genexpression, Texteinbettungen oder Kundenverhalten zur Mustererkennung.
Datenvorverarbeitung für Clustering
Reduzieren Sie Dimensionen vor der Anwendung von HDBSCAN, um den Fluch der Dimensionalität zu überwinden und die Clusterqualität zu verbessern.
Feature-Engineering für ML-Pipelines
Erstellen Sie kompakte 10-50-dimensionale Einbettungen, die die Struktur für nachgelagerte Klassifikations- oder Regressionsaufgaben erhalten.
Probiere diese Prompts
Wenden Sie UMAP an, um meinen Datensatz auf 2D zur Visualisierung zu reduzieren. Verwenden Sie Standardparameter und erstellen Sie ein Streudiagramm, gefärbt nach der Zielvariable.
Konfigurieren Sie UMAP für die Clustering-Vorverarbeitung mit n_neighbors=30, min_dist=0.0, n_components=10, und wenden Sie dann HDBSCAN an, um Cluster zu finden.
Erstellen Sie eine überwachte UMAP-Einbettung unter Verwendung meiner Klassenbezeichnungen, um Kategorien zu trennen und dabei die interne Struktur jeder Klasse zu erhalten.
Wenden Sie UMAP mit Kosinus-Abstand für meine Dokumenteneinbettungen an, oder verwenden Sie Hamming-Abstand für Binärdaten.
Bewährte Verfahren
- Standardisieren Sie Merkmale immer vor der Anwendung von UMAP, um gleiche Gewichtung über alle Dimensionen sicherzustellen
- Setzen Sie den random_state-Parameter für reproduzierbare Ergebnisse über verschiedene Läufe hinweg
- Verwenden Sie n_neighbors=30, min_dist=0.0, n_components=10 für Clustering-Vorverarbeitungs-Workflows
Vermeiden
- Das Anwenden von UMAP auf rohe, unskalierte Daten führt zu verzerrten Einbettungen mit ungleicher Merkmalsgewichtung
- Die Verwendung von Standardparametern für alle Aufgaben ohne Anpassung an spezifische Ziele reduziert die Effektivität
- Annehmen, dass UMAP die Dichte perfekt erhält - es kann künstliche Clusteraufteilungen erstellen
Häufig gestellte Fragen
Wann sollte ich UMAP vs. t-SNE verwenden?
Warum sind meine Cluster getrennt?
Wie mache ich Ergebnisse reproduzierbar?
Kann UMAP kategorische Variablen verarbeiten?
Was ist der Unterschied zwischen fit() und fit_transform()?
Wie wähle ich die richtige Anzahl von Komponenten?
Entwicklerdetails
Autor
K-Dense-AILizenz
BSD-3-Clause license
Repository
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/umap-learnRef
main
Dateistruktur