umap-learn
UMAP-Dimensionalitätsreduktion für Datenvisualisierung anwenden
Également disponible depuis: davila7
Hochdimensionale Daten sind schwer zu visualisieren und zu analysieren. UMAP reduziert Dimensionen und erhält dabei die Struktur, was klare 2D/3D-Visualisierungen und bessere Clustering-Ergebnisse ermöglicht.
Télécharger le ZIP du skill
Importer dans Claude
Allez dans Paramètres → Capacités → Skills → Importer un skill
Activez et commencez à utiliser
Tester
Utilisation de "umap-learn". Wenden Sie UMAP an, um meinen Iris-Datensatz in 2D zu visualisieren
Résultat attendu:
- UMAP-Einbettung mit Form (150, 2) erstellt
- StandardScaler-Vorverarbeitung angewendet
- Streudiagramm mit drei deutlichen Clustern generiert
- 92% der lokalen Nachbarschaftsstruktur erhalten
- Bereit für interaktive Erkundung der Artenbeziehungen
Utilisation de "umap-learn". Verwenden Sie UMAP zur Vorverarbeitung meiner Kundendaten für Clustering
Résultat attendu:
- Clustering-optimiertes UMAP mit n_neighbors=30, min_dist=0.0 angewendet
- Auf 10 Dimensionen für HDBSCAN reduziert
- 5 Kundensegmente mit HDBSCAN identifiziert
- 23 Ausreißerpunkte gefunden (nicht zugeordnete Kunden)
- Dichte besser erhalten als direkte 2D-Reduktion
Utilisation de "umap-learn". Wenden Sie überwachtes UMAP mit meinem bezeichneten Datensatz an
Résultat attendu:
- 5000 bezeichnete Stichproben mit 50 Merkmalen verwendet
- Überwachte Einbettung erreichte 0,89 Clustertrennung
- Klassen in 2D-Visualisierung deutlich sichtbar
- Interne Struktur jeder Klasse erhalten
Audit de sécurité
SûrAll static findings are false positives. The 'external_commands' detections are markdown code blocks (```python, ```bash) in documentation files, not actual shell execution. No malicious code, network requests, or security risks exist. This is a legitimate data science library documentation for UMAP dimensionality reduction.
Facteurs de risque
Score de qualité
Ce que vous pouvez construire
Visualisierung hochdimensionaler Datensätze
Erstellen Sie 2D-Streudiagramme komplexer Daten wie Genexpression, Texteinbettungen oder Kundenverhalten zur Mustererkennung.
Datenvorverarbeitung für Clustering
Reduzieren Sie Dimensionen vor der Anwendung von HDBSCAN, um den Fluch der Dimensionalität zu überwinden und die Clusterqualität zu verbessern.
Feature-Engineering für ML-Pipelines
Erstellen Sie kompakte 10-50-dimensionale Einbettungen, die die Struktur für nachgelagerte Klassifikations- oder Regressionsaufgaben erhalten.
Essayez ces prompts
Wenden Sie UMAP an, um meinen Datensatz auf 2D zur Visualisierung zu reduzieren. Verwenden Sie Standardparameter und erstellen Sie ein Streudiagramm, gefärbt nach der Zielvariable.
Konfigurieren Sie UMAP für die Clustering-Vorverarbeitung mit n_neighbors=30, min_dist=0.0, n_components=10, und wenden Sie dann HDBSCAN an, um Cluster zu finden.
Erstellen Sie eine überwachte UMAP-Einbettung unter Verwendung meiner Klassenbezeichnungen, um Kategorien zu trennen und dabei die interne Struktur jeder Klasse zu erhalten.
Wenden Sie UMAP mit Kosinus-Abstand für meine Dokumenteneinbettungen an, oder verwenden Sie Hamming-Abstand für Binärdaten.
Bonnes pratiques
- Standardisieren Sie Merkmale immer vor der Anwendung von UMAP, um gleiche Gewichtung über alle Dimensionen sicherzustellen
- Setzen Sie den random_state-Parameter für reproduzierbare Ergebnisse über verschiedene Läufe hinweg
- Verwenden Sie n_neighbors=30, min_dist=0.0, n_components=10 für Clustering-Vorverarbeitungs-Workflows
Éviter
- Das Anwenden von UMAP auf rohe, unskalierte Daten führt zu verzerrten Einbettungen mit ungleicher Merkmalsgewichtung
- Die Verwendung von Standardparametern für alle Aufgaben ohne Anpassung an spezifische Ziele reduziert die Effektivität
- Annehmen, dass UMAP die Dichte perfekt erhält - es kann künstliche Clusteraufteilungen erstellen
Foire aux questions
Wann sollte ich UMAP vs. t-SNE verwenden?
Warum sind meine Cluster getrennt?
Wie mache ich Ergebnisse reproduzierbar?
Kann UMAP kategorische Variablen verarbeiten?
Was ist der Unterschied zwischen fit() und fit_transform()?
Wie wähle ich die richtige Anzahl von Komponenten?
Détails du développeur
Structure de fichiers