📊

umap-learn

Name: umap-learn
Author: K-Dense-AI

Sicher ⚙️ Externe Befehle

UMAP-Dimensionalitätsreduktion für Datenvisualisierung anwenden

Auch verfügbar von: davila7

Hochdimensionale Daten sind schwer zu visualisieren und zu analysieren. UMAP reduziert Dimensionen und erhält dabei die Struktur, was klare 2D/3D-Visualisierungen und bessere Clustering-Ergebnisse ermöglicht.

Unterstützt: Claude Codex Code(CC)

📊 69 Angemessen

Die Skill-ZIP herunterladen

In Claude hochladen

Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen

Einschalten und loslegen

Teste es

Verwendung von "umap-learn". Wenden Sie UMAP an, um meinen Iris-Datensatz in 2D zu visualisieren

Erwartetes Ergebnis:

UMAP-Einbettung mit Form (150, 2) erstellt
StandardScaler-Vorverarbeitung angewendet
Streudiagramm mit drei deutlichen Clustern generiert
92% der lokalen Nachbarschaftsstruktur erhalten
Bereit für interaktive Erkundung der Artenbeziehungen

Verwendung von "umap-learn". Verwenden Sie UMAP zur Vorverarbeitung meiner Kundendaten für Clustering

Erwartetes Ergebnis:

Clustering-optimiertes UMAP mit n_neighbors=30, min_dist=0.0 angewendet
Auf 10 Dimensionen für HDBSCAN reduziert
5 Kundensegmente mit HDBSCAN identifiziert
23 Ausreißerpunkte gefunden (nicht zugeordnete Kunden)
Dichte besser erhalten als direkte 2D-Reduktion

Verwendung von "umap-learn". Wenden Sie überwachtes UMAP mit meinem bezeichneten Datensatz an

Erwartetes Ergebnis:

5000 bezeichnete Stichproben mit 50 Merkmalen verwendet
Überwachte Einbettung erreichte 0,89 Clustertrennung
Klassen in 2D-Visualisierung deutlich sichtbar
Interne Struktur jeder Klasse erhalten

Sicherheitsaudit

Sicher

v4 • 1/17/2026

All static findings are false positives. The 'external_commands' detections are markdown code blocks (```python, ```bash) in documentation files, not actual shell execution. No malicious code, network requests, or security risks exist. This is a legitimate data science library documentation for UMAP dimensionality reduction.

Gescannte Dateien

1,740

Analysierte Zeilen

befunde

Gesamtzahl Audits

Risikofaktoren

⚙️ Externe Befehle (6)

SKILL.md:19-21 SKILL.md:27-41 SKILL.md:130-142 references/api_reference.md:5 references/api_reference.md:34-45 references/api_reference.md:378-397

Auditiert von: claude Audit-Verlauf anzeigen →

Qualitätsbewertung

Architektur

100

Wartbarkeit

Inhalt

Community

100

Sicherheit

Spezifikationskonformität

Was du bauen kannst

Visualisierung hochdimensionaler Datensätze

Erstellen Sie 2D-Streudiagramme komplexer Daten wie Genexpression, Texteinbettungen oder Kundenverhalten zur Mustererkennung.

Datenvorverarbeitung für Clustering

Reduzieren Sie Dimensionen vor der Anwendung von HDBSCAN, um den Fluch der Dimensionalität zu überwinden und die Clusterqualität zu verbessern.

Feature-Engineering für ML-Pipelines

Erstellen Sie kompakte 10-50-dimensionale Einbettungen, die die Struktur für nachgelagerte Klassifikations- oder Regressionsaufgaben erhalten.

Probiere diese Prompts

Grundlegende Visualisierung

Wenden Sie UMAP an, um meinen Datensatz auf 2D zur Visualisierung zu reduzieren. Verwenden Sie Standardparameter und erstellen Sie ein Streudiagramm, gefärbt nach der Zielvariable.

Clustering-Optimierung

Konfigurieren Sie UMAP für die Clustering-Vorverarbeitung mit n_neighbors=30, min_dist=0.0, n_components=10, und wenden Sie dann HDBSCAN an, um Cluster zu finden.

Überwachte Einbettung

Erstellen Sie eine überwachte UMAP-Einbettung unter Verwendung meiner Klassenbezeichnungen, um Kategorien zu trennen und dabei die interne Struktur jeder Klasse zu erhalten.

Benutzerdefinierte Metrikauswahl

Wenden Sie UMAP mit Kosinus-Abstand für meine Dokumenteneinbettungen an, oder verwenden Sie Hamming-Abstand für Binärdaten.

Bewährte Verfahren

Standardisieren Sie Merkmale immer vor der Anwendung von UMAP, um gleiche Gewichtung über alle Dimensionen sicherzustellen
Setzen Sie den random_state-Parameter für reproduzierbare Ergebnisse über verschiedene Läufe hinweg
Verwenden Sie n_neighbors=30, min_dist=0.0, n_components=10 für Clustering-Vorverarbeitungs-Workflows

Vermeiden

Das Anwenden von UMAP auf rohe, unskalierte Daten führt zu verzerrten Einbettungen mit ungleicher Merkmalsgewichtung
Die Verwendung von Standardparametern für alle Aufgaben ohne Anpassung an spezifische Ziele reduziert die Effektivität
Annehmen, dass UMAP die Dichte perfekt erhält - es kann künstliche Clusteraufteilungen erstellen

Häufig gestellte Fragen

Wann sollte ich UMAP vs. t-SNE verwenden?

Verwenden Sie UMAP für schnellere Berechnung, bessere Erhaltung der globalen Struktur und wenn Sie neue Daten transformieren müssen. UMAP skaliert besser auf größere Datensätze.

Warum sind meine Cluster getrennt?

Erhöhen Sie den n_neighbors-Parameter, um mehr globale Struktur zu betonen und fragmentierte Komponenten zu verbinden. Werte von 50-200 funktionieren gut.

Wie mache ich Ergebnisse reproduzierbar?

Setzen Sie den random_state-Parameter auf einen beliebigen Integer-Wert. Dies fixiert den stochastischen Optimierungs-Seed für konsistente Einbettungen.

Kann UMAP kategorische Variablen verarbeiten?

UMAP funktioniert mit numerischen Daten. Kodieren Sie kategorische Variablen mit One-Hot-Encoding oder verwenden Sie Hamming-Abstand für binär kodierte Daten.

Was ist der Unterschied zwischen fit() und fit_transform()?

fit_transform() kombiniert Training und Transformation in einem Schritt. Verwenden Sie fit() gefolgt von transform(), wenn Sie dieselbe Einbettung auf neue Daten anwenden müssen.

Wie wähle ich die richtige Anzahl von Komponenten?

Verwenden Sie 2-3 für Visualisierung, 5-10 für Clustering-Vorverarbeitung und 10-50 für Feature-Engineering in Machine-Learning-Pipelines.

Entwicklerdetails

Autor

K-Dense-AI

Lizenz

BSD-3-Clause license

Repository

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/umap-learn

Ref

main

Dateistruktur

📁 references/

📄 api_reference.md

📄 SKILL.md