高次元データは可視化と分析が困難です。UMAPは構造を保持しながら次元を削減し、明確な2D/3D可視化とより優れたクラスタリング結果を実現します。
スキルZIPをダウンロード
Claudeでアップロード
設定 → 機能 → スキル → スキルをアップロードへ移動
オンにして利用開始
テストする
「umap-learn」を使用しています。 UMAPを適用してアヤメデータセットを2Dで可視化する
期待される結果:
- 形状(150, 2)のUMAP埋め込みを作成
- StandardScaler前処理を適用
- 3つの明確なクラスタを示す散布図を生成
- ローカル近隣構造の92%を保持
- 種間の関係のインタラクティブ探索の準備完了
「umap-learn」を使用しています。 UMAPを使用して顧客データにクラスタリング前処理を適用する
期待される結果:
- n_neighbors=30、min_dist=0.0でクラスタリング最適化UMAPを適用
- HDBSCAN用に10次元に削減
- HDBSCANで5つの顧客セグメントを識別
- 23のノイズ点(未割り当て顧客)を発見
- 直接2D削減よりも密度保持が良好
「umap-learn」を使用しています。 ラベル付きデータセットで教師ありUMAPを適用する
期待される結果:
- 50の特徴量を持つ5000のラベル付きサンプルを使用
- 教師あり埋め込みで0.89のクラスタ分離を達成
- 2D可視化でクラスが明確に可視化
- 各クラス内の内部構造を保持
セキュリティ監査
安全All static findings are false positives. The 'external_commands' detections are markdown code blocks (```python, ```bash) in documentation files, not actual shell execution. No malicious code, network requests, or security risks exist. This is a legitimate data science library documentation for UMAP dimensionality reduction.
リスク要因
品質スコア
作れるもの
高次元データセットの可視化
遺伝子発現、テキスト埋め込み、顧客行動など複雑なデータの2D散布図を作成し、パターン発見を行います。
クラスタリングのためのデータ前処理
次元の呪いを克服しクラスタ品質を向上させるため、HDBSCANを適用する前に次元を削減します。
MLパイプラインのための特徴量エンジニアリング
構造を保持した下流の分類または回帰タスク用の、コンパクトな10-50次元の埋め込みを作成します。
これらのプロンプトを試す
可視化のために私のデータセットにUMAPを適用して2Dに削減してください。標準パラメータを使用し、ターゲット変数で色分けされた散布図を作成します。
HDBSCANクラスタリングの前処理用に、n_neighbors=30、min_dist=0.0、n_components=10でUMAPを設定してください。
私のクラスラベルを使用して教師ありUMAP埋め込みを作成し、カテゴリを分離しながら各クラス内の内部構造を保持します。
私のドキュメント埋め込みにはコサイン距離を、またはバイナリ特徴量データにはハミング距離を使用してUMAPを適用します。
ベストプラクティス
- 次元間で等しい重み付けを確保するため、UMAPを適用する前に常に特徴量を標準化してください
- 実行間で再現性のある結果を得るためにrandom_stateパラメータを設定してください
- クラスタリング前処理ワークフローにはn_neighbors=30、min_dist=0.0、n_components=10を使用してください
回避
- UMAPを生のスケーリングされていないデータに適用すると、等しくない特徴量重み付けでバイアスされた埋め込みが生成されます
- 特定の目標に合わせた調整なしにすべてのタスクにデフォルトパラメータを使用すると、効果が低下します
- UMAPが密度を完全に保持すると仮定すると、人為的なクラスタ分割を作成する可能性があります