スキル umap-learn

📊

umap-learn

Name: umap-learn
Author: K-Dense-AI

安全 ⚙️ 外部コマンド

データ可視化のためのUMAP次元削減の適用

こちらからも入手できます: davila7

高次元データは可視化と分析が困難です。UMAPは構造を保持しながら次元を削減し、明確な2D/3D可視化とより優れたクラスタリング結果を実現します。

対応: Claude Codex Code(CC)

📊 69 十分

スキルZIPをダウンロード

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

オンにして利用開始

テストする

「umap-learn」を使用しています。 UMAPを適用してアヤメデータセットを2Dで可視化する

期待される結果:

形状(150, 2)のUMAP埋め込みを作成
StandardScaler前処理を適用
3つの明確なクラスタを示す散布図を生成
ローカル近隣構造の92%を保持
種間の関係のインタラクティブ探索の準備完了

「umap-learn」を使用しています。 UMAPを使用して顧客データにクラスタリング前処理を適用する

期待される結果:

n_neighbors=30、min_dist=0.0でクラスタリング最適化UMAPを適用
HDBSCAN用に10次元に削減
HDBSCANで5つの顧客セグメントを識別
23のノイズ点（未割り当て顧客）を発見
直接2D削減よりも密度保持が良好

「umap-learn」を使用しています。ラベル付きデータセットで教師ありUMAPを適用する

期待される結果:

50の特徴量を持つ5000のラベル付きサンプルを使用
教師あり埋め込みで0.89のクラスタ分離を達成
2D可視化でクラスが明確に可視化
各クラス内の内部構造を保持

セキュリティ監査

安全

v4 • 1/17/2026

All static findings are false positives. The 'external_commands' detections are markdown code blocks (```python, ```bash) in documentation files, not actual shell execution. No malicious code, network requests, or security risks exist. This is a legitimate data science library documentation for UMAP dimensionality reduction.

スキャンされたファイル

1,740

解析された行数

検出結果

総監査数

リスク要因

⚙️ 外部コマンド (6)

SKILL.md:19-21 SKILL.md:27-41 SKILL.md:130-142 references/api_reference.md:5 references/api_reference.md:34-45 references/api_reference.md:378-397

監査者: claude 監査履歴を表示 →

品質スコア

アーキテクチャ

100

保守性

コンテンツ

コミュニティ

100

セキュリティ

仕様準拠

作れるもの

高次元データセットの可視化

遺伝子発現、テキスト埋め込み、顧客行動など複雑なデータの2D散布図を作成し、パターン発見を行います。

クラスタリングのためのデータ前処理

次元の呪いを克服しクラスタ品質を向上させるため、HDBSCANを適用する前に次元を削減します。

MLパイプラインのための特徴量エンジニアリング

構造を保持した下流の分類または回帰タスク用の、コンパクトな10-50次元の埋め込みを作成します。

これらのプロンプトを試す

基本的な可視化

可視化のために私のデータセットにUMAPを適用して2Dに削減してください。標準パラメータを使用し、ターゲット変数で色分けされた散布図を作成します。

クラスタリングの最適化

HDBSCANクラスタリングの前処理用に、n_neighbors=30、min_dist=0.0、n_components=10でUMAPを設定してください。

教師あり埋め込み

私のクラスラベルを使用して教師ありUMAP埋め込みを作成し、カテゴリを分離しながら各クラス内の内部構造を保持します。

カスタム距離指標の選択

私のドキュメント埋め込みにはコサイン距離を、またはバイナリ特徴量データにはハミング距離を使用してUMAPを適用します。

ベストプラクティス

次元間で等しい重み付けを確保するため、UMAPを適用する前に常に特徴量を標準化してください
実行間で再現性のある結果を得るためにrandom_stateパラメータを設定してください
クラスタリング前処理ワークフローにはn_neighbors=30、min_dist=0.0、n_components=10を使用してください

回避

UMAPを生のスケーリングされていないデータに適用すると、等しくない特徴量重み付けでバイアスされた埋め込みが生成されます
特定の目標に合わせた調整なしにすべてのタスクにデフォルトパラメータを使用すると、効果が低下します
UMAPが密度を完全に保持すると仮定すると、人為的なクラスタ分割を作成する可能性があります

よくある質問

UMAPとt-SNEはいつ使い分けますか？

より高速な計算、グローバル構造のより良い保持、新しいデータの変換が必要な場合はUMAPを使用してください。UMAPはより大きなデータセットに適切にスケールします。

なぜ私のクラスタは途切れていますか？

よりグローバルな構造を強調し、断片化されたコンポーネントを接続するには、n_neighborsパラメータを大きくしてください。50-200の値が効果的です。

結果を再現性 있게するにはどうすればよいですか？

random_stateパラメータを任意の整数値に設定してください。これにより、一貫した埋め込みのための確率的最適化シードが固定されます。

UMAPはカテゴリ変数を処理できますか？

UMAPは数値データで動作します。カテゴリ変数はワンホットエンコーディングでエンコードするか、バイナリエンコードされたデータにはハミング距離を使用してください。

fit()とfit_transform()の違いは何ですか？

fit_transform()は1つのステップで訓練と変換を組み合わせます。新しいデータに同じ埋め込みを適用する必要がある場合は、fit()の後にtransform()を使用してください。

適切なコンポーネント数はどのように選べばよいですか？

可視化には2-3、クラスタリング前処理には5-10、機械学習パイプラインでの特徴量エンジニアリングには10-50を使用してください。

開発者の詳細

作成者

K-Dense-AI

ライセンス

BSD-3-Clause license

リポジトリ

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/umap-learn

参照

main

ファイル構成

📁 references/

📄 api_reference.md

📄 SKILL.md