📊

umap-learn

Name: umap-learn
Author: K-Dense-AI

Безопасно ⚙️ Внешние команды

Применить снижение размерности UMAP для визуализации данных

Также доступно от: davila7

Данные высокой размерности сложно визуализировать и анализировать. UMAP снижает размерность с сохранением структуры, обеспечивая четкую 2D/3D визуализацию и улучшенные результаты кластеризации.

Поддерживает: Claude Codex Code(CC)

📊 69 Адекватно

Скачать ZIP навыка

Загрузить в Claude

Перейдите в Settings → Capabilities → Skills → Upload skill

Включите и начните использовать

Протестировать

Использование «umap-learn». Примените UMAP для визуализации моего набора данных iris в 2D

Ожидаемый результат:

Создано UMAP вложение с формой (150, 2)
Применена предобработка StandardScaler
Сгенерирован диаграсс рассеивания, показывающий три отдельных кластера
Сохранено 92% локальной структуры окрестностей
Готово к интерактивному исследованию связей между видами

Использование «umap-learn». Используйте UMAP для предобработки моих данных клиентов для кластеризации

Ожидаемый результат:

Применена оптимизированная для кластеризации UMAP с n_neighbors=30, min_dist=0.0
Снижено до 10 измерений для HDBSCAN
Определено 5 сегментов клиентов с HDBSCAN
Обнаружено 23 точки шума (не назначенных клиентов)
Плотность сохранена лучше, чем при прямом снижении до 2D

Использование «umap-learn». Примените контролируемый UMAP с моим размеченным набором данных

Ожидаемый результат:

Использовано 5000 размеченных выборок с 50 признаками
Контролируемое вложение достигло разделения кластеров 0.89
Классы четко видны на 2D визуализации
Сохранена внутренняя структура внутри каждого класса

Аудит безопасности

Безопасно

v4 • 1/17/2026

All static findings are false positives. The 'external_commands' detections are markdown code blocks (```python, ```bash) in documentation files, not actual shell execution. No malicious code, network requests, or security risks exist. This is a legitimate data science library documentation for UMAP dimensionality reduction.

Просканировано файлов

1,740

Проанализировано строк

находки

Всего аудитов

Факторы риска

⚙️ Внешние команды (6)

SKILL.md:19-21 SKILL.md:27-41 SKILL.md:130-142 references/api_reference.md:5 references/api_reference.md:34-45 references/api_reference.md:378-397

Проверено: claude Посмотреть историю аудитов →

Оценка качества

Архитектура

100

Сопровождаемость

Контент

Сообщество

100

Безопасность

Соответствие спецификации

Что вы можете построить

Визуализация наборов данных высокой размерности

Создавайте 2D диаграссы рассеивания для сложных данных, таких как экспрессия генов, текстовые вложения или поведение клиентов, для обнаружения закономерностей.

Предобработка данных для кластеризации

Снижайте размерность перед применением HDBSCAN для преодоления проклятия размерности и улучшения качества кластеров.

Конструирование признаков для ML конвейеров

Создавайте компактные вложения размерности 10-50, сохраняющие структуру для задач классификации или регрессии.

Попробуйте эти промпты

Базовая визуализация

Примените UMAP для снижения моего набора данных до 2D для визуализации. Используйте стандартные параметры и создайте диаграсс рассеивания, раскрашенный по целевой переменной.

Оптимизация кластеризации

Настройте UMAP для предобработки кластеризации с n_neighbors=30, min_dist=0.0, n_components=10, затем примените HDBSCAN для поиска кластеров.

Контролируемое вложение

Создайте контролируемое UMAP вложение с использованием моих меток классов для разделения категорий с сохранением внутренней структуры внутри каждого класса.

Выбор пользовательской метрики

Примените UMAP с косинусным расстоянием для моих документных вложений или используйте расстояние Хэмминга для данных с бинарными признаками.

Лучшие практики

Всегда стандартизируйте признаки перед применением UMAP для обеспечения равного веса по всем измерениям
Установите параметр random_state для воспроизводимых результатов между запусками
Используйте n_neighbors=30, min_dist=0.0, n_components=10 для конвейеров предобработки кластеризации

Избегать

Применение UMAP к необработанным нешкалированным данным приведет к смещенным вложениям с неравномерным весом признаков
Использование параметров по умолчанию для всех задач без настройки под конкретные цели снижает эффективность
Предположение, что UMAP идеально сохраняет плотность - он может создавать искусственные раз divisions кластеров

Часто задаваемые вопросы

Когда использовать UMAP вместо t-SNE?

Используйте UMAP для более быстрых вычислений, лучшего сохранения глобальной структуры и когда нужно преобразовать новые данные. UMAP лучше масштабируется для больших наборов данных.

Почему мои кластеры раз disconnected?

Увеличьте параметр n_neighbors, чтобы подчеркнуть более глобальную структуру и соединить фрагментированные компоненты. Значения 50-200 работают хорошо.

Как сделать результаты воспроизводимыми?

Установите параметр random_state на любое целое значение. Это фиксирует стохастическое зерно оптимизации для согласованных вложений.

Может ли UMAP обрабатывать категориальные переменные?

UMAP работает с числовыми данными. Кодируйте категориальные переменные с помощью one-hot кодирования или используйте расстояние Хэмминга для бинарно закодированных данных.

В чем разница между fit() и fit_transform()?

fit_transform() объединяет обучение и преобразование в один шаг. Используйте fit() с последующим transform(), когда нужно применить то же вложение к новым данным.

Как выбрать правильное количество компонентов?

Используйте 2-3 для визуализации, 5-10 для предобработки кластеризации и 10-50 для конструирования признаков в конвейерах машинного обучения.

Сведения для разработчиков

Автор

K-Dense-AI

Лицензия

BSD-3-Clause license

Репозиторий

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/umap-learn

Ссылка

main

Структура файлов

📁 references/

📄 api_reference.md

📄 SKILL.md