umap-learn
Применить снижение размерности UMAP для визуализации данных
Также доступно от: davila7
Данные высокой размерности сложно визуализировать и анализировать. UMAP снижает размерность с сохранением структуры, обеспечивая четкую 2D/3D визуализацию и улучшенные результаты кластеризации.
Скачать ZIP навыка
Загрузить в Claude
Перейдите в Settings → Capabilities → Skills → Upload skill
Включите и начните использовать
Протестировать
Использование «umap-learn». Примените UMAP для визуализации моего набора данных iris в 2D
Ожидаемый результат:
- Создано UMAP вложение с формой (150, 2)
- Применена предобработка StandardScaler
- Сгенерирован диаграсс рассеивания, показывающий три отдельных кластера
- Сохранено 92% локальной структуры окрестностей
- Готово к интерактивному исследованию связей между видами
Использование «umap-learn». Используйте UMAP для предобработки моих данных клиентов для кластеризации
Ожидаемый результат:
- Применена оптимизированная для кластеризации UMAP с n_neighbors=30, min_dist=0.0
- Снижено до 10 измерений для HDBSCAN
- Определено 5 сегментов клиентов с HDBSCAN
- Обнаружено 23 точки шума (не назначенных клиентов)
- Плотность сохранена лучше, чем при прямом снижении до 2D
Использование «umap-learn». Примените контролируемый UMAP с моим размеченным набором данных
Ожидаемый результат:
- Использовано 5000 размеченных выборок с 50 признаками
- Контролируемое вложение достигло разделения кластеров 0.89
- Классы четко видны на 2D визуализации
- Сохранена внутренняя структура внутри каждого класса
Аудит безопасности
БезопасноAll static findings are false positives. The 'external_commands' detections are markdown code blocks (```python, ```bash) in documentation files, not actual shell execution. No malicious code, network requests, or security risks exist. This is a legitimate data science library documentation for UMAP dimensionality reduction.
Факторы риска
Оценка качества
Что вы можете построить
Визуализация наборов данных высокой размерности
Создавайте 2D диаграссы рассеивания для сложных данных, таких как экспрессия генов, текстовые вложения или поведение клиентов, для обнаружения закономерностей.
Предобработка данных для кластеризации
Снижайте размерность перед применением HDBSCAN для преодоления проклятия размерности и улучшения качества кластеров.
Конструирование признаков для ML конвейеров
Создавайте компактные вложения размерности 10-50, сохраняющие структуру для задач классификации или регрессии.
Попробуйте эти промпты
Примените UMAP для снижения моего набора данных до 2D для визуализации. Используйте стандартные параметры и создайте диаграсс рассеивания, раскрашенный по целевой переменной.
Настройте UMAP для предобработки кластеризации с n_neighbors=30, min_dist=0.0, n_components=10, затем примените HDBSCAN для поиска кластеров.
Создайте контролируемое UMAP вложение с использованием моих меток классов для разделения категорий с сохранением внутренней структуры внутри каждого класса.
Примените UMAP с косинусным расстоянием для моих документных вложений или используйте расстояние Хэмминга для данных с бинарными признаками.
Лучшие практики
- Всегда стандартизируйте признаки перед применением UMAP для обеспечения равного веса по всем измерениям
- Установите параметр random_state для воспроизводимых результатов между запусками
- Используйте n_neighbors=30, min_dist=0.0, n_components=10 для конвейеров предобработки кластеризации
Избегать
- Применение UMAP к необработанным нешкалированным данным приведет к смещенным вложениям с неравномерным весом признаков
- Использование параметров по умолчанию для всех задач без настройки под конкретные цели снижает эффективность
- Предположение, что UMAP идеально сохраняет плотность - он может создавать искусственные раз divisions кластеров
Часто задаваемые вопросы
Когда использовать UMAP вместо t-SNE?
Почему мои кластеры раз disconnected?
Как сделать результаты воспроизводимыми?
Может ли UMAP обрабатывать категориальные переменные?
В чем разница между fit() и fit_transform()?
Как выбрать правильное количество компонентов?
Сведения для разработчиков
Автор
K-Dense-AIЛицензия
BSD-3-Clause license
Репозиторий
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/umap-learnСсылка
main
Структура файлов