geniml
Анализ геномных интервалов с помощью машинного обучения
Также доступно от: davila7
Geniml преобразует BED файлы в эмбеддинги машинного обучения для анализа геномных регионов. Обучайте модели для поиска паттернов в доступности хроматина, создавайте консенсусные наборы пиков и анализируйте данные одноячеечной ATAC-seq.
Скачать ZIP навыка
Загрузить в Claude
Перейдите в Settings → Capabilities → Skills → Upload skill
Включите и начните использовать
Протестировать
Использование «geniml». Обучите region2vec на моих пиках ATAC-seq и оцените эмбеддинги
Ожидаемый результат:
- Токенизировано 15,234 пиков с использованием файла вселенной
- Обучены 100-мерные эмбеддинги для 8,567 уникальных регионов
- Силуэтный коэффициент: 0.72 (хорошее качество кластеризации)
- Индекс Дэвиса-Болдина: 0.85 (низкое сходство между кластерами)
- Сгенерирована 2D UMAP для визуализации
Использование «geniml». Постройте консенсусную вселенную пиков из 10 экспериментов ATAC-seq
Ожидаемый результат:
- Объединено 245,000 пиков из всех экспериментов
- Применен метод отсечения покрытия с порогом 5x
- Сгенерирована консенсусная вселенная с 32,450 регионов
- Покрытие входных пиков: 87.3%
- Средний размер региона: 425bp (подходяще для ATAC-seq)
Использование «geniml». Анализируйте данные одноячеечной ATAC-seq для аннотации типов клеток
Ожидаемый результат:
- Предтокенизировано 8,500 клеток из набора данных PBMC
- Обучена модель scEmbed со 100 измерениями
- Сгенерированы эмбеддинги клеток для всех клеток
- Кластеризация Leiden выявила 12 различных популяций клеток
- Аннотированы основные типы: T-клетки, B-клетки, моноциты, NK-клетки
Аудит безопасности
БезопасноStatic analysis flagged 194 patterns, but ALL are false positives. The 'external_commands' findings are markdown bash code blocks in documentation (not actual shell execution). 'Weak cryptographic' refers to MD5 checksums for file verification (legitimate bioinformatics practice). 'Ransomware keywords' is a false positive triggered by security audit text itself. 'Hidden file access' refers to standard cache directories. All patterns represent legitimate genomic ML workflows.
Факторы риска
Оценка качества
Что вы можете построить
Сравнение экспериментов ChIP-seq
Обучайте региональные эмбеддинги для поиска похожих пиков в различных экспериментах по связыванию факторов транскрипции
Кластеризация клеток по хроматину
Используйте scEmbed для анализа данных scATAC-seq и идентификации типов клеток на основе паттернов доступности хроматина
Создание референсных наборов пиков
Создавайте консенсусные вселенные из множества экспериментов ATAC-seq для стандартизированных анализов
Попробуйте эти промпты
Помогите мне обучить эмбеддинги region2vec на моих BED файлах. Сначала токенизируйте их с помощью файла вселенной, затем обучите 100-мерную модель эмбеддингов.
Используйте scEmbed для анализа моих данных scATAC-seq в scanpy. Токенизируйте клетки, обучите модель эмбеддингов и сгенерируйте визуализацию UMAP.
Постройте консенсусную вселенную из моей коллекции BED файлов, используя метод отсечения покрытия с порогом 5x.
Обучайте эмбеддинги BEDspace на регионах с метками типов клеток для обеспечения межмодальных запросов между регионами и метаданными.
Лучшие практики
- Всегда создавайте высококачественные вселенные с хорошим покрытием пиков перед обучением эмбеддингов
- Проверяйте покрытие токенизации (больше 80 процентов) и корректируйте пороговые значения p-value при необходимости
- Используйте множество метрик оценки для проверки качества эмбеддингов и их биологической релевантности
Избегать
- Обучение на низкокачественных или неправильно выровненных наборах пиков без надлежащего построения вселенной
- Использование параметров по умолчанию без настройки для вашего конкретного типа данных и масштаба
- Пропуск этапов оценки - всегда проверяйте эмбеддинги перед последующим анализом
Часто задаваемые вопросы
Какие форматы файлов поддерживает geniml?
Как выбрать размерность эмбеддинга?
Могу ли я использовать geniml с другими инструментами для одной клетки?
В чем разница между Region2Vec и BEDspace?
Сколько времени занимает обучение?
Нужен ли мне файл вселенной?
Сведения для разработчиков
Автор
K-Dense-AIЛицензия
BSD-2-Clause license
Репозиторий
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/genimlСсылка
main
Структура файлов