Навыки arboreto
🧬

arboreto

Безопасно ⚙️ Внешние команды🌐 Доступ к сети

Вывод генных регуляторных сетей из данных экспрессии

Также доступно от: davila7

Вывод генных регуляторных сетей определяет связи факторов транскрипции с целевыми генами из транскриптомных данных. Arboreto предоставляет масштабируемые реализации алгоритмов GRNBoost2 и GENIE3, которые обрабатывают данные RNA-seq как объемного, так и одиночного клеточного типа на локальных машинах или распределенных кластерах.

Поддерживает: Claude Codex Code(CC)
🥈 78 Серебро
1

Скачать ZIP навыка

2

Загрузить в Claude

Перейдите в Settings → Capabilities → Skills → Upload skill

3

Включите и начните использовать

Протестировать

Использование «arboreto». Вывести генную регуляторную сеть из expression_data.tsv с использованием arboreto

Ожидаемый результат:

  • Сеть содержит 1500 регуляторных связей
  • Верхние регуляторы: TF1 (45 мишеней), TF2 (38 мишеней), TF3 (32 мишени)
  • Наибольшая важность: TF1 -> gene5 (0.92 оценка важности)

Использование «arboreto». Запустить GRNBoost2 с фильтрацией TF на моих данных одиночных клеток

Ожидаемый результат:

  • Обработано 8000 клеток x 20000 генов
  • Отфильтровано до 250 известных факторов транскрипции
  • Выведена сеть за 4.2 минуты на локальном кластере
  • Верхний регулятор типа клеток: MYC (87 мишеней, средняя важность 0.78)

Аудит безопасности

Безопасно
v4 • 1/17/2026

All 118 static findings are FALSE POSITIVES. The analyzer misidentified markdown Python code blocks (using triple backticks) as shell command execution, genetic algorithm names (GENIE3, GRNBoost2) as weak cryptographic algorithms, and Dask cluster configuration examples as C2/network reconnaissance. Arboreto is a legitimate open-source bioinformatics library for gene regulatory network inference from transcriptomics data. The only Python script (scripts/basic_grn_inference.py:1-97) is benign code that imports standard libraries and performs standard bioinformatics computations.

6
Просканировано файлов
1,589
Проанализировано строк
2
находки
4
Всего аудитов

Факторы риска

Оценка качества

68
Архитектура
100
Сопровождаемость
87
Контент
30
Сообщество
100
Безопасность
91
Соответствие спецификации

Что вы можете построить

Анализ GRN одиночных клеток

Выводить специфичные для типа клеток регуляторные сети из данных scRNA-seq для понимания клеточной гетерогенности.

Вывод сети из объемного RNA-seq

Определять мишени факторов транскрипции в объемных наборах данных экспрессии с фильтрацией TF для целенаправленного анализа.

Распределенный крупномасштабный GRN

Обрабатывать наборы данных с тысячами образцов с использованием кластеров Dask для высокопроизводительных вычислительных сред.

Попробуйте эти промпты

Базовый вывод GRN
Используйте arboreto для вывода генной регуляторной сети из моей матрицы экспрессии в expression_data.tsv. Сохраните результаты в network.tsv.
С фильтрацией TF
Запустите grnboost2 на expression_data.tsv, используя только факторы транскрипции, перечисленные в tfs.txt. Установите зерно 42 для воспроизводимости.
Кластерные вычисления
Подключитесь к моему кластеру Dask по адресу tcp://scheduler:8786 и запустите grnboost2 на моем большом наборе данных с подробным выводом.
Несколько условий
Выведите отдельные сети GRN для наборов данных экспрессии control, treatment_24h и treatment_48h с использованием grnboost2. Сохраните каждую с соответствующим названием условия.

Лучшие практики

  • Всегда используйте защиту 'if __name__ == __main__:' в скриптах, так как Dask порождает новые процессы
  • Установите случайное зерно для воспроизводимых результатов при сравнении сетей
  • Фильтруйте список TF до известных факторов транскрипции для сокращения времени вычислений

Избегать

  • Запуск arboreto без фильтрации TF на больших наборах данных вызывает чрезмерное время вычислений
  • Забывание защиты 'if __name__ == __main__:' вызывает ошибки порождения процессов Dask
  • Использование GENIE3 на наборах данных с тысячами наблюдений медленное; предпочтительнее GRNBoost2 для больших данных

Часто задаваемые вопросы

В чем разница между GRNBoost2 и GENIE3?
GRNBoost2 использует градиентный бустинг и быстрее для больших наборов данных. GENIE3 использует случайный лес и лучше подходит для маленьких наборов данных или валидации.
Какой формат ввода ожидает arboreto?
Матрица экспрессии генов с генами в качестве столбцов и наблюдениями в качестве строк. Используйте pandas DataFrame или массив NumPy с названиями генов.
Как работают распределенные вычисления?
Arboreto использует Dask для параллелизации регрессии по генам. Подключитесь к LocalCluster или удаленному планировщику для многоузловых вычислений.
Что означает вывод?
Вывод представляет собой триплеты TF-целевой ген-важность, где более высокие оценки важности указывают на более сильные предсказанные регуляторные связи.
Как отфильтровать результаты?
Фильтруйте по порогу важности (например, > 0.5) или выбирайте верхние N связей на целевой ген. Используйте операции pandas DataFrame.
Могу ли я использовать это с pySCENIC?
Да, arboreto предоставляет вывод GRN как первый шаг конвейера SCENIC для анализа регуляторных сетей одиночных клеток.

Сведения для разработчиков

Автор

K-Dense-AI

Лицензия

BSD-3-Clause license

Ссылка

main

Структура файлов