유전자 조절 네트워크 추론은 전사체 데이터에서 전사 인자-표적 유전자 관계를 식별합니다. Arboreto는 GRNBoost2와 GENIE3 알고리즘의 확장 가능한 구현을 제공하여 로컬 머신이나 분산 클러스터에서 대량 및 단일 세포 RNA-seq 데이터를 처리합니다.
스킬 ZIP 다운로드
Claude에서 업로드
설정 → 기능 → 스킬 → 스킬 업로드로 이동
토글을 켜고 사용 시작
테스트해 보기
"arboreto" 사용 중입니다. Infer a gene regulatory network from expression_data.tsv using arboreto
예상 결과:
- 네트워크에 1500개의 조절 링크 포함
- 상위 조절 인자: TF1 (45개 표적), TF2 (38개 표적), TF3 (32개 표적)
- 가장 높은 중요도: TF1 -> gene5 (0.92 중요도 점수)
"arboreto" 사용 중입니다. Run GRNBoost2 with TF filtering on my single-cell data
예상 결과:
- 8000개 세포 x 20000개 유전자 처리
- 250개의 알려진 전사 인자로 필터링
- 로컬 클러스터에서 4.2분 만에 네트워크 추론 완료
- 상위 세포 유형 조절 인자: MYC (87개 표적, 평균 중요도 0.78)
보안 감사
안전All 118 static findings are FALSE POSITIVES. The analyzer misidentified markdown Python code blocks (using triple backticks) as shell command execution, genetic algorithm names (GENIE3, GRNBoost2) as weak cryptographic algorithms, and Dask cluster configuration examples as C2/network reconnaissance. Arboreto is a legitimate open-source bioinformatics library for gene regulatory network inference from transcriptomics data. The only Python script (scripts/basic_grn_inference.py:1-97) is benign code that imports standard libraries and performs standard bioinformatics computations.
위험 요인
⚙️ 외부 명령어 (2)
품질 점수
만들 수 있는 것
단일 세포 GRN 분석
세포 유형별 조절 네트워크를 scRNA-seq 데이터에서 추론하여 세포 이질성 이해
대량 RNA-seq 네트워크 추론
집중적 분석을 위한 TF 필터링과 함께 대량 발현 데이터세트에서 전사 인자 표적 식별
대규모 분산 GRN
고성능 컴퓨팅 환경용 Dask 클러스터를 사용하여 수천 개의 샘플이 있는 데이터세트 처리
이 프롬프트를 사용해 보세요
Use arboreto to infer a gene regulatory network from my expression matrix in expression_data.tsv. Save results to network.tsv.
Run grnboost2 on expression_data.tsv using only the transcription factors listed in tfs.txt. Set seed to 42 for reproducibility.
Connect to my Dask cluster at tcp://scheduler:8786 and run grnboost2 on my large dataset with verbose output enabled.
Infer separate GRN networks for control, treatment_24h, and treatment_48h expression datasets using grnboost2. Save each with the corresponding condition name.
모범 사례
- Dask가 새 프로세스를 생성하므로 스크립트에서 항상 'if __name__ == __main__:' 가드 사용
- 네트워크 비교 시 재현 가능한 결과를 위해 난수 시드 설정
- 계산 시간 줄이기 위해 TF 목록을 알려진 전사 인자로 필터링
피하기
- TF 필터링 없이 대규모 데이터세트에서 arboreto 실행하면 과도한 계산 시간 발생
- 'if __name__ == __main__:' 가드 누락으로 Dask 프로세스 생성 오류 발생
- 수천 개의 관찰이 있는 데이터세트에서 GENIE3 사용하면 느림; 대규모 데이터에는 GRNBoost2 선호