arboreto
Genregulatorische Netzwerke aus Expressionsdaten ableiten
Auch verfügbar von: davila7
Die Ableitung genregulatorischer Netzwerke identifiziert Transkriptionsfaktor-Zielgen-Beziehungen aus Transkriptomik-Daten. Arboreto bietet skalierbare Implementierungen der GRNBoost2- und GENIE3-Algorithmen, die sowohl Bulk- als auch Single-Cell-RNA-seq-Daten auf lokalen Maschinen oder verteilten Clustern verarbeiten.
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "arboreto". Infer a gene regulatory network from expression_data.tsv using arboreto
Erwartetes Ergebnis:
- Netzwerk enthält 1500 regulatorische Links
- Top-Regulatoren: TF1 (45 Ziele), TF2 (38 Ziele), TF3 (32 Ziele)
- Höchste Wichtigkeit: TF1 -> gene5 (0,92 Wichtigkeitsscore)
Verwendung von "arboreto". Run GRNBoost2 with TF filtering on my single-cell data
Erwartetes Ergebnis:
- Verarbeitet 8000 Zellen x 20000 Gene
- Auf 250 bekannte Transkriptionsfaktoren gefiltert
- Abgeleitetes Netzwerk in 4,2 Minuten auf lokalem Cluster
- Top-Zelltypregulator: MYC (87 Ziele, durchschnittliche Wichtigkeit 0,78)
Sicherheitsaudit
SicherAll 118 static findings are FALSE POSITIVES. The analyzer misidentified markdown Python code blocks (using triple backticks) as shell command execution, genetic algorithm names (GENIE3, GRNBoost2) as weak cryptographic algorithms, and Dask cluster configuration examples as C2/network reconnaissance. Arboreto is a legitimate open-source bioinformatics library for gene regulatory network inference from transcriptomics data. The only Python script (scripts/basic_grn_inference.py:1-97) is benign code that imports standard libraries and performs standard bioinformatics computations.
Risikofaktoren
⚙️ Externe Befehle (2)
🌐 Netzwerkzugriff (2)
Qualitätsbewertung
Was du bauen kannst
Single-Cell-GRN-Analyse
Zellspezifische regulatorische Netzwerke aus scRNA-seq-Daten ableiten, um zelluläre Heterogenität zu verstehen.
Bulk-RNA-seq-Netzwerkableitung
Transkriptionsfaktor-Ziele in Bulk-Expressionsdatensätzen mit TF-Filterung für fokussierte Analyse identifizieren.
Verteilte Großskalige GRN
Datensätze mit Tausenden von Proben mit Dask-Clustern für Hochleistungsrechenumgebungen verarbeiten.
Probiere diese Prompts
Use arboreto to infer a gene regulatory network from my expression matrix in expression_data.tsv. Save results to network.tsv.
Run grnboost2 on expression_data.tsv using only the transcription factors listed in tfs.txt. Set seed to 42 for reproducibility.
Connect to my Dask cluster at tcp://scheduler:8786 and run grnboost2 on my large dataset with verbose output enabled.
Infer separate GRN networks for control, treatment_24h, and treatment_48h expression datasets using grnboost2. Save each with the corresponding condition name.
Bewährte Verfahren
- Verwenden Sie immer den 'if __name__ == __main__:'-Guard in Skripten, da Dask neue Prozesse startet
- Legen Sie einen Zufallssege fest für reproduzierbare Ergebnisse beim Vergleichen von Netzwerken
- Filtern Sie die TF-Liste auf bekannte Transkriptionsfaktoren, um die Berechnungszeit zu reduzieren
Vermeiden
- Das Ausführen von arboreto ohne TF-Filterung auf großen Datensätzen verursacht übermäßige Berechnungszeit
- Das Vergessen des 'if __name__ == __main__:'-Guards verursacht Dask-Prozessstart-Fehler
- Die Verwendung von GENIE3 auf Datensätzen mit Tausenden von Beobachtungen ist langsam; bevorzugen Sie GRNBoost2 für große Daten
Häufig gestellte Fragen
Was ist der Unterschied zwischen GRNBoost2 und GENIE3?
Welches Eingabeformat erwartet arboreto?
Wie funktioniert verteiltes Computing?
Was bedeutet die Ausgabe?
Wie filtere ich die Ergebnisse?
Kann ich dies mit pySCENIC verwenden?
Entwicklerdetails
Autor
K-Dense-AILizenz
BSD-3-Clause license
Repository
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/arboretoRef
main
Dateistruktur