geniml
Genomische Regionen mit ML analysieren
Auch verfügbar von: K-Dense-AI
Die Arbeit mit genomischen Intervalldaten für maschinelles Lernen erfordert spezialisierte Werkzeuge. Geniml bietet überwachte Methoden zum Lernen von Einbettungen genomischer Regionen, einzelner Zellen und Metadaten-Labels für Ähnlichkeitssuche, Clustering und nachgelagerte Analysen.
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "geniml". Hilf mir, mit geniml für die Analyse meiner ATAC-seq Peaks zu beginnen
Erwartetes Ergebnis:
- Geniml installieren: uv pip install geniml
- Für ML-Funktionen: uv pip install 'geniml[ml]'
- Grundlegender Workflow: 1) Universum aus Peaks erstellen, 2) BED-Dateien tokenisieren, 3) Region2Vec trainieren, 4) Einbettungen evaluieren
- Wichtige Parameter: embedding_dim (50-300), num_shufflings (500-2000), p_value_threshold (1e-9)
- Ausgabe: Regionseinbettungen für Ähnlichkeitssuche, Clustering und nachgelagertes ML
Verwendung von "geniml". Wie verwende ich BEDspace für metadatengestützte Suchen
Erwartetes Ergebnis:
- Vorverarbeiten: geniml bedspace preprocess --input regions/ --metadata labels.csv --universe universe.bed
- Trainieren: geniml bedspace train --input preprocessed.txt --output model/ --dim 100
- Suchtypen: r2l (Region zu Label), l2r (Label zu Region), r2r (Region zu Region)
- Abfrage-Beispiel: geniml bedspace search -t r2l -d distances.pkl -q query.bed -n 10
Sicherheitsaudit
SicherDocumentation-only skill containing markdown files for the geniml genomic ML package. All 190 static findings are false positives triggered by CLI examples and URLs in documentation. No executable code exists. All detected patterns are legitimate documentation of genomic analysis tools and methods.
Risikofaktoren
⚙️ Externe Befehle (145)
🌐 Netzwerkzugriff (6)
⚡ Enthält Skripte (1)
📁 Dateisystemzugriff (4)
Qualitätsbewertung
Was du bauen kannst
Genregulationsmuster analysieren
Einbettungen auf ChIP-seq oder ATAC-seq Peaks trainieren, um regulatorische Regionen zu identifizieren und experimentelle Bedingungen zu vergleichen.
Einzelzell-Chromatin-Daten annotieren
Zell-Einbettungen aus scATAC-seq-Daten für Clustering, Zelltyp-Annotation und Integration mit scanpy-Workflows generieren.
Genomische Referenzdatenbanken erstellen
Konsensus-Peak-Universen und durchsuchbare genomische Datenbanken mit metadatengestützten Ähnlichkeitsabfragen erstellen.
Probiere diese Prompts
Hilf mir, geniml Region2Vec zu verwenden, um Einbettungen auf meiner BED-Dateisammlung zu trainieren. Ich habe Peaks in /path/to/bed/files und muss zuerst ein Universum erstellen.
Führe mich durch das scEmbed-Training für meinen Einzelzell-ATAC-seq-Datensatz. Ich habe ein AnnData-Objekt mit Peak-Koordinaten und möchte Zellen nach Chromatin-Zugänglichkeit clustern.
Zeig mir, wie ich geniml BEDspace verwende, um eine durchsuchbare Datenbank zu erstellen, in der ich Regionen nach Metadaten-Labels wie Zelltyp oder Gewebe abfragen kann.
Entwickle einen vollständigen geniml-Workflow, der Universum-Erstellung, Region2Vec-Training, Einbettungsevaluation und UMAP-Visualisierung für vergleichende genomische Analysen kombiniert.
Bewährte Verfahren
- Zeit in die Erstellung einer umfassenden Universum-Datei für zuverlässige Tokenisierung investieren
- Tokenisierungsabdeckung validieren (Ziel: >80%) vor dem Training der Einbettungen
- Mehrere Evaluationsmetriken (Silhouette, Davies-Bouldin) verwenden, um Einbettungsqualität zu bewerten
- Parameter und Zufalls-SEEDS für Reproduzierbarkeit dokumentieren
Vermeiden
- Universum-Validierung überspringen - schlechte Universen führen zu unzuverlässigen Einbettungen
- Zu wenige Trainingsepochen oder falsche Lernraten verwenden
- Daten verarbeiten, ohne zuerst die Eingabequalität zu prüfen
- Vergessen, Peak-Koordinaten auf die Genom-Assembly zu validieren