El manejo de grandes matrices de datos anotados para análisis de genómica de célulasa única es complejo. Esta habilidad proporciona documentación completa para la biblioteca AnnData, permitiendo el manejo eficiente de archivos h5ad, anotaciones de metadatos e integración con el ecosistema scverse.
下载技能 ZIP
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
开启并开始使用
测试它
正在使用“anndata”。 ¿Cómo creo un objeto AnnData con anotaciones de tipo celular y metadatos de genes?
预期结果:
- Crear la matriz de expresión (X) con forma (observaciones, variables)
- Crear DataFrame de metadatos de observación con anotaciones a nivel de célula (cell_type, sample, condition)
- Crear DataFrame de metadatos de variable con información a nivel de gen (gene_name, chromosome, estado de altamente_variable)
- Pasar todos los componentes al constructor ad.AnnData con parámetros X, obs y var
- Acceder a las propiedades n_obs y n_vars para verificar que las dimensiones coinciden con tus metadatos
正在使用“anndata”。 ¿Cuáles son las mejores prácticas para manejar grandes archivos AnnData?
预期结果:
- Usar modo backed (backed='r') para acceder a datos sin cargar la matriz completa en memoria
- Convertir datos dispersos a formato de matriz dispersa (csr_matrix) para una reducción de memoria de 10-100x
- Convertir columnas de texto a tipo categórico usando astype('category') o strings_to_categoricals()
- Almacenar datos crudos antes de filtrar usando adata.raw = adata.copy()
- Usar compression='gzip' al escribir archivos h5ad para un almacenamiento más pequeño
安全审计
安全Documentation-only skill containing markdown reference files. No executable code, scripts, network operations, or file system access. All static findings are false positives from a pattern-matching scanner that misinterprets documentation content. Python code examples shown in markdown are illustrative only and never executed.
风险因素
⚙️ 外部命令 (349)
质量评分
你能构建什么
Flujos de trabajo de ARN-seq de célulasa única
Cargar, procesar y analizar datos de expresión génica de célulasa única usando AnnData como estructura de datos central para flujos de trabajo de scanpy
Grandes conjuntos de datos anotados
Gestionar conjuntos de datos de alta dimensionalidad con anotaciones de metadatos enriquecidos, incrustaciones y mediciones multimodales de manera eficiente
Tuberías de integración por lotes
Combinar múltiples lotes o modalidades experimentales con seguimiento adecuado de metadatos y concatenación en disco para estudios a gran escala
试试这些提示
¿Cómo creo un objeto AnnData desde un array de numpy y DataFrames de pandas para metadatos de observación y variable?
Muéstrame cómo leer un archivo h5ad en modo backed para grandes conjuntos de datos y acceder a los metadatos de observación sin cargar la matriz completa
¿Cómo concateno múltiples objetos AnnData de diferentes lotes experimentales mientras rastreo el origen del lote con etiquetas?
¿Cuáles son las mejores prácticas para el manejo eficiente en memoria de grandes objetos AnnData incluyendo matrices dispersas, modo backed y tipos de datos categóricos?
最佳实践
- Usar matrices dispersas para datos genómicos dispersos para lograr una reducción de memoria de 10-100x
- Almacenar datos crudos antes de filtrar usando adata.raw = adata.copy() para preservar el acceso a las mediciones originales
- Usar modo backed (backed='r') cuando se trabaja con conjuntos de datos más grandes que la RAM disponible para evitar errores de memoria insuficiente
避免
- Modificar vistas de AnnData sin llamar a .copy() primero puede modificar involuntariamente los datos originales
- Cargar conjuntos de datos grandes completos en memoria cuando el modo backed sería suficiente causa presión de memoria innecesaria
- Ignorar la alineación de índices al agregar metadatos externos puede llevar a datos desalineados y resultados incorrectos