molfeat
Converter moléculas em recursos de ML
Também disponível em: davila7
O aprendizado de máquina molecular requer a conversão de estruturas químicas em representações numéricas. O Molfeat oferece mais de 100 featurizers para transformar strings SMILES em recursos prontos para aprendizado de máquina para modelagem QSAR e descoberta de medicamentos.
Baixar o ZIP da skill
Upload no Claude
Vá em Configurações → Capacidades → Skills → Upload skill
Ative e comece a usar
Testar
A utilizar "molfeat". Converter aspirina (CC(=O)OC1=CC=CC=C1C(=O)O) em fingerprint ECFP
Resultado esperado:
- Gerado fingerprint ECFP com raio 3 e 2048 bits
- Bits não nulos: 45 recursos ativados
- Densidade de bits: 2.2% (representação esparsa)
- Formato: array numpy (2048,)
- Pronto para modelos de aprendizado de máquina
A utilizar "molfeat". Comparar ECFP, MACCS e descritores RDKit para cafeína
Resultado esperado:
- ECFP4: vetor de 2048 bits com 52 características não nulas
- MACCS: chaves estruturais de 167 bits com 28 bits verdadeiros
- RDKit2D: mais de 200 valores de descritores incluindo LogP=0.43, TPSA=61.1
- Recursos combinados: vetor de 2415 dimensões
Auditoria de Segurança
SeguroThe molfeat skill is a legitimate cheminformatics library for molecular feature extraction. All 397 static findings are false positives triggered by scientific terminology in documentation. The scanner misinterpreted markdown code fences as shell commands, chemistry terminology (ecfp, maccs, gin, c2) as security threats, and documentation URLs as network indicators.
Fatores de risco
⚙️ Comandos externos (1)
📁 Acesso ao sistema de arquivos (1)
🌐 Acesso à rede (1)
Pontuação de qualidade
O Que Você Pode Construir
Construir modelos QSAR para propriedades de medicamentos
Usar fingerprints moleculares e descritores para treinar modelos de aprendizado de máquina previndo propriedades ADME, toxicidade ou bioatividade
Triagem virtual de bibliotecas de compostos
Converter milhões de moléculas em recursos para busca por similaridade e predição de atividade contra alvos biológicos
Análise e agrupamento de espaço químico
Gerar embeddings moleculares para visualizar e agrupar bibliotecas químicas para análise de diversidade
Tente Estes Prompts
Use molfeat para converter estes SMILES em fingerprints ECFP: CCO, CC(=O)O, c1ccccc1. Mostre o código e o formato da saída.
Carregue um conjunto de 100 moléculas e extraia descritores 2D do RDKit usando molfeat com processamento paralelo.
Use ChemBERTa para gerar embeddings para moléculas do tipo droga e visualize-os com PCA.
Compare recursos ECFP, MACCS e ChemBERTa para predizer propriedades moleculares usando regressão de random forest.
Melhores Práticas
- Use n_jobs=-1 para processamento paralelo em sistemas multi-core
- Cache embeddings de modelos pré-treinados para evitar recálculo
- Manipule moléculas inválidas com ignore_errors=True para grandes conjuntos de dados
Evitar
- Processar uma molécula de cada vez em loops em vez de processamento em lote
- Usar modelos de aprendizado profundo para buscas de similarity simples onde fingerprints são suficientes
- Ignorar tratamento de erros ao processar grandes bibliotecas de compostos
Perguntas Frequentes
Qual é a diferença entre calculadores e transformadores?
Qual featurizer devo usar para modelagem QSAR?
Como manipulo strings SMILES inválidas?
Posso combinar múltiplos featurizers?
Por que modelos pré-treinados são mais lentos que fingerprints?
Como salvo e reutilizo configurações de featurizers?
Detalhes do Desenvolvedor
Autor
K-Dense-AILicença
Apache-2.0 license
Repositório
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/molfeatReferência
main
Estrutura de arquivos