분자 머신 러닝은 화학 구조를 수치 표현으로 변환하는 과정이 필요합니다. Molfeat는 SMILES 문자열을 QSAR 모델링과 신약 탐색을 위한 머신 러닝 준비 특성으로 변환하는 100개 이상의 피처라이저를 제공합니다.
스킬 ZIP 다운로드
Claude에서 업로드
설정 → 기능 → 스킬 → 스킬 업로드로 이동
토글을 켜고 사용 시작
테스트해 보기
"molfeat" 사용 중입니다. Convert aspirin (CC(=O)OC1=CC=CC=C1C(=O)O) to ECFP fingerprint
예상 결과:
- 반지름 3과 2048비트로 ECFP 지문 생성
- 0이 아닌 비트: 45개 특성 활성화
- 비트 밀도: 2.2% (희소 표현)
- Shape: (2048,) numpy array
- 머신 러닝 모델에 사용 가능
"molfeat" 사용 중입니다. Compare ECFP, MACCS, and RDKit descriptors for caffeine
예상 결과:
- ECFP4: 2048비트 벡터, 0이 아닌 특성 52개
- MACCS: 167비트 구조 키, true 비트 28개
- RDKit2D: LogP=0.43, TPSA=61.1을 포함한 200개 이상의 서술자 값
- 결합 특성: 2415차원 벡터
보안 감사
안전The molfeat skill is a legitimate cheminformatics library for molecular feature extraction. All 397 static findings are false positives triggered by scientific terminology in documentation. The scanner misinterpreted markdown code fences as shell commands, chemistry terminology (ecfp, maccs, gin, c2) as security threats, and documentation URLs as network indicators.
위험 요인
품질 점수
만들 수 있는 것
약물 속성을 위한 QSAR 모델 구축
분자 지문과 서술자를 사용해 ADME 특성, 독성 또는 생체활성을 예측하는 머신 러닝 모델을 학습
화합물 라이브러리의 가상 스크리닝
수백만 개의 분자를 특성으로 변환하여 유사도 검색 및 생물학적 표적에 대한 활성 예측에 사용
화학 공간 분석 및 클러스터링
분자 임베딩을 생성해 화학 라이브러리를 시각화하고 군집화하여 다양성 분석 수행
이 프롬프트를 사용해 보세요
Use molfeat to convert these SMILES to ECFP fingerprints: CCO, CC(=O)O, c1ccccc1. Show the code and output shape.
Load a dataset of 100 molecules and extract RDKit 2D descriptors using molfeat with parallel processing.
Use ChemBERTa to generate embeddings for drug-like molecules and visualize them with PCA.
Compare ECFP, MACCS, and ChemBERTa features for predicting molecular properties using random forest regression.
모범 사례
- 멀티코어 시스템에서 병렬 처리를 위해 n_jobs=-1 사용
- 재계산을 피하기 위해 사전학습 모델 임베딩을 캐시
- 대규모 데이터셋에서는 ignore_errors=True로 유효하지 않은 분자 처리
피하기
- 배치 처리 대신 루프에서 분자를 하나씩 처리
- 지문으로 충분한 단순 유사도 검색에 딥러닝 모델 사용
- 대규모 화합물 라이브러리 처리 시 오류 처리 무시