스킬 molfeat

🧪

molfeat

Name: molfeat
Author: K-Dense-AI

안전 ⚙️ 외부 명령어📁 파일 시스템 액세스🌐 네트워크 접근

분자를 ML 특성으로 변환

또한 다음에서 사용할 수 있습니다: davila7

분자 머신 러닝은 화학 구조를 수치 표현으로 변환하는 과정이 필요합니다. Molfeat는 SMILES 문자열을 QSAR 모델링과 신약 탐색을 위한 머신 러닝 준비 특성으로 변환하는 100개 이상의 피처라이저를 제공합니다.

지원: Claude Codex Code(CC)

📊 70 적절함

스킬 ZIP 다운로드

Claude에서 업로드

설정 → 기능 → 스킬 → 스킬 업로드로 이동

토글을 켜고 사용 시작

테스트해 보기

"molfeat" 사용 중입니다. Convert aspirin (CC(=O)OC1=CC=CC=C1C(=O)O) to ECFP fingerprint

예상 결과:

반지름 3과 2048비트로 ECFP 지문 생성
0이 아닌 비트: 45개 특성 활성화
비트 밀도: 2.2% (희소 표현)
Shape: (2048,) numpy array
머신 러닝 모델에 사용 가능

"molfeat" 사용 중입니다. Compare ECFP, MACCS, and RDKit descriptors for caffeine

예상 결과:

ECFP4: 2048비트 벡터, 0이 아닌 특성 52개
MACCS: 167비트 구조 키, true 비트 28개
RDKit2D: LogP=0.43, TPSA=61.1을 포함한 200개 이상의 서술자 값
결합 특성: 2415차원 벡터

보안 감사

안전

v4 • 1/17/2026

The molfeat skill is a legitimate cheminformatics library for molecular feature extraction. All 397 static findings are false positives triggered by scientific terminology in documentation. The scanner misinterpreted markdown code fences as shell commands, chemistry terminology (ecfp, maccs, gin, c2) as security threats, and documentation URLs as network indicators.

스캔된 파일

2,234

분석된 줄 수

발견 사항

총 감사 수

위험 요인

⚙️ 외부 명령어 (1)

SKILL.md:28-497

📁 파일 시스템 액세스 (1)

SKILL.md:399-400

🌐 네트워크 접근 (1)

SKILL.md:505-508

감사자: claude 감사 이력 보기 →

품질 점수

아키텍처

100

유지보수성

콘텐츠

커뮤니티

100

보안

사양 준수

만들 수 있는 것

약물 속성을 위한 QSAR 모델 구축

분자 지문과 서술자를 사용해 ADME 특성, 독성 또는 생체활성을 예측하는 머신 러닝 모델을 학습

화합물 라이브러리의 가상 스크리닝

수백만 개의 분자를 특성으로 변환하여 유사도 검색 및 생물학적 표적에 대한 활성 예측에 사용

화학 공간 분석 및 클러스터링

분자 임베딩을 생성해 화학 라이브러리를 시각화하고 군집화하여 다양성 분석 수행

이 프롬프트를 사용해 보세요

기본 지문 생성

Use molfeat to convert these SMILES to ECFP fingerprints: CCO, CC(=O)O, c1ccccc1. Show the code and output shape.

배치 처리 서술자

Load a dataset of 100 molecules and extract RDKit 2D descriptors using molfeat with parallel processing.

사전학습 모델 임베딩

Use ChemBERTa to generate embeddings for drug-like molecules and visualize them with PCA.

QSAR 파이프라인 최적화

Compare ECFP, MACCS, and ChemBERTa features for predicting molecular properties using random forest regression.

모범 사례

멀티코어 시스템에서 병렬 처리를 위해 n_jobs=-1 사용
재계산을 피하기 위해 사전학습 모델 임베딩을 캐시
대규모 데이터셋에서는 ignore_errors=True로 유효하지 않은 분자 처리

피하기

배치 처리 대신 루프에서 분자를 하나씩 처리
지문으로 충분한 단순 유사도 검색에 딥러닝 모델 사용
대규모 화합물 라이브러리 처리 시 오류 처리 무시

자주 묻는 질문

계산기와 트랜스포머의 차이는 무엇인가요?

계산기는 단일 분자를 처리하는 반면, 트랜스포머는 병렬화와 scikit-learn 호환성으로 배치를 처리합니다.

QSAR 모델링에는 어떤 피처라이저를 사용해야 하나요?

생체활성과 관련된 분자 연결성 패턴을 포착하므로 ECFP 지문(반지름 2-3, 1024-2048비트)부터 시작하세요.

유효하지 않은 SMILES 문자열은 어떻게 처리하나요?

MoleculeTransformer에서 ignore_errors=True로 설정하여 유효하지 않은 분자를 건너뛰고 처리를 계속하세요.

여러 피처라이저를 결합할 수 있나요?

네, FeatConcat을 사용해 지문과 서술자 같은 서로 다른 특성 유형을 하나의 벡터로 결합할 수 있습니다.

왜 사전학습 모델이 지문보다 느린가요?

딥러닝 모델은 신경망 추론이 필요하고 지문은 사전 정의된 알고리즘을 사용하지만, 전이 학습 성능은 더 좋습니다.

피처라이저 구성을 저장하고 재사용하려면 어떻게 하나요?

transformer.to_state_yaml_file()로 저장하고 MoleculeTransformer.from_state_yaml_file()로 구성을 다시 로드하세요.

개발자 세부 정보

작성자

K-Dense-AI

라이선스

Apache-2.0 license

리포지토리

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/molfeat

참조

main

파일 구조

📁 references/

📄 api_reference.md

📄 available_featurizers.md

📄 examples.md

📄 SKILL.md