スキル deepchem

🧪

deepchem

Name: deepchem
Author: K-Dense-AI

安全 ⚡ スクリプトを含む📁 ファイルシステムへのアクセス🌐 ネットワークアクセス

機械学習を化学と創薬に適用する

こちらからも入手できます: davila7

DeepChemを使用して、溶解性、毒性、結合親和性などの分子特性を予測します。グラフニューラルネットワークを訓練するか、ChemBERTaなどの事前学習済みモデルを使用して、創薬や材料科学のアプリケーションに活用します。

対応: Claude Codex Code(CC)

🥉 75 ブロンズ

スキルZIPをダウンロード

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

オンにして利用開始

テストする

「deepchem」を使用しています。これらの分子の溶解性を予測してください: 'CCO', 'CC(=O)O', 'c1ccccc1'

期待される結果:

溶解性予測（log mol/L）:
• エタノール（CCO）: -0.92
• 酢酸（CC(=O)O）: -0.45
• ベンゼン（c1ccccc1）: -1.69
注意: 値が低いほど水に対する溶解性が低いことを示します。

セキュリティ監査

安全

v4 • 1/17/2026

This is a legitimate scientific computing skill for DeepChem molecular machine learning. All 237 static findings are false positives. The findings originate from markdown documentation code examples being incorrectly flagged as executable Ruby/shell commands. Common English words in chemistry documentation are matching C2 security patterns. The Python scripts use argparse for safe argument handling with no hardcoded secrets or dangerous operations.

スキャンされたファイル

2,764

解析された行数

検出結果

総監査数

リスク要因

⚡ スクリプトを含む (3)

scripts/graph_neural_network.py:1-339 scripts/predict_solubility.py:1-225 scripts/transfer_learning.py:1-376

📁 ファイルシステムへのアクセス (3)

scripts/graph_neural_network.py:55-65 scripts/predict_solubility.py:45-55 scripts/transfer_learning.py:50-60

🌐 ネットワークアクセス (1)

SKILL.md:245-255

監査者: claude 監査履歴を表示 →

品質スコア

アーキテクチャ

100

保守性

コンテンツ

コミュニティ

100

セキュリティ

仕様準拠

作れるもの

化合物ライブラリーのスクリーニング

大規模な化合物ライブラリーの溶解性と毒性を予測し、合成候補を優先順位付けします。

分子特性モデルの構築

グラフニューラルネットワークまたは従来のMLアルゴリズムを使用して、独自データセットでカスタムモデルを訓練します。

転移学習の適用

ChemBERTaなどの事前学習済み化学モデルを、ラベル付き例が限定された小規模データセットでファインチューニングします。

これらのプロンプトを試す

分子データのロード

DeepChemを使用して、'molecules.csv'にあるSMILES文字列を含むCSVファイルをロードし、CircularFingerprint特徴量化器と訓練済みモデルを使用して溶解性を予測します。

GNNモデルの訓練

DeepChemを使用してTox21データセットでグラフ畳み込みネットワークを訓練し、12すべてのタスクで毒性を予測します。

転移学習

HuggingFaceからChemBERTa事前学習済みモデルを使用し、'activity.csv'にある独自データセットでファインチューニングして結合親和性を予測します。

バッチ予測

訓練済みのDeepChemモデルをロードし、新しいSMILES文字列のリスト「'CCO', 'CC(=O)O', 'c1ccccc1'」で予測を行います。信頼スコアを返します。

ベストプラクティス

類似した分子からのデータ漏洩を防ぐため、分子データセットではランダム分割ではなくScaffoldSplitterを使用する
データセットサイズが10,000サンプル未満の場合は、事前学習済みモデルで転移学習を適用する
過学習を防ぐため、小規模データセットではドロップアウトを高め（0.3-0.5）、よりシンプルなモデルを使用する

回避

分子データでランダムなトレイン/テスト分割を使用する - 類似した構造からのデータ漏洩につながる
1,000サンプル未満のデータセットで深いGNNを訓練する - 深刻な過学習のリスク
毒性データセットのクラス不均衡を無視する - 訓練前にタスク分布を必ず確認する

よくある質問

どの特徴量化器を使用すべきですか？

GNNにはMolGraphConvFeaturizer、伝統的なMLにはCircularFingerprint、解釈可能なモデルにはRDKitDescriptorsを使用します。

小規模なデータセットはどう対処すればよいですか？

ChemBERTaまたはGROVER事前学習済みモデルで転移学習を適用します。データ拡張とより強い正則化を使用します。

どの分割器を使用すべきですか？

構造的に類似した化合物が同じ分割に確実に含まれるように、分子データセットにはScaffoldSplitterを使用します。

自分のデータセットを使用できますか？

はい、一方の列にSMILES文字列、もう一方の列に目標値を含むCSVを提供します。カスタム列名でCSVLoaderを使用します。

どのような事前学習済みモデルが利用可能ですか？

ChemBERTa、GROVER、MolFormerが統合されています。ドメイン固有の分子表現のためにHuggingFaceからロードします。

モデルのパフォーマンスを改善するにはどうすればよいですか？

異なる特徴量化器を試す、訓練エポックを増やす、AttentiveFPのようなより大きなモデルを使用する、または事前学習済みモデルから転移学習を適用します。

開発者の詳細

作成者

K-Dense-AI

ライセンス

MIT license

リポジトリ

https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/deepchem

参照

main

ファイル構成

📁 references/

📄 api_reference.md

📄 workflows.md

📁 scripts/

📄 graph_neural_network.py

📄 predict_solubility.py

📄 transfer_learning.py

📄 evaluation.json

📄 SKILL.md