スキル agentdb-reinforcement-learning-training

🤖

agentdb-reinforcement-learning-training

Name: agentdb-reinforcement-learning-training
Author: DNYoussef

安全 ⚙️ 外部コマンド🌐 ネットワークアクセス📁 ファイルシステムへのアクセス

AgentDBでRLエージェントを訓練

自己学習AIエージェントの構築には、複雑な強化学習アルゴリズムの実装が必要です。このスキルは、Q-Learning、DQN、PPO、SACを含む9つのRLアルゴリズムを使用してAgentDBで自律エージェントを訓練するための、実証済みの訓練・検証・デプロイワークフローを備えた完全な5フェーズフレームワークを提供します。

対応: Claude Codex Code(CC)

⚠️ 67 貧弱

スキルZIPをダウンロード

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

オンにして利用開始

テストする

「agentdb-reinforcement-learning-training」を使用しています。グリッドワールド用にDQNでRLエージェントを訓練

期待される結果:

フェーズ1: agentdb-learningをインストールし、データベースを初期化しました
フェーズ2: 128ユニットの隠れ層、優先順位付きリプレイバッファでDQNを設定しました
フェーズ3: 10000エピソード訓練し、報酬が-50から+95に収束しました
フェーズ4: ランダムベースラインの12%に対して94%の成功率を検証しました
フェーズ5: INT8量子化でONNXにエクスポートしました

「agentdb-reinforcement-learning-training」を使用しています。連続制御タスク用にSACアルゴリズムを設定

期待される結果:

最大エントロピーRL用にSoft Actor-Criticアルゴリズムを選択しました
安定したQ値推定のためにツインクリティックを設定しました
探索と活用のバランスのために温度係数を設定しました
自動エントロピー調整を有効にして訓練しています

「agentdb-reinforcement-learning-training」を使用しています。カートポールで9つのRLアルゴリズム全てをベンチマーク

期待される結果:

同じハイパーパラメータで各アルゴリズムを1000エピソード実行しました
DQNは2.5時間で92%の成功率を達成しました
PPOは3時間で89%の成功率を達成しました
SACは4時間で94%の成功率を達成しました(総合最高)
Q-Learningベースラインは45%を達成しました(関数近似により制限)

セキュリティ監査

安全

v5 • 1/17/2026

This skill is pure documentation providing instructional guidance for RL training. All 119 static findings are FALSE POSITIVES. The scanner misidentified RL hyperparameters (gamma, alpha, beta) as cryptographic algorithms and TypeScript code examples as shell commands. No executable code, scripts, or malicious components exist.

スキャンされたファイル

1,353

解析された行数

検出結果

総監査数

リスク要因

⚙️ 外部コマンド (70)

PROCESS.md:9-29 PROCESS.md:29-35 PROCESS.md:35-51 PROCESS.md:51-57 PROCESS.md:57-78 PROCESS.md:78-81 PROCESS.md:81-87 PROCESS.md:87-114 PROCESS.md:114-120 PROCESS.md:120-138 PROCESS.md:138-150 PROCESS.md:150-151 README.md:14-17 SKILL.md:86-89 SKILL.md:89-92 SKILL.md:92-121 SKILL.md:121-124 SKILL.md:124-152 SKILL.md:152-155 SKILL.md:155-166 SKILL.md:166-169 SKILL.md:169-176 SKILL.md:176-193 SKILL.md:193-230 SKILL.md:230-233 SKILL.md:233-261 SKILL.md:261-264 SKILL.md:264-276 SKILL.md:276-279 SKILL.md:279-293 SKILL.md:293-296 SKILL.md:296-303 SKILL.md:303-320 SKILL.md:320-385 SKILL.md:385-395 SKILL.md:395-401 SKILL.md:401-415 SKILL.md:415-418 SKILL.md:418-439 SKILL.md:439-442 SKILL.md:442-458 SKILL.md:458-461 SKILL.md:461-473 SKILL.md:473-476 SKILL.md:476-485 SKILL.md:485-502 SKILL.md:502-504 SKILL.md:504-507 SKILL.md:507-553 SKILL.md:553-556 SKILL.md:556-569 SKILL.md:569-572 SKILL.md:572-602 SKILL.md:602-605 SKILL.md:605-613 SKILL.md:613-630 SKILL.md:630-637 SKILL.md:637-640 SKILL.md:640-671 SKILL.md:671-674 SKILL.md:674-687 SKILL.md:687-690 SKILL.md:690-724 SKILL.md:724-727 SKILL.md:727-735 SKILL.md:735-747 SKILL.md:747-777 SKILL.md:777-781 SKILL.md:781-815 SKILL.md:748

🌐 ネットワークアクセス (8)

PROCESS.md:152 README.md:54 skill-report.json:6 SKILL.md:731 SKILL.md:842 SKILL.md:843 SKILL.md:844 SKILL.md:845

📁 ファイルシステムへのアクセス (1)

skill-report.json:6

監査者: claude 監査履歴を表示 →

品質スコア

アーキテクチャ

100

保守性

コンテンツ

コミュニティ

100

セキュリティ

仕様準拠

作れるもの

自律エージェントの訓練

試行錯誤の経験を通じて行動を最適化する自己学習エージェントを構築します。

RLアルゴリズムのベンチマーク

カスタム環境でQ-Learning、PPO、SACなどのアルゴリズムを比較します。

RLを本番環境にデプロイ

訓練済みモデルをONNXにエクスポートし、モニタリング付きの推論APIを作成します。

これらのプロンプトを試す

クイックスタート

when-training-rl-agents-use-agentdb-learning with DQN algorithm for grid-world environment, train for 1000 episodes

カスタム環境

when-training-rl-agents-use-agentdb-learning with custom continuous state space, configure SAC algorithm for robot control task

ベンチマーク

when-training-rl-agents-use-agentdb-learning benchmark all 9 RL algorithms on cart-pole environment and generate comparison report

本番デプロイ

when-training-rl-agents-use-agentdb-learning export trained DQN agent to production with Express API endpoint and latency monitoring

ベストプラクティス

SACのような複雑なアルゴリズムの前に、Q-Learningのようなシンプルなアルゴリズムから始める
探索と活用のバランスを確保するために探索率の減衰をモニタリングする
訓練が中断された場合に再開できるよう、1000エピソードごとにチェックポイントを保存する
意味のある学習が行われたことを確認するために、ランダムベースラインと比較して検証する

回避

検証エピソードなしで訓練すると過学習につながる
探索減衰を速く設定しすぎると準最適な方策になる
リプレイバッファサイズの制限を無視するとメモリ問題が発生する
推論レイテンシのモニタリングなしでデプロイすると本番環境で問題が発生する

よくある質問

どのアルゴリズムから始めるべきですか?

離散的な行動にはQ-Learning、複雑な状態空間にはDQN、タスク全体でバランスの取れたパフォーマンスにはPPOを使用します。

訓練には通常どのくらい時間がかかりますか?

シンプルなグリッドワールドは1〜2時間で収束します。複雑な環境では、GPUアクセラレーションで6〜10時間必要な場合があります。

既存のAgentDBでこれを使用できますか?

はい、agentdb-learningパッケージをインストールし、既存のAgentDBインスタンスで初期化することでシームレスに統合できます。

訓練データは安全ですか?

すべての訓練はローカルで行われます。経験再生はオプションの永続化機能を備えたローカルのAgentDBインスタンスにデータを保存します。

エージェントが学習しないのはなぜですか?

報酬関数の設計を確認し、探索減衰率を下げ、リプレイバッファのウォームアップを増やし、状態空間の正規化を検証してください。

他のRLフレームワークと比較してどうですか?

AgentDB LearningはベクトルストレージとRL訓練を統合し、セマンティック検索を活用するメモリ拡張エージェントを可能にします。

開発者の詳細

作成者

DNYoussef

ライセンス

MIT

リポジトリ

https://github.com/DNYoussef/ai-chrome-extension/tree/main/.claude/skills/agentdb/when-training-rl-agents-use-agentdb-learning

参照

main

ファイル構成

📄 process-diagram.gv

📄 PROCESS.md

📄 README.md

📄 SKILL.md