技能 evaluation

📊

evaluation

Name: evaluation
Author: muratcankoylan

安全 ⚙️ 外部命令🌐 網路存取

使用評估量表評估代理效能

也可從以下取得: Asmayaseen,ChakshuGautam,sickn33

測量代理品質需要結構化的方法。此技能提供多維度評估量表、測試集管理和生產監控，以持續評估和改進代理效能。

支援: Claude Codex Code(CC)

🥉 76 青銅

下載技能 ZIP

在 Claude 中上傳

前往設定 → 功能 → 技能 → 上傳技能

開啟並開始使用

測試它

正在使用「evaluation」。評估我的研究代理在 5 個關於科技趨勢的測試案例上的表現

預期結果:

整體通過率：80%（5 個測試中有 4 個通過）
事實準確度：0.85（良好）
完整性：0.72（良好）
引用準確度：0.65（可接受）
工具效率：0.78（良好）
需要關注的維度：引用準確度

正在使用「evaluation」。為編碼代理品質評估建立量表

預期結果:

定義的量表維度：
- 程式碼正確性（權重：0.35）
- 程式碼效率（權重：0.20）
- 文件品質（權重：0.15）
- 測試覆蓋率（權重：0.15）
- 錯誤處理（權重：0.15）
通過閾值：0.70 加權平均

安全審計

安全

v4 • 1/17/2026

Pure evaluation framework using only standard Python library imports. No network access, file system operations, or command execution detected. Static findings are false positives from misidentified patterns: markdown code blocks were flagged as Ruby backticks, rubric weights as crypto parameters, and SHA256 hashes as certificates.

已掃描檔案

1,248

分析行數

發現項

審計總數

審計者: claude 查看審計歷史 →

品質評分

架構

100

可維護性

內容

社群

100

安全

規範符合性

你能建構什麼

建立測試框架

建立具有量表的結構化測試套件，以系統化方式評估多個維度的代理品質。

CI/CD 中的品質閘門

將評估檢查整合到部署管線中，以在代理進入生產環境前發現回歸問題。

比較代理配置

測量不同上下文策略或模型選擇如何隨著時間影響代理輸出品質。

試試這些提示

建立量表

為 [task_type] 建立評估量表，測量 事實準確度、完整性和工具效率。根據重要性為每個維度分配權重。

建立測試集

建立一個包含 10 個案例的測試集，涵蓋簡單、中等和複雜複雜度等級，用於評估 [agent_type] 在 [use_case] 上的表現。

執行評估

根據測試集評估以下代理輸出。計算維度分數和整體通過/失敗。報告：[agent_outputs]

監控生產

分析過去 24 小時的生產樣本。計算通過率、平均分數，並識別任何品質下降模式。

最佳實務

使用多維度量表而非單一指標來捕捉不同的品質面向
按複雜度等級對測試集進行分層，以識別代理在哪裡遇到困難
持續執行評估以在生產部署前發現回歸問題

避免

評估特定的執行步驟而非結果
僅使用自動化的 LLM 評估而沒有人工審查
在測試集設計中忽略邊緣案例

常見問題

此技能支援哪些 AI 平台？

支援 Claude、Codex 和 Claude Code。評估邏輯與平台無關。

我應該包含多少個測試案例？

從 10-20 個涵蓋不同複雜度等級的案例開始。根據覆蓋缺口進行擴展。

我可以與現有的 CI/CD 管線整合嗎？

可以。評估類別會傳回結構化的結果，適合用於程式化的管線整合。

此技能會儲存任何使用者資料嗎？

不。此為純計算函式庫。所有評估資料都保留在您的會話記憶體中。

我應該優先考慮哪些維度？

取決於您的使用案例。對於資訊檢索最重要。對於綜合任務則完整性更為重要。

這與標準 LLM 基準測試相比如何？

標準基準測試通用能力。此技能可讓您建立針對特定代理和使用案例的自訂評估。

開發者詳情

作者

muratcankoylan

授權

MIT

儲存庫

https://github.com/muratcankoylan/Agent-Skills-for-Context-Engineering/tree/main/skills/evaluation

引用

main

檔案結構

📁 references/

📄 metrics.md

📁 scripts/

📄 evaluator.py

📄 SKILL.md