스킬 evaluation
1
스킬 ZIP 다운로드
2
Claude에서 업로드
설정 → 기능 → 스킬 → 스킬 업로드로 이동
3
토글을 켜고 사용 시작
테스트해 보기
"evaluation" 사용 중입니다. 評估我的研究代理在 5 個關於科技趨勢的測試案例上的表現
예상 결과:
- 整體通過率:80%(5 個測試中有 4 個通過)
- 事實準確度:0.85(良好)
- 完整性:0.72(良好)
- 引用準確度:0.65(可接受)
- 工具效率:0.78(良好)
- 需要關注的維度:引用準確度
"evaluation" 사용 중입니다. 為編碼代理品質評估建立量表
예상 결과:
- 定義的量表維度:
- - 程式碼正確性(權重:0.35)
- - 程式碼效率(權重:0.20)
- - 文件品質(權重:0.15)
- - 測試覆蓋率(權重:0.15)
- - 錯誤處理(權重:0.15)
- 通過閾值:0.70 加權平均
보안 감사
안전v4 • 1/17/2026
Pure evaluation framework using only standard Python library imports. No network access, file system operations, or command execution detected. Static findings are false positives from misidentified patterns: markdown code blocks were flagged as Ruby backticks, rubric weights as crypto parameters, and SHA256 hashes as certificates.
4
스캔된 파일
1,248
분석된 줄 수
2
발견 사항
4
총 감사 수
위험 요인
⚙️ 외부 명령어 (20)
references/metrics.md:11-17 references/metrics.md:17-29 references/metrics.md:29-35 references/metrics.md:35-41 references/metrics.md:41-47 references/metrics.md:47-53 references/metrics.md:53-59 references/metrics.md:59-65 references/metrics.md:65-71 references/metrics.md:71-75 references/metrics.md:75-146 references/metrics.md:146-150 references/metrics.md:150-187 references/metrics.md:187-191 references/metrics.md:191-281 references/metrics.md:281-285 references/metrics.md:285-338 SKILL.md:143-151 SKILL.md:151-157 SKILL.md:157-185
🌐 네트워크 접근 (1)
감사자: claude 감사 이력 보기 →
품질 점수
64
아키텍처
100
유지보수성
87
콘텐츠
21
커뮤니티
100
보안
91
사양 준수
만들 수 있는 것
建立測試框架
建立具有量表的結構化測試套件,以系統化方式評估多個維度的代理品質。
CI/CD 中的品質閘門
將評估檢查整合到部署管線中,以在代理進入生產環境前發現回歸問題。
比較代理配置
測量不同上下文策略或模型選擇如何隨著時間影響代理輸出品質。
이 프롬프트를 사용해 보세요
建立量表
為 [task_type] 建立評估量表,測量 事實準確度、完整性和工具效率。根據重要性為每個維度分配權重。
建立測試集
建立一個包含 10 個案例的測試集,涵蓋簡單、中等和複雜複雜度等級,用於評估 [agent_type] 在 [use_case] 上的表現。
執行評估
根據測試集評估以下代理輸出。計算維度分數和整體通過/失敗。報告:[agent_outputs]
監控生產
分析過去 24 小時的生產樣本。計算通過率、平均分數,並識別任何品質下降模式。
모범 사례
- 使用多維度量表而非單一指標來捕捉不同的品質面向
- 按複雜度等級對測試集進行分層,以識別代理在哪裡遇到困難
- 持續執行評估以在生產部署前發現回歸問題
피하기
- 評估特定的執行步驟而非結果
- 僅使用自動化的 LLM 評估而沒有人工審查
- 在測試集設計中忽略邊緣案例
자주 묻는 질문
此技能支援哪些 AI 平台?
支援 Claude、Codex 和 Claude Code。評估邏輯與平台無關。
我應該包含多少個測試案例?
從 10-20 個涵蓋不同複雜度等級的案例開始。根據覆蓋缺口進行擴展。
我可以與現有的 CI/CD 管線整合嗎?
可以。評估類別會傳回結構化的結果,適合用於程式化的管線整合。
此技能會儲存任何使用者資料嗎?
不。此為純計算函式庫。所有評估資料都保留在您的會話記憶體中。
我應該優先考慮哪些維度?
取決於您的使用案例。對於資訊檢索最重要。對於綜合任務則完整性更為重要。
這與標準 LLM 基準測試相比如何?
標準基準測試通用能力。此技能可讓您建立針對特定代理和使用案例的自訂評估。
개발자 세부 정보
작성자
muratcankoylan라이선스
MIT
리포지토리
https://github.com/muratcankoylan/Agent-Skills-for-Context-Engineering/tree/main/skills/evaluation참조
main
파일 구조