Habilidades minimal-run-and-audit
📦

minimal-run-and-audit

Riesgo bajo ⚙️ Comandos externos

執行並審計 AI 倉庫複現命令

執行 AI 論文複現實驗需要一致的命令執行和標準化報告。此技能執行冒煙測試、推理運行或評估命令,同時自動生成結構化輸出包以供審計追蹤。

Soporta: Claude Codex Code(CC)
🥉 75 Bronce
1

Descargar el ZIP de la skill

2

Subir en Claude

Ve a Configuración → Capacidades → Skills → Subir skill

3

Activa y empieza a usar

Pruébalo

Usando "minimal-run-and-audit". 成功完成的冒煙測試命令

Resultado esperado:

status.json 報告 success 狀態,SUMMARY.md 顯示命令以零退出碼完成,LOG.md 包含捕捉的 stdout/stderr,COMMANDS.md 列出執行的命令以供複現

Usando "minimal-run-and-audit". 60 秒後逾時的推理命令

Resultado esperado:

status.json 報告帶有逾時指示器的 partial 狀態,SUMMARY.md 顯示命令運行了完整的逾時期間,執行日誌包含逾時前的部分輸出

Usando "minimal-run-and-audit". 修改配置文件的評估命令

Resultado esperado:

status.json 包含 changed_files 列表,PATCHES.md 記錄修改的 git diff,SUMMARY.md 註明修補狀態並引用完整審計

Auditoría de seguridad

Riesgo bajo
v1 • 4/9/2026

Static analysis flagged 16 patterns, but 15 are false positives from misidentified file types (markdown docs flagged as Ruby, YAML config flagged as crypto). One true positive: Python subprocess.run for command execution is legitimate and properly sandboxed with timeout handling and shlex parsing. External command execution is the intended function of this skill.

5
Archivos escaneados
384
Líneas analizadas
2
hallazgos
1
Auditorías totales
Problemas de riesgo bajo (1)
External Command Execution
Script executes user-provided commands via subprocess.run with shlex.split parsing. Commands run with timeout protection (default 60s) and capture stdout/stderr. Risk is mitigated by timeout limits and lack of shell=True flag.

Factores de riesgo

Auditado por: claude

Puntuación de calidad

64
Arquitectura
100
Mantenibilidad
87
Contenido
33
Comunidad
88
Seguridad
83
Cumplimiento de la especificación

Lo que puedes crear

冒煙測試執行

透過運行文件化的冒煙命令並生成標準化證據包,快速驗證複現倉庫是否功能正常。

評估運行標準化

從論文的 README 執行評估命令,並產生一致的輸出格式,以便在多次複現嘗試之間進行比較。

感知修補的執行審計

運行可能修改倉庫檔案的推理命令,自動追蹤變更並生成修補文件以供審計追蹤。

Prueba estos prompts

基本冒煙測試
從 README 運行冒煙測試命令並在 repro_outputs/ 中生成標準化輸出
帶有指標的推理執行
執行 docs/evaluation.md 中指定的推理命令,逾時時間為 120 秒,並從 stdout 捕捉所有指標。
Git 感知命令與修補報告
運行微調驗證命令並生成 PATCHES.md,記錄執行期間對倉庫所做的任何修改。
多命令審計管線
依序執行這三個驗證命令:健全性檢查、推理測試和指標驗證。生成統一的 SUMMARY.md,包含每個命令的通過/失敗狀態。

Mejores prácticas

  • 始終為您的命令類型指定適當的明確逾時值 - 冒煙測試需要 30-60 秒,推理可能需要 120-300 秒
  • 在提交執行期間對倉庫所做的任何修改之前,審查生成的 PATCHES.md
  • 使用 git status 驗證來了解命令執行期間哪些檔案發生了變更

Evitar

  • 不要將此技能用於訓練執行 - 它僅設計用於短暫的非訓練命令
  • 不要在未先審查的情況下運行不受信任的命令 - 雖然在沙箱中運行,但命令仍以您的使用者權限執行
  • 不要忽略部分狀態報告 - 逾時或非零退出碼表示命令未按預期完成

Preguntas frecuentes

我應該用此技能運行什麼類型的命令?
將此用於冒煙測試、推理運行、評估命令和健全性檢查,這些操作在幾分鐘內完成。不要用於訓練任務或長期運行的處理程序。
此技能如何處理命令逾時?
命令在指定的持續時間(預設 60 秒)後逾時。此技能捕捉部分輸出並在執行日誌中以 timeout 詳細資訊報告 status 為 partial。
此技能生成哪些檔案?
標準輸出進入 repro_outputs/ 目錄:SUMMARY.md 用於人類可讀的結果,COMMANDS.md 用於複現,LOG.md 用於完整輸出,status.json 用於機器可讀的狀態。
此技能是否適用於非 Git 倉庫?
是的,但基於 git 的變更追蹤將無法使用。此技能會檢測目錄是否為 git worktree 並相應調整證據收集。
如何從命令輸出中提取指標?
此技能從 stdout/stderr 解析 key=value 或 key:number 模式,過濾掉 noise 如 loss/lr/time/mem,並識別最佳指標以供摘要報告。
如果我的命令修改倉庫檔案會發生什麼?
此技能透過 git status diff 檢測檔案變更,並生成 PATCHES.md 記錄修改。這使得 AI 輔助程式碼變更的審計追蹤成為可能。

Detalles del desarrollador

Estructura de archivos