📦

pinchbench

Name: pinchbench
Author: pinchbench

低リスク ⚙️ 外部コマンド🌐 ネットワークアクセス🔑 環境変数

23の実際のタスクでOpenClawエージェントのパフォーマンスをベンチマーク

LLMモデルをAIエージェントとしてテストするには、一貫性のある測定可能な評価が必要です。PinchBenchは、カレンダー管理、メール処理、調査、コーディング、多次ステップのワークフローを網羅した23の多様なタスクを提供し、自動採点とパブリックのリーダーボード提交を組み合わせています。

対応: Claude Codex Code(CC)

🥉 76 ブロンズ

スキルZIPをダウンロード

Claudeでアップロード

設定 → 機能 → スキル → スキルをアップロードへ移動

オンにして利用開始

テストする

「pinchbench」を使用しています。自動化タスクでclaude-sonnet-4を使用してPinchBenchを実行

期待される結果:

ベンチマーク完了：15/23タスク実行済み。全体スコア：0.78。上位タスク：task_00_sanity (0.95)、task_01_calendar (0.89)、task_07_email (0.85)。レビュー必要タスク：task_16_email_triage (0.42)、task_18_market_research (0.38)。合計実行時間：47分。トークン効率：1000トークンあたり2.3スコアポイント。

「pinchbench」を使用しています。コーディングタスクでclaude-sonnet-4とclaude-opus-4を比較

期待される結果:

モデル比較結果：claude-sonnet-4平均：0.72、claude-opus-4平均：0.84。Opus-4はtask_04_weather (+0.25)およびtask_10_workflow (+0.18)で大幅に改善。Sonnet-4はtask_00_sanityで匹敵するパフォーマンス。コスト分析：Opus-4はタスクあたり2.3倍高いコストだが、17%高いスコアを達成。

セキュリティ監査

低リスク

v1 • 3/19/2026

Static analysis flagged 573 potential issues, but evaluation confirms most are false positives. Critical findings (recursive delete, pipe-to-shell) reference standard Docker installation patterns from trusted sources. High-severity 'weak crypto' findings detect MD5 used for checksums, not security. Markdown documentation backticks were misidentified as shell execution. True positives (subprocess, network, env access) are expected for benchmark functionality and properly scoped.

スキャンされたファイル

7,944

解析された行数

検出結果

総監査数

中リスクの問題 (1)

scripts/benchmark.py:277-284

Subprocess Execution for External Commands

Python subprocess.run used to execute git commands and OpenClaw CLI. Arguments are hardcoded or validated, but subprocess execution always carries injection risk if inputs are not properly sanitized.

低リスクの問題 (2)

scripts/lib_agent.py:59-67

Environment Variable Access for API Keys

Script reads OPENROUTER_API_KEY from environment for model validation. This is standard practice but requires users to properly secure their API keys.

scripts/lib_agent.py:68-93

Network Requests to External APIs

HTTP requests made to openrouter.ai for model validation and pinchbench.com for result uploads. All endpoints are official and documented.

リスク要因

⚙️ 外部コマンド (2)

scripts/benchmark.py:277-284 scripts/lib_agent.py:136

🌐 ネットワークアクセス (2)

scripts/lib_agent.py:68-93 scripts/lib_upload.py:19

🔑 環境変数 (2)

scripts/lib_agent.py:59-67 scripts/benchmark.py:270

監査者: claude

品質スコア

アーキテクチャ

100

保守性

コンテンツ

コミュニティ

セキュリティ

仕様準拠

作れるもの

エージェント選択のためのモデル比較

複数のLLMモデルを比較して、特定のユースケースに最適なOpenClawエージェントとして機能するモデルを決定します。

継続的なパフォーマンス監視

モデルの更新や設定変更に応じて、エージェントのパフォーマンスを時間とともに追跡します。

コミュニティベンチマークへの貢献

ベンチマーク結果をパブリックの 리더ーボードに提交し、コミュニティがモデルCapabilityを理解するのを支援します。

これらのプロンプトを試す

クイックベンチマーク実行

すべての自動化タスクでClaude Sonnet 4モデルを使用してPinchBenchを実行してください。全体スコアを表示し、パフォーマンスが最も良い上位3タスクと最も悪い下位3タスクを特定してください。

特定のタスクテスト

task_01_calendar、task_02_stock、task_09_filesのみについてPinchBenchベンチマークを実行してください。anthropic/claude-sonnet-4とanthropic/claude-3-5-sonnetモデルの間で結果を比較してください。

リーダーボード提交を含む完全ベンチマーク

anthropic/claude-opus-4モデルで完全なPinchBenchスイートを実行してください。最初にモデル検証を行い、平均化のために各2回実行で全23タスクを実行し、登録したAPIトークンを使用して結果をPinchBenchリーダーボードに提交してください。

トークン効率分析

PinchBench自動化タスクを実行し、トークン効率レポートを生成してください。各タスクのスコア/トークンおよびスコア/ドルを表示してください。効率比が最も良好および最も悪いタスクを特定してください。

ベストプラクティス

LLM出力の分散を考慮するため、タスクごとに少なくとも2〜3回の実行でベンチマークを実行
開発中は--no-uploadフラグを使用して、テスト結果でリーダーボードを汚染することを避ける
最初の提交前にAPIトークンを登録し、OPENROUTER_API_KEYを安全に環境に保存

回避

変更されたタスク定義からのベンチマーク結果を提交しないでください - 結果は拒否されます
低速モデルの場合、--timeout-multiplierなしで完全なベンチマークスイートを実行しないでください
APIトークンを共有したりバージョン管理にコミットしないでください

よくある質問

PinchBenchとは何ですか？何を防ぎますか？

PinchBenchは、LLMモデルがOpenClawエージェントの頭脳としてどの程度うまく機能するかを評価する、23の実際のタスクを含むベンチマークスイートです。カレンダー管理、メール処理、調査、コーディング、多次ステップのワークフローなどのカテゴリにわたるタスク完了率を測定します。

リーダーボードに結果を提交するにはどうすればいいですか？

まず'uv run benchmark.py --register'を使用してAPIトークンを登録してください。次に、ベンチマークを通常通りに実行します - 有効なトークンがある場合、結果は自動的にアップロードされます。結果はpinchbench.comで確認できます。

インターネット接続なしでベンチマークを実行できますか？

はい、--no-uploadフラグを使用してリーダーボード提交をスキップできます。ただし、モデル検証にはOpenRouterでのモデルの可用性を確認するためにインターネットアクセスが必要です。

完全なベンチマーク実行にはどのくらい時間がかかりますか？

全23タスクの完全実行は通常、モデルの速度とタイムアウト設定に応じて30〜60分かかります。高速実行には--suite automated-onlyを使用し、低速モデルのタイムアウトを調整するには--timeout-multiplierを使用してください。

どのようなモデルがサポートされていますか？

OpenRouter経由で利用可能なモデルはすべてサポートされています。一般的な選択肢には、anthropic/claude-sonnet-4、anthropic/claude-opus-4、さまざまなオープンソースモデルが含まれます。実行前に可用性を確認するには、モデル検証機能を使用してください。

タスクはどのように採点されますか？

各タスクには、マークダウンファイルで定義された自動採点基準があります。採点は0から1の間の平均スコアを生成し、1は完璧なタスク完了を示します。一部のタスクには最終スコアに平均化される複数のチェックが含まれています。