技能 prompt-caching

📦

prompt-caching

Name: prompt-caching
Author: sickn33

安全

使用提示快取優化 LLM 成本

透過策略性實施提示快取（包括 Anthropic 原生快取、回應快取和 CAG 模式），降低多達 90% 的 LLM API 成本。

支援: Claude Codex Code(CC)

🥉 72 青銅

下載技能 ZIP

在 Claude 中上傳

前往設定 → 功能 → 技能 → 上傳技能

開啟並開始使用

測試它

正在使用「prompt-caching」。 How do I reduce my LLM API costs?

預期結果:

您可以透過實施提示快取來降低 LLM API 成本。主要策略包括：1) 為重複的系統提示使用 Anthropic 的原生提示快取 - 這會快取提示前綴，因此您只需為新 token 付費。2) 為相同查詢實施回應快取 - 儲存提示的 hash 並返回快取的回應。3) 使用快取增強生成 (CAG) 預先快取文件，而不是每次都進行 RAG 檢索。

正在使用「prompt-caching」。 Why is my cache not working?

預期結果:

提示快取失敗的常見原因：1) 使用非零溫度 - 快取的回應會有所不同。2) 頻繁變更提示前綴 - 快取依賴精確的前綴匹配。3) 未正確使用 cache-control 標頭。4) 超過快取 TTL（Anthropic 通常為 5 分鐘）。

安全審計

安全

v1 • 2/24/2026

All static findings are false positives. The skill is a markdown documentation file with no executable code. The external_commands detections are markdown backticks used for code formatting. The weak cryptographic algorithm detections are misinterpretations of YAML frontmatter content. No actual security risks present.

已掃描檔案

分析行數

發現項

審計總數

未發現安全問題

審計者: claude

品質評分

架構

100

可維護性

內容

社群

100

安全

100

規範符合性

你能建構什麼

降低生產環境應用程式的 API 成本

在具有重複上下文的生產系統中實施提示快取，大幅降低 LLM API 成本

優化長時間執行的對話

使用快取維持對話上下文，避免在每則訊息上產生完整上下文成本

改善回應延遲

利用快取回應，為重複查詢實現更快的回應時間

試試這些提示

基本提示快取設定

How do I set up prompt caching with Claude API? Show me the basic implementation steps.

回應快取策略

Design a response caching strategy for a Q&A system that handles similar user queries. Include cache key design and invalidation logic.

CAG 實施指南

Explain Cache Augmented Generation (CAG) and provide a Python implementation pattern for pre-caching documents.

快取失效最佳實踐

What are the best practices for cache invalidation in LLM applications? Include time-based and event-based strategies.

最佳實務

將提示構建為在多個請求中保持一致的靜態前綴
在快取回應以進行精確匹配時使用零溫度
實施適當的快取失效機制，包含基於時間或基於事件的觸發
監控快取命中率並據此優化前綴結構

避免

快取高溫設定的回應 - 輸出會有所不同，使快取資料變得無用
在沒有任何失效策略的情況下快取 - 過時資料會導致不正確的回應
不加區別地快取一切 - 在快取未命中時增加延遲，卻沒有相應的好處

常見問題

什麼是提示快取？

提示快取是一種技術，可儲存提示前綴的計算狀態，以便在多個請求中重複使用，從而減少處理的 token 數量並降低成本。

使用提示快取可以節省多少成本？

使用者報告的成本降低幅度為 50-90%，具體取決於您的提示中有多少可以作為穩定前綴進行快取。

提示快取適用於所有 Claude 模型嗎？

提示快取受到支援 cache_control 參數的 Claude 模型支援。請查看 Anthropic API 文件以了解模型相容性。

提示快取和回應快取有什麼區別？

提示快取利用模型的原生能力來快取計算過的前綴。回應快取由您自行實施 - 在您自己的儲存空間中為相同查詢儲存完整回應。

快取持續多久？

Anthropic 的提示快取通常持續 5 分鐘，但這會因 API 版本而異。回應快取 TTL 由您的實施決定。

我可以快取溫度大於 0 的回應嗎？

您不應該快取非零溫度的回應，因為輸出會有所不同，使快取資料不可靠。

開發者詳情

作者

sickn33

授權

MIT

儲存庫

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/prompt-caching

引用

main

檔案結構

📄 SKILL.md