📦

prompt-caching

Name: prompt-caching
Author: sickn33

Seguro

Otimizar Custos de LLM com Cache de Prompts

Reduza os custos de API de LLM em até 90% através da implementação estratégica de cache de prompts, incluindo cache nativo da Anthropic, cache de respostas e padrões CAG.

Suporta: Claude Codex Code(CC)

🥉 72 Bronze

Baixar o ZIP da skill

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

Ative e comece a usar

Testar

A utilizar "prompt-caching". How do I reduce my LLM API costs?

Resultado esperado:

You can reduce LLM API costs by implementing prompt caching. The main strategies are: 1) Use Anthropic's native prompt caching for repeated system prompts - this caches the prompt prefix so you only pay for new tokens. 2) Implement response caching for identical queries - store hash of prompt and return cached response. 3) Use Cache Augmented Generation (CAG) to pre-cache documents instead of doing RAG retrieval each time.

A utilizar "prompt-caching". Why is my cache not working?

Resultado esperado:

Common reasons prompt caching fails: 1) Using non-zero temperature - cached responses vary. 2) Changing prompt prefixes frequently - cache depends on exact prefix match. 3) Not using the cache-control header properly. 4) Exceeding the cache TTL (typically 5 minutes for Anthropic).

Auditoria de Segurança

Seguro

v1 • 2/24/2026

All static findings are false positives. The skill is a markdown documentation file with no executable code. The external_commands detections are markdown backticks used for code formatting. The weak cryptographic algorithm detections are misinterpretations of YAML frontmatter content. No actual security risks present.

Arquivos analisados

Linhas analisadas

achados

Total de auditorias

Nenhum problema de segurança encontrado

Auditado por: claude

Pontuação de qualidade

Arquitetura

100

Manutenibilidade

Conteúdo

Comunidade

100

Segurança

100

Conformidade com especificações

O Que Você Pode Construir

Reduzir Custos de API para Aplicações em Produção

Implementar cache de prompts para reduzir dramaticamente os custos de API de LLM em sistemas de produção com contexto repetido

Otimizar Conversações de Longa Duração

Usar cache para manter contexto de conversa sem incorrer em custos de contexto completo em cada mensagem

Melhorar Latência de Respostas

Aproveitar respostas em cache para alcançar tempos de resposta mais rápidos para consultas repetidas

Tente Estes Prompts

Configuração Básica de Cache de Prompts

How do I set up prompt caching with Claude API? Show me the basic implementation steps.

Estratégia de Cache de Respostas

Design a response caching strategy for a Q&A system that handles similar user queries. Include cache key design and invalidation logic.

Guia de Implementação de CAG

Explain Cache Augmented Generation (CAG) and provide a Python implementation pattern for pre-caching documents.

Melhores Práticas de Invalidação de Cache

What are the best practices for cache invalidation in LLM applications? Include time-based and event-based strategies.

Melhores Práticas

Estruturar prompts com prefixos estáticos que permanecem consistentes entre requisições
Usar temperatura zero ao cachear respostas para correspondências exatas
Implementar invalidação de cache adequada com gatilhos baseados em tempo ou eventos
Monitorar taxas de acertos de cache e otimizar a estrutura do prefixo de acordo

Evitar

Cachear respostas com configurações de alta temperatura - as saídas variam e os dados em cache se tornam inúteis
Cachear sem qualquer estratégia de invalidação - dados obsoletos levam a respostas incorretas
Cachear tudo indiscriminadamente - aumenta latência em erros de cache sem benefício proporcional

Perguntas Frequentes

O que é cache de prompts?

Cache de prompts é uma técnica que armazena o estado calculado de um prefixo de prompt para que possa ser reutilizado em múltiplas requisições, reduzindo o número de tokens processados e diminuindo custos.

Quanto posso economizar com cache de prompts?

Usuários relatam reduções de custos de 50-90% dependendo de quanto dos seus prompts podem ser cacheados como prefixos estáveis.

O cache de prompts funciona com todos os modelos Claude?

O cache de prompts é suportado por modelos Claude que suportam o parâmetro cache_control. Verifique a documentação da API da Anthropic para compatibilidade de modelos.

Qual é a diferença entre cache de prompts e cache de respostas?

O cache de prompts usa a capacidade nativa do modelo de cachear prefixos calculados. O cache de respostas é implementado por você - armazenando respostas completas para consultas idêntis no seu próprio armazenamento.

Quanto tempo dura o cache?

O cache de prompts da Anthropic tipicamente dura 5 minutos, mas isso varia por versão da API. O TTL do cache de respostas é determinado pela sua implementação.

Posso cachear respostas com temperatura maior que 0?

Você não deve cachear respostas com temperatura diferente de zero porque as saídas variam, tornando os dados em cache não confiáveis.

Detalhes do Desenvolvedor

Autor

sickn33

Licença

MIT

Repositório

https://github.com/sickn33/antigravity-awesome-skills/tree/main/skills/prompt-caching

Referência

main

Estrutura de arquivos

📄 SKILL.md