📦

extract

Name: extract
Author: tavily-ai

Baixo Risco ⚙️ Comandos externos🌐 Acesso à rede📁 Acesso ao sistema de arquivos🔑 Variáveis de ambiente

Extrair Conteúdo Web de URLs

Também disponível em: pbakaus

Esta skill extrai conteúdo limpo em markdown ou texto de URLs específicas usando a API de extração da Tavily. Perfeita para pesquisa, recuperação de documentação e agregação de conteúdo sem escrever código de scraping personalizado.

Suporta: Claude Codex Code(CC)

⚠️ 68 Ruim

Baixar o ZIP da skill

Upload no Claude

Vá em Configurações → Capacidades → Skills → Upload skill

Ative e comece a usar

Testar

A utilizar "extract". Extrair conteúdo de https://example.com/about

Resultado esperado:

## Sobre o Exemplo

Bem-vindo ao Example.com...

Nossa Missão

Nós nos esforçamos para fornecer...

A utilizar "extract". Extrair informações sobre preços de https://example.com/pricing e https://example.com/plans

Resultado esperado:

## Informações de Preços

### Plano Básico - $9/mês
- Recurso A
- Recurso B

### Plano Pro - $29/mês
- Todos os recursos do Básico
- Suporte prioritário...

Auditoria de Segurança

Baixo Risco

v1 • 2/18/2026

Static analysis detected 137 potential issues across external_commands, network, filesystem, and env_access categories. After semantic evaluation, all findings are FALSE POSITIVES - these patterns represent legitimate API extraction functionality. The skill uses standard shell commands (curl, jq) to communicate with Tavily's official API, accesses environment variables for API key authentication, and reads OAuth tokens from the standard MCP auth directory. No malicious behavior, data exfiltration, or command injection vulnerabilities were identified.

Arquivos analisados

369

Linhas analisadas

achados

Total de auditorias

Problemas de Baixo Risco (4)

scripts/extract.sh:1-167 SKILL.md:13-201

Shell Command Execution Patterns

Static scanner flagged 62 instances of shell command execution (backticks, $() substitutions). These are FALSE POSITIVES - the skill uses standard Unix tools (curl, jq, base64) for legitimate API communication with Tavily's official service. No user input is injected into shell commands without validation.

scripts/extract.sh:4-152 SKILL.md:16-189

Network Request Patterns

Static scanner flagged 33 network access instances including hardcoded URLs. These are FALSE POSITIVES - the skill is designed to make HTTPS API calls to Tavily's official endpoints (api.tavily.com, mcp.tavily.com). Network access is core functionality for web content extraction.

scripts/extract.sh:65-153 SKILL.md:24-181

Environment Variable Access

Static scanner flagged 16 environment variable access instances for TAVILY_API_KEY. These are FALSE POSITIVES - the skill reads API keys from environment variables, which is the standard and secure method for providing credentials to API-based skills. The skill properly handles missing keys by initiating OAuth flow.

scripts/extract.sh:45-163 SKILL.md:13-20

Filesystem Access for OAuth Tokens

Static scanner flagged filesystem access to ~/.mcp-auth/ directory. This is a FALSE POSITIVE - the skill reads OAuth tokens from the standard MCP authentication directory. This is expected behavior for OAuth-based authentication and poses no security risk.

Fatores de risco

⚙️ Comandos externos (62)

🌐 Acesso à rede (33)

📁 Acesso ao sistema de arquivos (17)

scripts/extract.sh:45 scripts/extract.sh:17 scripts/extract.sh:26 scripts/extract.sh:32 scripts/extract.sh:50 scripts/extract.sh:60 scripts/extract.sh:98 scripts/extract.sh:98 scripts/extract.sh:115 scripts/extract.sh:116 scripts/extract.sh:128 scripts/extract.sh:134 scripts/extract.sh:163 SKILL.md:13 SKILL.md:20 SKILL.md:13 SKILL.md:20

🔑 Variáveis de ambiente (16)

scripts/extract.sh:65 scripts/extract.sh:66 scripts/extract.sh:69 scripts/extract.sh:94 scripts/extract.sh:109 scripts/extract.sh:120 scripts/extract.sh:123 scripts/extract.sh:153 SKILL.md:24 SKILL.md:57 SKILL.md:69 SKILL.md:93 SKILL.md:137 SKILL.md:150 SKILL.md:167 SKILL.md:181

Auditado por: claude

Pontuação de qualidade

Arquitetura

100

Manutenibilidade

Conteúdo

Comunidade

Segurança

Conformidade com especificações

O Que Você Pode Construir

Coleta de Documentação para Pesquisa

Extrair conteúdo de documentação de múltiplas páginas de referência de API para construir uma base de conhecimento local

Análise Competitiva

Extrair conteúdo de sites concorrentes, páginas de produtos e posts de blog para pesquisa de mercado

Agregação de Conteúdo

Extrair artigos e conteúdo de múltiplas fontes de notícias ou blogs em um único formato markdown

Tente Estes Prompts

Extração Básica de URL

Extrair o conteúdo desta URL: https://example.com/article

Extração de Múltiplas URLs

Extrair conteúdo destas URLs: https://docs.example.com/api, https://docs.example.com/auth

Extração Focada em Consulta

Extrair informações sobre autenticação destas URLs: https://example.com/docs, https://example.com/api-reference. Focar em chaves de API e OAuth.

Extração Avançada para Páginas Dinâmicas

Extrair todo conteúdo desta página-heavy usando extração avançada: https://app.example.com/dashboard

Melhores Práticas

Use o parâmetro de consulta para filtrar o conteúdo exatamente para o que você precisa, especialmente ao extrair de páginas grandes
Comece com extração básica e só use o modo avançado se o conteúdo estiver faltando ou incompleto
Agrupe URLs por tópico ou categoria para manter os resultados organizados e relevantes

Evitar

Extrair mais de 20 URLs em uma única solicitação irá falhar
Usar chunks_per_source sem um parâmetro de consulta retornará um erro
Não verificar o campo failed_results na resposta pode fazer você perder falhas de extração

Perguntas Frequentes

Preciso de uma chave de API da Tavily?

Sim, você precisa de uma chave de API da Tavily ou uma conta existente na Tavily para autenticação OAuth. Obtenha uma chave de API em tavily.com ou crie uma conta.

Quantas URLs posso extrair de uma vez?

Você pode extrair até 20 URLs por solicitação. Para lotes maiores, divida em múltiplas solicitações.

Qual é a diferença entre extração básica e avançada?

A extração básica é mais rápida e funciona para páginas HTML estáticas. A extração avançada manipula páginas renderizadas por JavaScript, layouts complexos e dados estruturados, mas leva mais tempo.

Como funciona o parâmetro de consulta?

O parâmetro de consulta reorganiza os chunks de conteúdo extraídos por relevância aos seus termos de pesquisa. Use-o com chunks_per_source para obter as seções mais relevantes.

Por que estou obtendo failed_results?

Resultados falhos ocorrem quando URLs estão inacessíveis, bloqueadas ou expiraram. Verifique o array failed_results na resposta para informações específicas de erro.

Posso extrair conteúdo de páginas protegidas por senha?

Não, esta skill não pode extrair conteúdo de páginas que requerem login ou autenticação além do que está publicamente acessível.

Detalhes do Desenvolvedor

Autor

tavily-ai

Licença

MIT

Repositório

https://github.com/tavily-ai/skills/tree/main/skills/tavily/extract/

Referência

main

Estrutura de arquivos

📁 scripts/

📄 extract.sh

📄 SKILL.md