技能 Data Engineer
📊

Data Engineer

安全

Создание конвейеров данных и хранилищ данных

Проектирование и реализация масштабируемых конвейеров данных, современных хранилищ данных и архитектур потоковой передачи в реальном времени с использованием полного современного стека данных, включая Apache Spark, dbt и Airflow.

支持: Claude Codex Code(CC)
📊 69 充足
1

下载技能 ZIP

2

在 Claude 中上传

前往 设置 → 功能 → 技能 → 上传技能

3

开启并开始使用

测试它

正在使用“Data Engineer”。 Спроектируйте современный стек данных с dbt и Snowflake для платформы маркетинговой аналитики

预期结果:

Комплексный документ архитектуры с: 1) Диаграмма потока данных, показывающая Fivetran для загрузки, dbt для трансформации и Snowflake для хранения. 2) Дизайн схемы «звезда» с таблицами фактов и измерений. 3) Модели dbt со слоями source, staging и marts. 4) Тесты качества данных для ключевых метрик. 5) Рекомендации по оптимизации затрат.

正在使用“Data Engineer”。 Создайте потоковый конвейер из Kafka в BigQuery

预期结果:

  • Обзор архитектуры с источником Kafka, обработкой Flink и приемником BigQuery
  • Конфигурация потребителя Kafka с соответствующими настройками параллелизма
  • Код задания Flink для преобразования данных и оконных агрегаций
  • Дизайн схемы BigQuery с ключами партиционирования и кластеризации
  • Настройка мониторинга с Datadog или Cloud Monitoring

安全审计

安全
v1 • 2/24/2026

This is a prompt-only skill containing only text instructions for a data engineering assistant. Static analysis scanned 0 files with 0 lines of code. No suspicious patterns, dangerous code patterns, or risk factors detected. The skill defines a data engineer persona with no executable code, network requests, or system access capabilities. Safe for marketplace publication.

0
已扫描文件
0
分析行数
0
发现项
1
审计总数
未发现安全问题
审计者: claude

质量评分

38
架构
100
可维护性
87
内容
25
社区
100
安全
83
规范符合性

你能构建什么

Проектирование современного стека данных

Создание полной архитектуры платформы данных, интегрирующей Fivetran, dbt и Snowflake с надлежащим моделированием и тестированием данных.

Создание потокового конвейера реального времени

Проектирование масштабируемой потоковой архитектуры, обрабатывающей миллионы событий в секунду из Kafka в хранилище данных.

Внедрение фреймворка качества данных

Установление комплексных проверок качества данных, мониторинга и оповещения для обеспечения надежных конвейеров данных.

试试这些提示

Проектирование пакетного конвейера
Спроектируйте пакетный конвейер данных, который загружает данные из PostgreSQL в хранилище данных Snowflake с использованием Apache Airflow. Включите шаблоны инкрементальной загрузки, проверки качества данных и обработку ошибок.
Обзор архитектуры
Просмотрите мою текущую архитектуру данных и предложите улучшения для оптимизации затрат, производительности и масштабируемости. Мой стек включает AWS S3, Redshift и Glue.
Проектирование конвейера реального времени
Спроектируйте потоковый конвейер реального времени, который обрабатывает 100 000 событий в секунду из Kafka, применяет преобразования с Apache Flink и записывает в BigQuery для аналитики.
Фреймворк качества данных
Создайте фреймворк качества данных с использованием Great Expectations, который проверяет схему, контролирует нулевые значения и отслеживает распределения данных в моих ETL-конвейерах.

最佳实践

  • Начните с четких контрактов данных и SLA перед созданием конвейеров
  • Внедрите проверки качества данных на каждом этапе конвейера
  • Используйте инфраструктуру как код (Terraform) для воспроизводимых развертываний

避免

  • Создание монолитных конвейеров без модульных этапов трансформации
  • Пропуск проверки качества данных перед развертыванием в продакшен
  • Игнорирование последствий для затрат при выборе облачных сервисов данных

常见问题

Что такое современный стек данных?
Современный стек данных — это набор облачных инструментов для интеграции, трансформации и аналитики данных. Обычно включает Fivetran или Airbyte для загрузки, dbt для трансформаций и Snowflake или BigQuery для хранения.
Когда следует использовать пакетную обработку против потоковой?
Используйте пакетную обработку для запланированных ETL-заданий, отчетности и когда данные близкие к реальному времени не требуются. Используйте потоковую передачу для аналитики реального времени, обнаружения мошенничества и приложений, требующих немедленной доступности данных.
Что такое озеро-склад данных?
Озеро-склад данных сочетает гибкость озера данных с функциями управления хранилища данных. Использует форматы, такие как Delta Lake или Apache Iceberg, для обеспечения ACID-транзакций в облачном объектном хранилище.
Как обеспечить качество данных в конвейерах?
Внедрите проверки качества данных с помощью Great Expectations или тестов dbt на каждом этапе конвейера. Определите правила валидации для схемы, нулевых значений, уникальности и бизнес-логики. Настройте оповещение о сбоях качества.
Что такое захват изменений данных (CDC)?
CDC — это паттерн, который идентифицирует и фиксирует изменения, внесенные в данные базы данных. Он передает эти изменения в реальном времени в хранилища данных или другие системы, обеспечивая синхронизацию данных, близкую к реальному времени.
Как оптимизировать затраты хранилища данных?
Используйте соответствующее партиционирование и кластеризацию данных, внедрите инкрементальную загрузку, используйте материализованные представления для общих запросов и отслеживайте производительность запросов для выявления возможностей оптимизации.

开发者详情

文件结构

📄 SKILL.md