Data Engineer
Создание конвейеров данных и хранилищ данных
Проектирование и реализация масштабируемых конвейеров данных, современных хранилищ данных и архитектур потоковой передачи в реальном времени с использованием полного современного стека данных, включая Apache Spark, dbt и Airflow.
下载技能 ZIP
在 Claude 中上传
前往 设置 → 功能 → 技能 → 上传技能
开启并开始使用
测试它
正在使用“Data Engineer”。 Спроектируйте современный стек данных с dbt и Snowflake для платформы маркетинговой аналитики
预期结果:
Комплексный документ архитектуры с: 1) Диаграмма потока данных, показывающая Fivetran для загрузки, dbt для трансформации и Snowflake для хранения. 2) Дизайн схемы «звезда» с таблицами фактов и измерений. 3) Модели dbt со слоями source, staging и marts. 4) Тесты качества данных для ключевых метрик. 5) Рекомендации по оптимизации затрат.
正在使用“Data Engineer”。 Создайте потоковый конвейер из Kafka в BigQuery
预期结果:
- Обзор архитектуры с источником Kafka, обработкой Flink и приемником BigQuery
- Конфигурация потребителя Kafka с соответствующими настройками параллелизма
- Код задания Flink для преобразования данных и оконных агрегаций
- Дизайн схемы BigQuery с ключами партиционирования и кластеризации
- Настройка мониторинга с Datadog или Cloud Monitoring
安全审计
安全This is a prompt-only skill containing only text instructions for a data engineering assistant. Static analysis scanned 0 files with 0 lines of code. No suspicious patterns, dangerous code patterns, or risk factors detected. The skill defines a data engineer persona with no executable code, network requests, or system access capabilities. Safe for marketplace publication.
质量评分
你能构建什么
Проектирование современного стека данных
Создание полной архитектуры платформы данных, интегрирующей Fivetran, dbt и Snowflake с надлежащим моделированием и тестированием данных.
Создание потокового конвейера реального времени
Проектирование масштабируемой потоковой архитектуры, обрабатывающей миллионы событий в секунду из Kafka в хранилище данных.
Внедрение фреймворка качества данных
Установление комплексных проверок качества данных, мониторинга и оповещения для обеспечения надежных конвейеров данных.
试试这些提示
Спроектируйте пакетный конвейер данных, который загружает данные из PostgreSQL в хранилище данных Snowflake с использованием Apache Airflow. Включите шаблоны инкрементальной загрузки, проверки качества данных и обработку ошибок.
Просмотрите мою текущую архитектуру данных и предложите улучшения для оптимизации затрат, производительности и масштабируемости. Мой стек включает AWS S3, Redshift и Glue.
Спроектируйте потоковый конвейер реального времени, который обрабатывает 100 000 событий в секунду из Kafka, применяет преобразования с Apache Flink и записывает в BigQuery для аналитики.
Создайте фреймворк качества данных с использованием Great Expectations, который проверяет схему, контролирует нулевые значения и отслеживает распределения данных в моих ETL-конвейерах.
最佳实践
- Начните с четких контрактов данных и SLA перед созданием конвейеров
- Внедрите проверки качества данных на каждом этапе конвейера
- Используйте инфраструктуру как код (Terraform) для воспроизводимых развертываний
避免
- Создание монолитных конвейеров без модульных этапов трансформации
- Пропуск проверки качества данных перед развертыванием в продакшен
- Игнорирование последствий для затрат при выборе облачных сервисов данных