스킬 parquet-optimization

📦

parquet-optimization

Name: parquet-optimization
Author: EmilLindfors

안전

优化 Parquet 文件以提升性能

Parquet 文件如果没有适当的优化可能会变慢且臃肿。此技能主动分析 Parquet 操作并就压缩、编码、行组大小和统计信息提供改进建议，以最大化查询性能并最小化存储成本。

지원: Claude Codex Code(CC)

⚠️ 68 나쁨

스킬 ZIP 다운로드

Claude에서 업로드

설정 → 기능 → 스킬 → 스킬 업로드로 이동

토글을 켜고 사용 시작

테스트해 보기

"parquet-optimization" 사용 중입니다. 我正在使用 AsyncArrowWriter 写入 Parquet 文件，但没有设置任何特殊属性。我遗漏了什么？

예상 결과:

我注意到您在使用 AsyncArrowWriter 时没有设置明确的 WriterProperties。对于生产工作负载，请考虑添加：

- 压缩：ZSTD(3) 提供 3-4 倍的压缩率，CPU 开销很低
- 行组大小：100MB 未压缩（100_000_000 行）可实现更好的谓词下推
- 统计信息：EnabledStatistics::Page 允许 DataFusion 跳过不相关的行组

这些设置通常可以将查询性能提升 2-5 倍，同时降低存储成本。

"parquet-optimization" 사용 중입니다. 我的 Parquet 查询即使只需要 3 列也会扫描整个文件。如何解决这个问题？

예상 결과:

您缺少列投影。使用 ProjectionMask 仅读取所需的列：

```rust
let projection = ProjectionMask::roots(&schema, vec![0, 2, 5]);
let builder = ParquetRecordBatchStreamBuilder::new(reader)
.await?
.with_projection(projection);
```

对于宽表，这可以通过消除不必要的列读取提供 10 倍以上的加速。

보안 감사

안전

v1 • 1/23/2026

All static findings are false positives. The 37 'external_commands' detections are markdown code formatting backticks in SKILL.md (a documentation file). The 3 'weak cryptographic algorithm' detections are misclassifications of compression algorithms (ZSTD, Snappy) as cryptographic algorithms. This is a documentation-only skill with no executable code.

스캔된 파일

303

분석된 줄 수

발견 사항

총 감사 수

높은 위험 문제 (1)

SKILL.md:3 SKILL.md:41 SKILL.md:231

Weak Cryptographic Algorithm Misclassification

Static analyzer flagged ZSTD and Snappy as weak cryptographic algorithms. These are actually compression algorithms used in Parquet file optimization.

중간 위험 문제 (1)

SKILL.md:15 SKILL.md:28 SKILL.md:30

Markdown Backtick Code Formatting Misclassified as External Commands

Static analyzer flagged markdown inline code syntax (backticks) as Ruby/shell backtick execution. SKILL.md is a documentation file containing code examples.

감사자: claude

품질 점수

아키텍처

100

유지보수성

콘텐츠

커뮤니티

보안

사양 준수

만들 수 있는 것

数据工程师优化生产管道

数据工程师正在构建一个每日向 S3 写入数百万记录的管道。该技能建议使用 ZSTD 压缩、100MB 行组并启用统计信息以实现最佳查询性能。

分析师提升查询速度

分析师发现 Parquet 查询速度慢。该技能识别缺失的列投影和批大小调优，以减少扫描成本并提升响应时间。

开发者调试性能问题

开发者在读取大型 Parquet 文件时遇到 OOM 错误。该技能推荐流式处理模式、行组过滤和内存感知的批大小设置。

이 프롬프트를 사용해 보세요

基本 Parquet 写入帮助

我正在使用 Rust arrow parquet crate 编写 Parquet 文件。生产环境应该使用什么设置？

压缩选择

我的 Parquet 文件应该使用 Snappy 还是 ZSTD？这些数据经常被访问用于分析查询。

行组优化

尽管我有一个强大的集群，但我的 Parquet 查询仍然很慢。哪些 Parquet 级别的设置可以改善谓词下推？

大文件流式处理

我需要处理 50GB 的 Parquet 文件而不耗尽内存。应该使用什么模式？

모범 사례

将 ZSTD(3) 压缩作为生产数据湖的默认设置——它在压缩率和 CPU 开销之间取得平衡
目标行组大小为 100MB-1GB，以优化 S3 扫描和谓词下推效果
启用页面级统计信息以允许查询引擎在扫描过程中跳过不相关的行组

피하기

使用默认压缩设置——始终根据访问模式指定 ZSTD 或 Snappy
写入许多小型 Parquet 文件（<10MB）——这会产生过多的元数据开销并减慢查询
在读取大文件时将所有批次收集到内存中——应使用流式处理模式

자주 묻는 질문

对于频繁访问的数据应该使用什么压缩？

对热数据使用 Snappy。它提供快速解压缩（2-3 倍压缩），非常适合实时分析工作负载，在这些场景中查询延迟比存储节省更重要。

如何选择正确的行组大小？

目标每个行组 100MB-1GB 未压缩数据。较小的行组会增加元数据开销；较大的行组会阻止有效的谓词下推。从 100_000_000 行开始，然后根据数据特征进行调整。

什么是字典编码，什么时候应该使用它？

字典编码将唯一值存储一次并通过索引引用它。对于低基数列（如状态、类别、国家代码）使用它，可以在合适的列上实现 5-10 倍的压缩。

应该使用 Parquet 1.0 还是 2.0？

对新项目使用 Parquet 2.0。它支持更长的字符串、更好的类型扩展和更高效的编码。arrow parquet crate 默认使用 2.0。

如何处理云存储上的 Parquet 文件重试？

在对象存储客户端上配置重试逻辑。大多数 S3 客户端支持通过 max_retries 和 timeout 设置配置重试，以处理瞬态网络问题。

流式处理和收集批次有什么区别？

流式处理在批次到达时增量处理它们，保持内存使用恒定。收集会先将所有批次加载到内存中，这可能导致大文件出现 OOM 错误。对于超过几 GB 的文件，始终使用流式处理。

개발자 세부 정보

작성자

EmilLindfors

라이선스

MIT

리포지토리

https://github.com/EmilLindfors/claude-marketplace/tree/main/plugins/rust-data-engineering/skills/parquet-optimization

참조

main

파일 구조

📄 SKILL.md