zarr-python
Große N-dimensionale Arrays effizient speichern
Auch verfügbar von: davila7
Arbeit mit großen Datensätzen, die die Speicherlimits überschreiten. Zarr-python ermöglicht Chunk-basierte Arrayspeicherung mit Komprimierung für effiziente Cloud-native wissenschaftliche Berechnungs-Workflows.
Die Skill-ZIP herunterladen
In Claude hochladen
Gehe zu Einstellungen → Fähigkeiten → Skills → Skill hochladen
Einschalten und loslegen
Teste es
Verwendung von "zarr-python". Create a Zarr array for storing temperature data with 365 time steps, 720 latitudes, and 1440 longitudes.
Erwartetes Ergebnis:
- Created Zarr array at 'temperature.zarr'
- Shape: (365, 720, 1440) | Chunks: (1, 720, 1440) | Dtype: float32
- Compression: Blosc (zstd, level 5) with shuffle filter
- Each chunk contains one complete daily snapshot (~4MB)
- Use z.append() to add new time steps efficiently
Sicherheitsaudit
SicherAll 227 static findings are FALSE POSITIVES. The analyzer misidentified markdown documentation content as security vulnerabilities. Backticks in markdown are code formatting, not shell execution. Compression codec names (zstd, gzip, lz4) were flagged as cryptographic algorithms but are data compression. URLs are legitimate documentation links. No executable code, shell commands, or cryptographic operations exist in these documentation files.
Risikofaktoren
⚙️ Externe Befehle (2)
🌐 Netzwerkzugriff (1)
Qualitätsbewertung
Was du bauen kannst
Klimamodelldaten speichern
Terabyte-große Klimadaten mit Zeitdimensionen speichern. Effizientes Hinzufügen neuer Zeitschritte ermöglichen.
Modell-Checkpoints verwalten
Große Einbettungsmatrizen und Modellgewichte speichern. Integration mit Dask für verteiltes Training.
Genomische Datensätze verarbeiten
Multi-Terabyte-genomische Arrays handhaben. Cloud-Speicher für Zusammenarbeit nutzen.
Probiere diese Prompts
Create a Zarr array with shape (10000, 10000), chunks of (1000, 1000), and float32 dtype. Store it at data/my_array.zarr.
Set up a Zarr array stored in S3 with s3fs. Use bucket my-bucket and path data/arrays.zarr.
Load a Zarr array as a Dask array and compute the mean along axis 0 in parallel.
Create a Zarr array optimized for cloud storage: 10MB chunks, consolidated metadata, and sharding enabled.
Bewährte Verfahren
- Wählen Sie Chunk-Größen von 1-10 MB für optimale I/O-Leistung
- Richten Sie die Chunk-Form nach Ihrem Datenzugriffsmuster aus (z.B. Zeit-zuerst für Zeitreihen)
- Konsolidieren Sie Metadaten bei Verwendung von Cloud-Speicher um Latenz zu reduzieren
Vermeiden
- Vermeiden Sie das Laden gesamter großer Arrays in den Speicher - verarbeiten Sie in Chunks
- Verwenden Sie keine kleinen Chunks (<1MB) da sie übermäßigen Metadaten-Overhead erzeugen
- Vermeiden Sie häufige Schreibvorgänge am selben Cloud-Speicherort ohne Synchronisation
Häufig gestellte Fragen
Was ist der Unterschied zwischen Zarr v2 und v3 Formaten?
Wie wähle ich die richtige Chunk-Größe?
Kann Zarr Arrays verarbeiten, die größer als der verfügbare Speicher sind?
Welche Komprimierung sollte ich verwenden?
Wie vergleicht sich Zarr mit HDF5?
Kann ich Zarr mit bestehenden HDF5-Dateien verwenden?
Entwicklerdetails
Autor
K-Dense-AILizenz
MIT license
Repository
https://github.com/K-Dense-AI/claude-scientific-skills/tree/main/scientific-skills/zarr-pythonRef
main
Dateistruktur