HDF5 (Hierarchical Data Format 5)
HDF5 (Hierarchical Data Format 5) est un format de fichier conçu pour stocker et organiser de grandes quantités de données numériques. Il est largement utilisé dans la recherche scientifique, l'apprentissage automatique et l'informatique haute performance.
Type MIME
application/x-hdf5
Type
Binaire
Compression
Sans perte
Avantages
- + Handles datasets from kilobytes to exabytes
- + Hierarchical structure organizes complex data
- + Built-in compression and chunked storage for performance
- + Parallel I/O support for HPC clusters
Inconvénients
- − Complex API with a steep learning curve
- − Not suited for simple tabular data (use Parquet or CSV)
- − File corruption risk with concurrent writes without locks
Quand utiliser .HDF5
Utilisez HDF5 pour les données scientifiques (images satellite, séquences génomiques, simulations physiques), les poids de modèles d'apprentissage automatique et les grands tableaux numériques. Préférez Parquet pour les données tabulaires analytiques.
Détails techniques
HDF5 organise les données en groupes (répertoires) et datasets (tableaux N-dimensionnels typés). Prend en charge le chunking pour les E/S partielles, la compression plugin (gzip, LZF, SZIP), l'accès MPI parallèle et le self-describing via les métadonnées intégrées.
Historique
Le National Center for Supercomputing Applications (NCSA) a développé HDF en 1987. HDF5 (1998) a été une refonte complète avec un modèle de données hiérarchique, une compression par morceaux et un accès parallèle. Il est la norme dans les domaines scientifiques (NASA, CERN, NIH).