GeoParquet est une spécification ouverte qui définit comment stocker des entités géographiques vectorielles — géométries et attributs — dans Apache Parquet, un format binaire orienté colonnes largement utilisé dans l'analyse de données. Il ajoute des métadonnées géographiques normalisées et une colonne de géométrie (généralement encodée en WKB), de sorte que les données spatiales s'intègrent naturellement dans l'outillage moderne d'ingénierie des données.
Pourquoi c'est important
Les formats vectoriels traditionnels comme le Shapefile et le GeoPackage sont orientés lignes et liés à des piles spécifiques aux SIG. GeoParquet fait entrer les données spatiales dans le monde colonnaire, conçu d'abord pour l'analyse : il se compresse bien, prend en charge le pushdown de prédicats et de colonnes (ne lire que les colonnes et les groupes de lignes nécessaires), et fonctionne directement avec des moteurs comme DuckDB, Apache Arrow, GeoPandas et les services de requêtes cloud. Pour les grandes tables — des millions de polygones ou de points — c'est nettement plus rapide et moins coûteux que les formats hérités.
Exemple concret
Vous pouvez lire un fichier GeoParquet distant avec l'extension spatiale de DuckDB et interroger uniquement les lignes correspondantes sans télécharger le fichier entier :
SELECT name, ST_Area(geometry)
FROM read_parquet('s3://bucket/units.parquet')
WHERE lithology = 'basalt';
En Python, geopandas.read_parquet("units.parquet") restitue un GeoDataFrame, y compris son SCR, que GeoParquet stocke dans les métadonnées géographiques du fichier (généralement sous forme d'enregistrement PROJJSON).
Piège courant
GeoParquet est optimisé pour l'analyse et la lecture en masse, et non pour les modifications aléatoires d'une seule entité ou les mises à jour transactionnelles — pour une base de données de travail modifiable, utilisez plutôt GeoPackage ou PostGIS. Vérifiez aussi la version du logiciel d'écriture : les fichiers anciens (antérieurs à la 1.0) peuvent ne pas contenir les métadonnées normalisées qu'attendent les lecteurs plus récents.