Table of Contents
ToggleLes données sont essentielles à toute activité numérique. Leur stockage et leur structuration sont des processus cruciaux qui déterminent leur facilité d’utilisation et leur potentiel de réutilisation pour produire de l’information utile. Bien que les données non structurées soient également exploitables, par exemple par les moteurs de recherche, la structuration des données assure une exploitation plus simple et plus efficace.
Le stockage et la structuration des données ont parcouru un long chemin dans l’histoire :
Une donnée est une valeur qui décrit un objet, une personne ou un événement jugé intéressant. Par exemple, le numéro de téléphone d’un contact est une donnée. Pour décrire un objet, plusieurs descripteurs peuvent être nécessaires. Par exemple, pour caractériser un contact, vous pourriez avoir besoin de son nom, prénom, adresse et numéro de téléphone.
Lorsque nous regroupons des objets partageant les mêmes descripteurs, nous créons une collection. Pour faciliter la visualisation et la manipulation de ces collections, nous les structurons souvent en tables, avec des objets en lignes, des descripteurs en colonnes, et des données à chaque intersection de ligne et de colonne. Ces données sont alors dites « structurées ».
Pour garantir la persistance des données, elles sont stockées dans des fichiers. Le format CSV (Comma Separated Values, ou valeurs séparées par des virgules) est un exemple simple de format de fichier utilisé pour enregistrer une table. Chaque fichier est également associé à des métadonnées, qui décrivent son contenu.
Dans le passé, la recherche dans des données structurées était généralement effectuée manuellement. Cependant, l’avènement des algorithmes a permis d’automatiser l’indexation des données à partir de textes, d’images ou de sons.
De plus, une table de données peut être manipulée de différentes manières : vous pouvez rechercher une information spécifique, trier la collection en fonction de certaines propriétés, filtrer la collection en fonction de critères spécifiques, effectuer des calculs, et présenter les informations de manière à faciliter leur visualisation par les utilisateurs.
Les fichiers de données sont stockés sur divers supports : internes (disque dur ou SSD), externes (disque dur externe, clé USB), locaux ou distants (cloud). Ces supports peuvent être sujets à des dommages qui peuvent altérer ou détruire les données, d’où la nécessité de réaliser des sauvegardes régulières.
Les recherches dans les fichiers peuvent être effectuées à la fois sur la base de leurs métadonnées et sur la base d’une indexation, à la manière des moteurs de recherche sur le web. Les grandes bases de données sont généralement hébergées sur des serveurs dédiés, des machines puissantes avec une capacité de stockage importante. Ces centres de données ont besoin d’être alimentés en électricité et maintenus à des températures basses pour fonctionner correctement.
L’évolution constante des capacités de stockage, de traitement et de diffusion des données a conduit à une surabondance des données et au développement de nouveaux algorithmes capables de les exploiter. Cette tendance, connue sous le nom de Big Data, a des implications majeures dans de nombreux domaines, tels que la science, la santé et l’économie.
Cependant, l’exploitation massive des données a également des implications sociétales significatives. Par exemple, elle peut affecter la démocratie, conduire à une surveillance de masse et à l’exploitation des données personnelles.
Certaines de ces données sont dites « ouvertes » (OpenData), car leurs producteurs les considèrent comme un bien commun. Néanmoins, le développement d’un marché de la donnée a également conduit à la collecte et à la revente de données par des entreprises, souvent sans transparence pour les utilisateurs. Cela souligne l’importance d’un cadre juridique pour protéger les utilisateurs, comme le Règlement général sur la protection des données (RGPD) de l’Union européenne.
Enfin, il est important de noter que les centres de données consomment d’importantes ressources, telles que l’eau pour le refroidissement des machines, l’électricité pour leur fonctionnement, et les métaux rares pour leur fabrication. De plus, ils génèrent également de la pollution, notamment lors de la fabrication, de la destruction ou du recyclage des équipements.
Par conséquent, il est crucial de réfléchir à des pratiques numériques qui limitent la transformation des écosystèmes, contribuent à la lutte contre le changement climatique et protègent la santé humaine.