Retour
Emma Legrand Le 09 novembre 2022

L’Histoire de la donnée : retour sur l’évolution de la data

Alors inconnu il y a quelques années, le monde de la data est devenu mainstream. Découvrez l’évolution de la data et dates clés.

frise2

Qu’est-ce qu’une donnée aujourd’hui ?

Une donnée est une information numérique ou alphanumérique, codée, lisible par la seule machine, en vue de son enregistrement, traitement, conservation et communication… Dans la vie quotidienne cela peut être l’âge d’une personne et au sein d’une entreprise cela peut être le nombre d’employés.

Les données sont donc partout. Favorisées par l’hypercroissance du numérique, elles sont plus nombreuses et se propagent plus vite. Au total, on estime que pas moins de 175 Zo (zettaoctets) d’informations seront stockés dans les systèmes informatiques de la planète en 2025. Soit 175 milliards de téraoctets.

À quand remonte la première analyse de données ?

En -2000 avant JC, les analyses de données existaient déjà ! Les plus anciennes traces d’écriture conservées ne sont pas des choses éthérées comme des poèmes, des grands discours, des lettres d’amour ou des romans, mais plutôt des exemples d’analyse de données.

Chez les Sumériens* notamment, les scribes dressaient des listes de laboureurs employés par l’État et préservaient ces données sur des tablettes d’argile, constituant ainsi la première base de données. Ces inscriptions permettaient alors de calculer les salaires.

*Les Sumériens sont une civilisation historique en Basse-Mésopotamie pendant les IVe et IIIe millénaire av. J-C. Ils sont les inventeurs de la plus ancienne écriture humaine connue : l’écriture cunéiforme.

Les débuts de la data au service de la santé

Aujourd’hui, les données sont devenues extrêmement utiles dans le monde de la santé. Il s’agit par exemple de renseignements médicaux classiques provenant de médecins, d’hôpitaux et de laboratoires. Mais aussi d’indicateurs captés dans la vie réelle, hors circuit médical : le rythme cardiaque mesuré par une montre, l’indice de masse corporelle calculé par une balance connectée ou le nombre de pas enregistrés par une application smartphone…

Selon les historiens, l’entrée de la data dans le secteur médical est apparue en 1663. John Graunt, l’un des premiers démographes, introduit l’analyse des données statistiques avec la peste bubonique, une maladie contagieuse au contact d’une piqûre d’une puce infectée. Il publie alors la première collection d’archives de santé publique, compilant notamment les taux de mortalité et leurs variations pendant la période de peste bubonique en Angleterre, de 1347-1351.

Un début de structuration de la data dans les années 1960 et 1970

C’est dans les années 1960 et 1970 que l’analyse de données commence à se structurer sous une forme ressemblant à ce que nous connaissons aujourd’hui. Les capacités de calcul des ordinateurs commencent alors à augmenter, favorisant les premières bases de données informatisées. Avant cette date, les données étaient encore retranscrites et stockées sur du papier.

En 1965, les États-Unis prévoient de construire les premiers bâtiments de centres de données pour stocker des millions de déclarations d’impôts et d’empreintes digitales sur bande magnétique. C’est le début de la numérisation de l’administration.

Néanmoins, le volume de données se multipliant, des problèmes de maintenance commencent  à se poser.

Un besoin de structuration de la donnée s’est alors fait sentir. Le SQL (Structured Query Language) apparaît. C’est un langage informatique utilisé pour exploiter des bases de données. Il permet de façon générale la définition, la manipulation et le contrôle de sécurité de données. Créé au début des années 1970 par Donald D. Chamberlin et Raymond F. Boyce, c’est à cette époque que les premières embauches de Data Analyst se font.

La naissance de la business intelligence dans les années 80 et 90

Une fois les données développées et stockées, une question s’est rapidement posée : comment les classifier selon différents niveaux d’agrégation ? Un exemple très simple : en plus de visualiser les données d’une ville, il devient pertinent de les comparer avec celles d’une région ou d’un département.

C’est alors que nous en sommes arrivés à reformater la donnée pour apporter de la flexibilité dans leurs compréhension. Ainsi les personnes des entreprises qui prennent des décisions sont en possession de rapports sophistiqués pour prendre les meilleures décisions. On a commencé à étudier les données dans leur ensemble, contexte, datation et etc.

Avec la démocratisation d’Internet dans les années 90, les sources de données se multiplient. Dès lors, les outils existants n’arrivent plus à suivre.

La naissance du Big Data

À partir des années 2000, on assiste à une explosion des données : on estime le volume des données créées ou répliquées dans le monde à 64 zettaoctets, ce qui équivaut à 64 mille milliards de gigaoctets. Il faut alors être en capacité de stocker les données et de les analyser. C’est l’apparition du Big Data. Le Big Data est composé de jeux de données complexes, provenant essentiellement de nouvelles sources. Ces ensembles de données sont si volumineux qu’un logiciel de traitement de données traditionnel ne peut tout simplement pas les gérer.

Le Big Data est donc des données plus variées, arrivant dans des volumes croissants et à une vitesse plus élevée. C’est ce que l’on appelle les trois « V » :

  • Le volume : la quantité de données a son importance. Avec le Big Data, on doit traiter de gros volumes de données non structurées et à faible densité. Il peut s’agir de données de valeur inconnue, comme des flux de données Twitter, des flux de clics sur une page Internet ou une application mobile. Pour certaines entreprises, cela peut correspondre à des dizaines de téraoctets de données.
  • La vitesse : la vitesse à laquelle les données sont reçues et éventuellement traitées. Normalement, les données haute vitesse sont transmises directement à la mémoire, plutôt que d’être écrites sur le disque. Certains produits intelligents accessibles via Internet opèrent en temps réel ou quasi réel et nécessitent une évaluation et une action en temps réel.
  • La variété : la variété fait allusion aux nombreux types de données disponibles. Avec l’augmentation du Big Data, les données ne sont pas nécessairement structurées. Les types de données non structurés et semi-structurés, tels que le texte, l’audio et la vidéo, nécessitent un prétraitement supplémentaire pour en déduire le sens et prendre en charge les métadonnées.

Répondant à ce besoin de stockage d’immenses volumes, le cloud se développe. En particulier, avec Google et Amazon qui ont simultanément repris le terme « cloud computing » en 2006. Son infrastructure et sa tarification à l’usage permettent en effet de diminuer les coûts technologiques, budgétaires et humains du stockage on-premise.

À partir de 2010, la Data Science devient reine : elle permet d’améliorer en profondeur l’analyse des données et de faire des prévisions.

Enfin, le Big Data, le cloud & la Data Science favorise le développement de l’intelligence artificielle (IA) et du machine-learning, donnant assez de matière aux algorithmes pour apprendre par eux-mêmes.

L’Histoire de la donnée, en vidéo

Retrouvez ci-dessous l’Histoire de la donnée au travers d’une vidéo qui retrace les grandes étapes clés de la data et de ses évolutions.

La data vous intéresse ? Faîtes-en une carrière ! Consultez ici nos articles sur les métiers de la data.

Contenus liés