Qu’est-ce que le big data ?

Le big data est un terme en évolution qui décrit un grand volume de données structurées , semi-structurées et non structurées pouvant être exploitées à des fins d’information ainsi que dans des projets d’ apprentissage automatique et dans d’autres applications d’analyse avancée.

Comprendre le big data

Le big data est souvent réparti par 3V : le volume de données extrême, la grande variété de types de données et la vitesse à laquelle les données doivent être traitées. Plus récemment, plusieurs autres V ont été ajoutés à la description du big data, notamment la véracité, la valeur et la variabilité. Bien que les mégadonnées ne correspondent pas à un volume de données spécifique, le terme est souvent utilisé pour décrire des téraoctets, des pétaoctets et même des exaoctets de données capturées au fil du temps.

Décomposer les V du big data

Les données peuvent provenir de multiples sources différentes, telles que des systèmes de transactions commerciales, des bases de données clients, des enregistrements médicaux, des applications mobiles, des réseaux sociaux, les résultats collectés d’expériences scientifiques, des données générées par machine et des capteurs de données en temps réel. Les données peuvent être laissées sous leur forme brute ou prétraitées à l’aide d’outils d’exploration de données ou de logiciels de préparation de données avant d’être analysées.

Les mégadonnées englobent également une grande variété de types de données, y compris les données structurées dans les bases de données et les entrepôts de données SQL, les données non structurées, telles que les fichiers texte et document conservés dans des clusters ou les systèmes NoSQL , et les données semi-structurées, telles que les journaux de serveur Web ou la diffusion de données à partir de capteurs. En outre, les mégadonnées comprennent plusieurs sources de données simultanées, qui ne peuvent être intégrées autrement. Par exemple, un projet d’analyse de données volumineuses peut tenter d’évaluer le succès et les ventes futures d’un produit en mettant en corrélation les données de ventes antérieures, les données de retour et les données de révision d’acheteur en ligne pour ce produit.

La vélocité fait référence à la vitesse à laquelle les mégadonnées sont générées et doivent être traitées et analysées. Dans de nombreux cas, des ensembles de données volumineuses sont mis à jour en temps réel ou quasi réel, par rapport aux mises à jour quotidiennes, hebdomadaires ou mensuelles de nombreux entrepôts de données traditionnels. Les projets d’analyse de données volumineuses ingèrent, corrèlent et analysent les données entrantes, puis rendent une réponse ou un résultat basé sur une requête globale. Cela signifie que les scientifiques et autres analystes de données doivent avoir une compréhension détaillée des données disponibles et une idée des réponses qu’ils recherchent afin de s’assurer que les informations qu’ils obtiennent sont valides et à jour. La vélocité est également importante car l’analyse de données volumineuses s’étend à des domaines tels que l’apprentissage automatique et l’intelligence artificielle ( IA).), où les processus analytiques trouvent automatiquement des modèles dans les données collectées et les utilisent pour générer des informations.

La véracité des données fait référence au degré de certitude dans les ensembles de données. Les données brutes incertaines recueillies auprès de sources multiples, telles que les plates-formes de médias sociaux et les pages Web, peuvent entraîner de graves problèmes de qualité des données. Par exemple, une entreprise qui collecte des données à partir d’une centaine de sources peut identifier des données inexactes, mais ces analystes ont besoin d’informations sur le lignage des données pour déterminer où les données sont stockées afin de corriger les problèmes.

Des données incorrectes entraînent des analyses inexactes et peuvent compromettre la valeur des analyses commerciales, car elles peuvent amener les dirigeants à se méfier des données dans leur ensemble. La quantité de données incertaines dans une organisation doit être comptabilisée avant d’être utilisée dans des applications d’analyse de données volumineuses. Les équipes informatiques et analytiques doivent également veiller à disposer de suffisamment de données précises pour produire des résultats valides. Pour en savoir plus, visitez le site d’ Octopeek