Propriétés des données¶

Regardons quelques propriétés des données, afin que nous puissions mieux apprécier et comprendre ce sur quoi nous allons travailler.

Données structurées et non structurées¶

Certains ensembles de données sont bien structurés, comme les tables d’une base de données ou d’un tableur Excel.

D’autres part, il existe autour de nous beaucoup de données plus hétérogène. Par exemple textes des pages webs avec des images et des liens comme Wikipédia, ou un mélange compliqué de notes et de résultats de tests figurant dans les dossiers médicaux personnels.

Lorsque nous sommes confrontés à une source de données non structurée, comme une collection de tweets, notre première étape consiste généralement à construire une matrice pour la structurer.

Un modèle avec un groupe de mots construira une matrice avec une ligne pour chaque tweet, et une colonne pour chaque mot fréquemment utilisé.

L’entrée de matrice \(M[i, j]\) indique ensuite le nombre de fois où le tweet \(i\) contient le mot \(j\). De telles formulations de matrice motiveront notre discussion sur l’algèbre linéaire que nous verrons un peu plus loin.

Données quantitatives et données catégorielles¶

Les données quantitatives consistent en des valeurs numériques, comme la taille et le poids.

Ces données peuvent être incorporées directement dans des formules algébriques et des modèles mathématiques, ou affichées dans des graphiques et des tableaux conventionnels.

En revanche, les données catégorielles consistent en des étiquettes décrivant les propriétés des objets étudiés, comme le sexe, la couleur des cheveux et la profession.

Ces informations descriptives peuvent être tout aussi précises et significatives que les données numériques, mais elles ne peuvent pas être utilisées avec les mêmes techniques.

Les données catégorielles peuvent généralement être codées numériquement. Par exemple, le sexe peut être représenté comme homme = 0 ou femme = 1.

Mais les choses deviennent plus complexes lorsqu’il y a plus de deux catégories, surtout lorsqu’il n’y a pas d’ordre implicite entre eux.

Il est possible d’encoder les couleurs de cheveux sous forme de nombres en attribuant à chaque nuance une valeur distincte, comme cheveux gris = 0, cheveux roux = 1 et cheveux blonds = 2.

Cependant, nous ne pouvons pas vraiment traiter ces valeurs comme des nombres, pour autre chose que le simple test d’identité.

Est-il logique de parler de la couleur maximale ou minimale des cheveux ? Quelle est l’interprétation de ma couleur de cheveux moins votre couleur de cheveux ?

Big data vs petites données¶

La science des données est devenue, aux yeux du public, un amalgame de big data et l’analyse d’ensembles de données massifs résultant de capteurs avec la montée en popularité des objets connectés IoT

Le Big data est un phénomène passionnant mais qui peut devenir complexe.

Dans ce cours, il est difficile de travailler avec de grands ensembles de données car cela nécessiterait un des connaissances plus approfondies des techniques de manipulation et d’analyse de big data.

Supposons que l’on veut analyser les préférences des électeurs parmi les candidats à une élection données. L’approche du big data pourrait analyser les données massifs de Twitter ou de Facebook, en interprétant leurs tweets.

L’approche classique pourrait consister à mener un sondage, à poser une question spécifique à quelques centaines de personnes et à en présenter les résultats sous forme de tableau. Selon vous, quelle procédure s’avérera la plus précise ?

Le bon ensemble de données est celui qui se rapporte le plus directement aux tâches à accomplir, et pas nécessairement le plus important.

NLP Natural Language processing¶

Le Langage naturel est un type particulier de données non structurées ; il est difficile à traiter car il nécessite la connaissance de linguistiques spécifiques.

Très difficile de déchiffre le texte. Ça ne devrait pas être une surprise.

Demandez à deux personnes d’écouter la même conversation. Auront-elles la même signification ? La signification des mêmes mots peut varier lorsqu’ils proviennent d’une personne bouleversée ou joyeuse.

Audio, image et vidéo¶

L’audio, l’image et la vidéo sont des types de données qui posent des problèmes spécifiques à un spécialiste des données.

Des tâches insignifiantes pour l’homme, comme la reconnaissance d’objets dans des images, s’avèrent difficiles pour les ordinateurs.

Pensez seulement à la conduite autonome, ou encore à l’exploit qu’a réussi DeepMind dans le jeux populaire Alpha Go.

Les données en continu¶

Bien que la diffusion de données en continu puisse prendre presque toutes les formes précédentes, elle a une propriété supplémentaire.

Les données circulent dans le système lorsqu’un événement se produit au lieu d’être chargées dans une base de données par lots. Bien que ce ne soit pas vraiment un type de données différent, nous le traitons ici comme tel car vous devez adapter votre processus pour traiter ce type d’informations.

Collecte de données Nettoyage des données

ACT6100