1. DataViz BIG DATA
Cours d’Introduction
Big Data l Analytics l
BIG DATA l ANALYTICS l DATAVIZ
www.data-business.fr
2. 2
“Big data is like teenage sex: everyone talks about it, nobody
really knows how to do it, everyone thinks everyone else is doing
it, so everyone claims they are doing it...”
Dan Ariely
4. 4
Pourquoi BIG Data ?
L’historique du Big Data
• 1951 : LEO, le premier ordinateur d’entreprise
• Quelques exemples connus de Data-Mining
• Les origines du Big Data dans la médecine génomique
• Google et Yahoo : pionniers technologiques
• The Economist : the Data Deluge
• L’étude McKinsey : Big Data for Business
Alors, buzz ou révolution ?
Grâce à des évolutions sociales et des innovations technologiques, le Big Data permet de
généraliser l’approche Data-Driven à tous les métiers et tous les secteurs
6. 6
Démarche Data-Driven : l’AB Testing
QUEL PAGE CONVERTIT LE MIEUX ?
Principe de l’AB Testing : diffuser des pages différentes à des internautes de manière aléatoire et
observer les taux de clics et de conversion
8,26% 11,6%
Variation de +40%, soit 2,8 millions d’inscriptions en plus
7. 7
Fondamentaux : les piliers du Big Data
• Innovations technologiques
– Objets connectés
– Cloud computing
– Data Science, DataViz
• Evolutions sociales et culturelles
– Partage d’informations personnelles
– Quantified Self, VRM
• Innovations d’usage et opportunités business
– Acquisition, fidélisation de clients
– Amélioration des processus
– Développement du business model
8. 8
Illustration : le Real-Time Bidding
RTB : Enchères en temps réel pour la diffusion de publicités display (exemple : publicités youtube)
L’utilisateur se
connecte sur
un site
Son profil est qualifié
et scoré (Démographie,
Comportement, Intention)
La publicité de l’annonceur
avec la meilleure enchère
des diffusée
L’espace publicitaire est mis aux enchères auprès d’annonceurs
9. 9
Définition des 3V
Les 3V sont une grille de lecture établie en 2001 par le cabinet Gartner, qui fait
référence pour analyser le passage à l’échelle Big Data.
Volume : massification et automatisation des échanges de
données
Variété : multiplication des sources et des types de
données
Vélocité : nécessité de collecter et de traiter les données
en temps-réel
1
2
3
Depuis, d’autres ont essayé d’approfondir le sujet, en incluant des éléments comme la Validité,
la Véracité, la Valeur ou la Visibilité des data.
10. • Données des entreprises : les emails, les documents, les bases de données, tous les historiques de processus métiers (logs)…
• Données en dehors des entreprises : bases de données externes (publiques ou fournisseurs de données), contenus échangés sur
les réseaux sociaux ou publiés en ligne, les historiques de navigation et de recherche, les données transmises par les objets
connectés
Exemple : Avec l’avènement du smartphone, l’entreprise AT&T a vu ses coûts de stockage d’enregistrements tripler entre 2010 et 2013
(géolocalisation, historique de recherche, données d’applications…)
BIG DATA – ESILV – Septembre 2014 10
3V : Le Volume
A Quelques chiffres
• 30 milliards de contenus ajoutés sur Facebook par mois, par plus de 600 millions d’utilisateurs actifs
• Plus de 2 milliards de vidéos regardées sur Youtube chaque jour
• En 2008, le nombre d’appareils connectés à Internet a dépassé le nombre d’humains
• On estime que fin 2011, 20 foyers moyens généraient plus de trafic que la totalité des utilisateurs Internet en 2008
• 80% des données ont été créées dans les 12 derniers mois
B Types de données
Infographie volume big data
11. BIG DATA – ESILV – Septembre 2014 11
3V : la Variété
A Variété des sources
• Données internes de l’entreprise (CRM, tracking site web, logs…)
• Données externes (OpenData, Météo, indicateurs économiques…)
• Données comportementales clients (géolocalisation, réseaux sociaux, wearables…)
• Données Machine-To-Machine
B Variété des contenus
• Données structurées : informations que l’on trouve dans les bases de données
• Données semi-structurées : contenu composé d’éléments s’adressant à un humain à d’éléments s’adressant à
une machine (emails, page web)
• Données non-structurées : contenu ne comportant pas de “balises” structurées lisibles par une machine (pile de
CVs, enregistrement audio, vidéo…)
Exemple : la vision “à 360°” du consommateur
12. A Fast Data, la capacité de traiter de la donnée en mouvement
BIG DATA – ESILV – Septembre 2014 12
3V : la Vélocité
• Grâce aux innovations dans les infrastructures d’échange et dans le domaine du traitement de données
(Hadoop, MapReduce), la vitesse d’analyse des données à été multipliée
• Combinés aux outils décisionnels nouvelle génération, ils permettent d’améliorer l’efficacité de l’entreprise grâce
à l’optimisation en temps réel des activités marketing et des processus internes
B Exemples d’utilisation
• Gestion du risque financier (banques, fonds d’investissement)
• Déclenchement d’actions marketing en temps réel (retargeting, Real-Time Bidding)
• Optimisation de trajets et alertes sur les risques matériels
• Smart Grid / Smart City / Smart Building
13. 13
Illustration des 3V : le programme de surveillance PRISM
"The NSA has built an infrastructure that allows it to intercept
almost everything. With this capability, the vast majority of human
communications are automatically ingested without targeting…”
E. Snowden
14. 14
Illustration des 3V : le programme de surveillance PRISM
Volume
• L’ensemble des communications (téléphone et web) transitant par les US sont archivées et stockées
•PRISM intercepte et stocke 30 milliards de «Data Points » par mois dont environ 5Mds d’emails
Des sources… …et des contenus…
•Email
•TélChat audio
•Photos / Vidéos
•Login/Mdp
•Conversations tél
•Géo-localisation
•Réseaux sociaux
•…..
…pour analyser les
comportements et
détecter des risques
potentiels
Variété
Vélocité
• Couches d’analyse sémantiques et de meta-données en temps réel sur les périmètres considérés « à risque »
• En cas d’alerte, possibilité de suivre en temps réel l’ensemble des communications et des déplacements d’une cible
15. 15
Big Data : exemples d’application
Customer Cen A tric: Acquisition et fidélisation de clients
• Casinos Harra’s : intervenir avant que les pertes des joueurs ne soient trop élevées
• Netflix : algorithmes de recommandation
• Wal-Mart : prédiction de la demande et optimisation des promotions
B Process Centric : Amélioration de l’efficacité opérationnelle
• Qantas Airways : maintenance prédictive grâce aux capteurs embarqués
• IRS : détection des fraudes fiscales
• UPS : prédiction de la demande et optimisation des trajets
C Diversification du Business Model
• Orange : revente de données géolocalisées
• Monster.com : développement d’une expertise en analyse automatisée des CVs
• DHL : vente d’indicateurs économiques
16. 16
4 innovations à l’origine de la vague Big Data
• Les Objets Connectés et l’automatisation des échanges
• Le Cloud Computing, Hadoop et NoSQL
• Les Analytics Avancés
• La DataViz
17. 17
Les Objets Connectés
• Explosion du nombre d’objets communicants : 15 mds en 2014 - 80 mds en 2020
• Catégories d’objets connectés :
– Wearables / Quantified Self
– Capteurs embarqués (machine-to-machine)
– Domotique & Hi-Tech
• Exemples d’usage :
– Etihad Airways : maintenance prédictive (Taleris)
– Optimisation des services et allocations des ressources publiques
– Quantified Self : comprendre et maîtriser son comportement
18. 18
Le Cloud, Hadoop et le NoSQL
• Le Cloud Computing permet aux entreprises d’externaliser le stockage et le calcul de
données massives de manière flexible à très faible coût
Capacité à héberger, traiter et interroger les données
Scalabilité et flexibilité
Très bas coût généralement réparti entre stockage et
requêtes
- < 0,20 € par giga-octets par mois pour le stockage
- < 0,05 € par giga-octet traité par requête
Interfaces simples et standardisées
Facilité d’intégration et déploiement rapide
Amazon Web Service EC2
Google Cloud Compute Engine
IBM SmartCloud Enterprise
Microsoft Windows Azure
En croissance de 43,7% en 2013, le marché du
Cloud devrait s’élever à 9 Mds € en 2014 *
Une solution adaptée aux enjeux du BIG DATA
19. 19
Le Cloud, Hadoop et le NoSQL
• MapReduce, Hadoop et le NoSQL sont en train de remplacer les systèmes de gestion de
bases de données classiques (relationnelles) sur certaines activités
• Hadoop : framework Java libre permettant de créer des applications distribuées et scalables. Basé sur un
système de fichiers distribués (HDFS), conçu pour stocker de très gros volumes de données sur un grand
nombre de machines. Intègre le patron d’architecture MapReduce dans lequels sont effectués les calculs
parralèles
– Distributions : Cloudera, HortonWorks, MapR Technologies
• Le NoSQL (not only SQL) : systèmes de gestion de bases de données à faible structuration relationnelle basé
sur un modèle clé-valeur, facilement scalable en multipliant les serveurs.
– Produits : Cassandra (Twitter), BigTable (Google), Hbase (Facebook), MongoDB, Neo4j
20. 20
Les Analytics Avancés / Data Science
Data Science : quelques techniques
• Régression : analyse d’une variable en fonction de variables explicatives
Qualité du vin = 12.145 + 0.00117 x (précipitations Oct. à Mars) + 0.0614 x (temp. moy Avr. à Sept.) –
0.00386 x (précipitations Août et Sept) (source)
1
• Clustering : groupements d’individus aux caractéristiques communes
Permet d’optimiser le ciblage et la personnalisation de l’offre (algorithmes de recommandation…)
2
3
• Text Mining (ou Traitement Automatisé du Langage)
Exemple : analyse des commentaires web client chez Disneyland et au Puy du Fou
• 4
Design Expérimental : test d’hypothèses sur des groupes aléatoires
21. 21
La DataViz
A Définition
« L’ensemble des techniques de représentation graphique et d’exploration visuelle de données
quantitatives permettant de traduire un ensemble de données brutes en information afin de faciliter la
prise de décision »
• Information interprétable : claire, quelque soit le volume, la nature ou la provenance des données
• Pertinente : qui réponde à un objectif métier dans un contexte défini
• Novatrice : qui fournisser une perspective différente qui permet de découvrir de nouvelles opportunités
B Types de Visualisations
• Les méthodes graphiques : diagrammes, cartes de chaleur, diagrammes de Mekko
• Les Visualisations interactives : D3.js, HTML5 (Snake Oil, Metropolitain.io)
• Les infographies
22. 22
La DataViz : preuve du concept
A Le quarter d’Ascombe
23. 23
La DataViz : preuve du concept
A Le quarter d’Ascombe
24. 24
Prochains cours
1. Cours d’Introduction
2. Applications du Big Data en Entreprise
3. L’individu dans l’ère Big Data
4. L’ubiquité des données
25. 25
Présentation de Data-Business.fr
Vincent de Stoecklin
HEC Paris, Mines ParisTech
Fondateur Data-Business.fr
Capgemini Consulting
COMPÉTENCES FONCTIONNELLES
Stratégie Big Data
Transformation digitale
Webmarketing & Growth Hacking
Data Science
• 1er site Big Data / Analytics / Dataviz
• Expertise Usages et Applications Big Data
• Missions de conseil et formations
• Communauté de Data Scientists
www.data-business.fr
AT&T : 100M consommateurs
Légalement tenue de garder un enregistrement quotidien
EN 2010, elle avait 193 000 enregistrements
Entre 2010 et 2013, avec la localisation, historique de navigation, données d’applis, ses coûts de stockage on triplé