Le big data peut-il enrichir une stratégie webmarketing et par la même aider le Seo ? Ca y est, encore un titre ronflant .. Mais non, partez pas. Si je me pose la question, je suppose ne pas être le seul dans cette situation ! Au-delà du simple fait que tous les jours l’usage du big data fait partie d’un lieu commun dans nos tâches quotidiennes (comme faire une recherche dans Google par exemple) une organisation peut-elle aujourd’hui, utiliser ce gisement de data à son profit pour piloter son business ? Pour commencer à répondre à ces questions : Définition, fonctionnement, sources et usages pour décrypter ce concept.
Historique définition et Objectifs du Big Data
Origine du terme …
C’est à la fin des années 90 aux états unis que fut employé pour les premières fois, le terme de « Big Data » successivement dans diverses publications en 1997,8,9. Avant donc, il n’y avait rien ? Bien sûr que si, l’évocation de la production de données à grande échelle, en dehors du tout numérique, peut remonter à 1944 , lors d’une étude publiée par F. Rider où ce bibliothécaire signalait un doublement tous les 16 ans du nombre de livres stockées dans les bibliothèques américaines !
Finalement les fondamentaux restent les mêmes..
Au-delà de la sacro-sainte définition des 3 v sur les données « Variété, Volume, Vélocité », fondement du concept, il faut voir le big data comme une évolution logique « naturelle » due à l’explosion de l’information. La description du BD et de son écosystème n’est pas novatrice en soi dans l’histoire de l’informatique, elle ne fait que substituer une brique technologique dans les processus D’ETL (extraction traitement et chargement) d’enrichissement des données. C’est sur la Vélocité que l’accent est mis avec cette capacité de traiter, selon des modes programmés (batch) ou en temps réels, des données structurées et non structurées issues de sources diverses comme celles des réseaux sociaux, des objets connectés, et autres capteurs.
La nouveauté vient dans la mécanique du traitement
Les innovations viennent sans doute de l’architecture logicielle (reposant sur Hadoop, un système de fichiers) et dans la mécanique algorithmique qui traite cette data (MapReduce) . Diviser pour mieux régner pourrait être la logique finalement. On décompose une opération complexe par petites tâches réparties sur des nœuds ou cluster et ensuite on rassemble le tout. Google est à l’origine d’un de ces types de traitement « en parallèle » ici appelé « map reduce ». Cette architecture est aisément scalable, cela lui confère une souplesse quant à son évolutivité en terme de puissance de charge. Mais rien de sert d’utiliser un éléphant pour écraser une mouche ! Ce type d’infrastructure se justifie pour des volumes à traiter de plusieurs millions de lignes, avec des minimums équivalents au TeraOctet. L’illustration ci-dessous présente une opération simple Map Reduce: le comptage de mots dans un texte.
-> 6 opérations pour 1 traitement map reduce :
- Insertion de la donnée
- Séparation de phrases
- Correspondance numérique
- Sous ensembles
- Agrégation
- Résultat final
Sources du Big Data
En plus des sources traditionnelles siloisées de l’entreprise, l’innovation du big data vient dans sa capacité de traiter cette matière opaque présente aussi dans l’entreprise (aussi appelée blackdata par certains), mais aussi en dehors de l’organisation : le spectre donc va de la donnée brute, aux bases de données métiers en passant par des datas non structurées externes à l’organisation.
- Sphère internet
- Objets connectés
- Capteurs
- Réseaux sociaux
- Voix
- Open data
- Sources traditionnelles Métiers (logs)
Le potentiel des logs reste aussi énorme. Ils proviennent des machines, moyens de communications, appareils de connexions en tout genre, serveurs web bien sûr !
Webmarketing et Big Data
Améliorer les ventes, le marketing
Les Usages sont variés pour le BD. Les organisations doivent veiller à leur réputation, produire des contenus, monitorer la performance des ventes, connaître le parcours client, être capable d’anticiper.
Un atout pour le Seo
Certaines de ces tâches sont liées de près ou de loin avec le référencement naturel si on prend ce terme au sens large dans la mesure ou l’on veut rassembler tous les moyens possible afin d’accroître la visibilité et le trafic d’un site. Une des principales technique ou discipline pratiquée par la recherche web est celle du text mining.
En effet, les moteurs utilisent dans leur algo des signaux marqueurs en dehors du site (popularité, engagement) mais aussi sur le site (comportement). Des petites structures se satisferont des remontées d’outils dédiés spécialisés seo et analyse web mais les sociétés dont la présence web génèrent des millions de visites ont plus de besoins sur ce gisement de data ou le BD prend tout son sens dans la capacité à traiter une grande quantité de data en très peu de temps. Les secteurs les plus demandeurs sont les réseaux sociaux pour monétiser leur audience, Google bien sûr, la grande distribution et le secteur bancair. Elles peuvent mettre en place leur propre infrastructure (ou peuvent utiliser les services cloud d’amazon, Google ..) éventuellement connectée aux apis de divers outils. Exemple de sources de données dans un objectif d’analyse interne de business intelligence :
- Analyse de logs à grandes échelles : crawling des bots, monitoring
- Vue panoramique du client : offline (beacons) , visites clients onsite (clickstream) , transactions, campagnes (email, sea), profils sociaux (ex : big query pour Google analytics)
- Visibilité web : vision de la concurrence avec positionnements, netlinking, analyse de corpus : classification et similarité.
- Contextualisation de production de contenus (météo, evènements liés, actualités)
- Bruits sociaux : analyse tendances et sentiments
Analyse de ces big Data
La business intelligence prend tout son sens dans l’analyse des données, on parle de “visualisation” aussi. J’avais pu écrire un post à ce sujet : https://www.mauricelargeron.com/matrice-a-bulles-pour-comprendre-les-donnees/
Cette vision très marketing 360° fondée sur une intégration du big data est déjà réalité pour certaines entreprises de vente en ligne où l’aspect « véloce » du traitement de l’information prend tout son sens avec des analyses temps réel sur ce qui fonctionne ou pas suivi de correctifs, d’adaptation des contenus poussés à l’utilisateur. Le BD a encore de beaux jours devant lui…
Quelques sources ..
- Anglais (petite histoire du BD) : http://www.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-data/
- Graphes webmarketing: http://www.pureside.fr/idees/queduweb-3-exemples-clustering-pour-webmarketing/