vignette_big_dataLes entreprises, informaticiens, physiciens, économistes, mathématiciens, politologues, sociologues, et beaucoup d’autres accordent un intérêt grandissant aux quantités massives d’informations produites ici et là au sein de notre société numérique. De plus en plus, on discute des bénéfices de l’analyse de l’information issue de Twitter, Google, Facebook, et de tout autre espace dans lequel un nombre de personnes de plus en plus important laisse des traces numériques et dépose des informations susceptibles d’être exploitables et exploitées.

Le phénomène Big Data est né. Il doit son développement à la convergence de deux événements majeurs : d’un côté, l’explosion des informations manipulées au sein des éco-systèmes digitaux qui nous entourent, et d’un autre, la prise de conscience que certaines de ces nouvelles informations « brutes » pourraient être analysées et délivrer une nouvelle forme de valeur.

Face à l’importance grandissante du phénomène dans les médias et face au « buzz » marketing qui en découle, il semble plus que nécessaire de se pencher sur le sujet, de se poser la question d’une définition objective des Big Data, mais surtout d’identifier les forces potentielles du concept et bien évidemment ses limites.

L’effet « volume informatif »

Le web et le social computing provoquent un changement fondamental : la possibilité et la facilité pour les internautes de s’exprimer partout et sur tout. Cela engendre un éco-système digital de plus en plus abondant et mature, piloté et abondé par les internautes eux-mêmes. D’un autre côté, l’entreprise numérique de plus en plus présente et ouverte sur le monde, l’Internet des objets et autres capteurs ou censeurs sur ces objets « digitalisés », toutes ces évolutions vont engendrer des « lacs de données » de plus en plus gigantesques en dépassant probablement les plus ambitieuses des estimations.

Ces transformations des relations aux autres, du comportement humain en société et du bavardage des objets connectés ont été portés par la technologie ; le développement des solutions mobiles et des applications « collaboratives » et « sociales » en tête.

Ces nouveaux modes d’expression amènent la société économique à vouloir y rechercher des sources innovantes de création de valeur en capturant et en analysant ces millions d’informations échangées dans la sphère numérique.

Au niveau de l’entreprise, cela amène à revoir en profondeur le cycle complet de collecte et d’analyse des données utilisées régulièrement pour adapter les offres, capter de nouveaux clients, se différentier et créer de nouveaux marchés. Mais alors que nos systèmes « décisionnels » actuellement en place n’ont pas fini de délivrer toute leur puissance, on nous entraîne vers ce nouveau « Graal » de l’analyse de données. Il faut en fait appréhender ce phénomène de manière complémentaire aux systèmes décisionnels traditionnels. Les Big Data ajoutent une dimension inédite : exploiter la profusion d’immenses volumes de données avec un niveau de détails des plus fins et souvent une durée de vie des plus courtes (instantanéité).

Les Big Data rentrent donc dans le jeu avec la promesse de devenir de véritables « boules de cristal ». Pour cela, il s’agit dorénavant de digérer des dizaines de millions d’informations, structurées ou non, provenant de sources multiples dans l’objectif de délivrer de nouveaux indicateurs plus fins, mieux ciblés, pertinents et exploitables pour améliorer la connaissance des écosystèmes qui nous entourent et soutenir un nouvel essor de la recherche scientifique en général. Les analyses prédictives et les analyses temps réels (In Memory Computing) sont aussi de la partie. Pour trouver de nouveaux gisements de valeurs, certaines industries évoluent vers une individualisation de leurs offres, basée sur la personnalisation et donc une connaissance toujours plus poussée des clients ; l’anticipation et l’analyse prédictive sont des clés pour réussir.

L’instantanéité… What else ?

Les architectures traditionnelles de traitement de données savent collecter des données avant de les transformer puis de les analyser. Ces trois opérations sont globalement réalisées l’une après l’autre, une valse à trois temps en somme !

Aujourd’hui, les applications sur Internet, les réseaux sociaux, les objets connectés, produisent des données en permanence. De tels flux d’information imposent de traiter les données au fil de l’eau pour au moins sélectionner celles qui devront être analysées et écarter le reste.

L’un des enjeux de ces dernières années est de faire en sorte de pouvoir analyser ces « nouveaux » formats de données peu structurés de manière aussi simple que nous savons le faire avec des données structurées (données principalement normalisées). L’autre enjeu est d’être en capacité de les analyser dans un délai suffisamment court pour qu’elles puissent délivrer du « sens » en tenant compte du contexte souvent « instantané » dans lequel elles ont été produites.

Variété et richesse de l’information déstructurée

Le traitement de gros volumes de données structurées fait partie du quotidien de tout système décisionnel qui se respecte. Mais il faut bien se rendre à l’évidence que limiter son entrepôt de données à quelques téraoctets de données structurées n’est plus possible. Devant l’accroissement volumétrique associé à une volonté d’instantanéité dans la collecte et l’analyse de nouvelles informations, force est de constater que les chaînes traditionnelles de traitement de données deviennent inadaptées et extrêmement délicates et coûteuses à mettre à niveau.

L’économie numérique apporte son lot de nouveautés en particulier sur le plan de la structuration de la donnée originelle. Des données semi-structurées, souvent sous forme de structures XML, cohabitent avec d’autres données non-structurées (images, vidéos, audio, fichiers de logs, textes libres…). Il s’agit ainsi de profiter de l’incroyable richesse que représentent les échanges conversationnels sur Facebook, Twitter et autres réseaux sociaux pour pouvoir collecter, analyser, croiser, catégoriser ces données. Les analyses faites sur ces informations non structurées permettent d’adresser les clients et les prospects d’une entreprise non plus selon les critères comportementaux usuels, mais en construisant une segmentation nouvelle s’appuyant sur des avis, commentaires, opinions, souhaits, jugements, préférences, critiques, attentes, réclamations, ou désirs. Une fois agrégées et analysées sémantiquement, ces données deviennent en effet intelligibles et exploitables pour décrypter ce qui se dit sur une marque, un produit ou un service. Ce type d’analyses, connus sous les vocables de « Opinion Mining » et « Sentiment Analysis » peut être considéré comme innovant. Mettre dans le champ des possibles la capacité à transformer le bruit informationnel issu du monde digital en données exploitables à des fins commerciale et marketing, relève d’une démarche inédite, rendue possible par la manne informationnelle disponible actuellement, mais non exploitée dans l’espace digital.

La révolution des usages et des organisations est en marche

Les entreprises sont passées ces dernières années d’un marketing orienté produit à un marketing fortement « orienté client ». Elles cherchent à faire vivre à leurs clients une expérience au-delà du produit, accompagner le consommateur au quotidien, le conseiller, susciter sa confiance, son attachement, sa fidélité et anticiper ses désirs.

Il faut alors savoir aller au-delà des moyens traditionnels et mettre en place des moyens de marketing innovants (modèles prédictifs, moteurs de recommandations…) permettant de gérer des ressources et des campagnes marketing sur de multiples canaux afin d’analyser l’ensemble des données clients accessibles. Par exemple, il s’agit de se mettre en capacité d’étudier les comportements des consommateurs en fonction des pages consultées sur le site Web, des produits présélectionnés, du temps d’attente entre deux actions, voire de l’heure de connexion ; relier ces comportements à des remarques postées sur des réseaux sociaux et/ou des blogs. Se construisent alors des modèles de ciblage plus pertinents, plus précis permettant d’agir plus efficacement et plus rapidement (offres, relances, services complémentaires, appels…).

Cette capacité à combiner plus de données renforce la transversalité dans l’entreprise. Cela accroît naturellement la réactivité et accélère les cycles : réponses plus rapides aux demandes des clients, à l’évolution des besoins, aux questions des partenaires et des fournisseurs. Ceci peut également transformer nos modes de collaboration et remettre parfois en cause le fonctionnement des organisations en silo ainsi que la hiérarchie traditionnelle.

Plus de transversalité ainsi que plus de combinaisons de données analysées devrait aider à renforcer l’autonomie de décision et d’action des équipes opérationnelles dans l’entreprise. Par exemple, un commercial pourra voir instantanément qu’un produit subi un taux de retour anormal ou qu’il est sujet à de trop nombreuses critiques de la part des clients. Il sera plus réactif et probablement plus autonome pour comprendre les enjeux et pourra donc agir rapidement.

Les opérationnels « métiers » s’approprient de plus en plus les compétences informatiques nécessaires à leurs actions sur l’analyse de données. En conséquence, c’est aussi le paysage de la direction informatique qui devrait se transformer dans les années à venir. Pendant que les départements marketing luttent pour analyser les énormes volumes de données en provenance de nouvelles plateformes, comme les réseaux sociaux ou autres espaces informatifs majeurs, les DSI de leur côté bataillent quant à la meilleure façon de les stocker et les restituer de manière intelligible.

Les projets Big Data bousculent l’organisation des projets informatiques dans l’entreprise, repoussant la DSI vers des tâches de back office et faisant émerger l’analyste des données, le « Data Analyst », comme acteur clé du domaine, rattaché au service marketing. Le métier d’analyste de données évolue vers un champ d’action et une expertise plus pointue. Profil encore rare en France, il reporte de plus en plus au directeur marketing.

Limites épistémologiques et éthiques des Big Data

Le phénomène Big Data comporte sa part de limites, de problèmes d’éthique et de risques qui ne peuvent pas être ignorés. Attention au revers de la médaille car, poussée à l’extrême, cette approche pourrait devenir contreproductive pour l’entreprise. Il ne faudrait pas que le phénomène Big Data prenne à lui seul la place de toutes les autres formes d’analyses au profit d’une production « à la chaîne » de règles de gestion et de chiffres, comme seuls révélateurs de la connaissance. Les modèles n’expliquent pas tout. Soit, ils permettent de spécifier une problématique mais apportent-ils une méthode infaillible permettant de décrire comment nous réfléchissons, conceptualisons et développons de la valeur et du sens ? Les raisons pour lesquelles les gens font des choses, écrivent des choses, ou fabriquent des choses seraient effacées au profit de résultats apportés par de vastes modélisations parfois approximatives.

D’autre part, l’analyse de données discrétionnaires qui s’oppose par essence au Big Data est elle aussi source de connaissance, pour le coup invisible et ignorée par les Big Data.

En réalité, travailler avec les Big Data reste une affaire subjective, et ce qui est quantifié au travers de modèles complexes ne peut forcément prétendre à devenir une vérité objective.

Attention aux effets de pollution !

Plus de données ne signifie pas forcément de meilleures données. Comment digérer toujours plus d’informations, les trier et ne conserver que les plus pertinentes avec le risque de conserver irrémédiablement des millions d’informations inutiles ou non exploitées dans les chaînes d’analyse ou se tromper sur ce qui est considéré comme pertinent ou non ?

En tant que grande masse de données brutes, les Big Data ne s’expliquent pas d’elles-mêmes. Les méthodologies spécifiques permettant d’interpréter les données sont soumises à toutes sortes de débats philosophiques. Les données peuvent-elles représenter une « vérité objective » ou bien est-ce que toute interprétation est forcément biaisée par une forme de filtrage subjectif, ou encore par la manière dont les données sont « nettoyées » ?

Il faut ajouter à ces questions le problème des erreurs dans les données elles-mêmes. Les grands jeux de données récoltés sur Internet sont souvent peu fiables, à la merci des pannes ou des pertes. Ces erreurs et lacunes sont décuplées quand on croise de multiples jeux de données.

Un risque éthique ?

La frontière de l’entreprise devient mouvante. A qui sont les données, aux clients ? A l’espace public ? Où s’arrête la responsabilité de l’entreprise, toujours au salarié ? Les sociétés sont de plus en plus interconnectées intimement avec leurs clients, leurs fournisseurs, les réseaux personnels de leurs salariés et l’espace public. Elles se présentent de plus en plus comme une communauté élargie bien au-delà des frontières naturelles de l’entreprise (fournisseurs, fabricants, clients, salariés, investisseurs, espace public…) autour d’une marque, d’un service ou d’un produit. Toute donnée « accessible » doit-elle pouvoir être utilisée par tous ? Quel statut accorder à des données soi-disant « publiques » sur les réseaux sociaux ? Peuvent-elles être utilisées sans en demander la permission ? Sur quelles bases inclure quelqu’un dans un vaste ensemble de données ? Que se passe-t-il si un billet « public » sur le blog de quelqu’un est sorti de tout contexte et analysé sans que son auteur n’en soit tenu informé ? Ces quelques interrogations tendent à démontrer que l’établissement de meilleurs dispositifs de protection de la vie privée s’avère indispensable et devient une priorité absolue. Toute la difficulté réside dans le fait que la frontière de la sphère privée est délicate à délimiter. Il est également difficile de quantifier les véritables risques induits par l’usage abusif de ces données.

Dilution de la matière informationnelle !

Lorsque tout le monde s’exprime sur tout, comment reconnaître les vrais experts des imposteurs, les vrais témoignages des faux, les démarches légitimes et celles qui sont sujettes à polémiques ?

Risque d’emballement

Souvent le commentaire appelle le commentaire. Au fil des discussions, la qualité de la substance informative a tendance à diminuer fortement. Aucun algorithme d’interprétation n’est en mesure de détecter et de pondérer la qualité de l’information produite.

Pour conclure

Il n’y a aucun doute sur le fait que les quantités de données disponibles aujourd’hui soient en effet en pleine croissance, mais ce n’est pas la caractéristique la plus pertinente de ce nouvel écosystème des données. Les Big Data sont remarquables, non en raison de leurs tailles, mais pour leurs capacités à être articulées à d’autres données. En raison des efforts pour exploiter et agréger les données, les Big Data sont fondamentalement liées aux réseaux. Leurs valeurs viennent des patterns qui peuvent être tirés du fait de connecter entre eux des jeux de données, concernant un individu, des individus liés à d’autres, des groupes de gens, ou simplement concernant la structure de l’information elle-même.

Le marché voit les Big Data comme une pure opportunité. Les marketeurs les utilisent pour orienter leurs campagnes, les assureurs veulent optimiser leurs offres, et les banquiers de Wall Street les utilisent pour améliorer leurs analyses des comportements du marché.

Néanmoins, il est impératif que nous commencions à poser des questions cruciales sur ce que signifient toutes ces données, qui y ont accès, comment elles sont déployées, et à quelles fins.

Joel Boutet
Directeur des Systèmes d’Information – Ellisphere
IT Expert Magazine

 

Share