Conférence Big Data – Jeudi 16 janvier

Conférence Big Data – Jeudi 16 janvier

 

A l’issu de la demi-journée sur la thématique BigData qui s’est déroulé Jeudi dernier (16 janvier 2014) voici mon feedback de l’évènement.

 

Les organisateurs :

  • L’école ISEP (Équipe RDI)
  • L’école Centrale Paris (Chaire Business Intelligence, Laboratoire MAS)
  • La société Kiolis

Le programme : 5 présentations mêlant domaine de la recherche et monde de l’entreprise

  • De la business Intelligence au BigData (École Centrale Paris)
  • Case Based Reasoning et BigData pour l’aide au diagnostic (Kiolis)
  • In Memory analytics, le cœur des nouvelles applications métier (QuartetFS)
  • Aperçu des technologies autour des flux de données sémantiques (ISEP)
  • Les enjeux du BigData pour la mise en place des smart grids (EDF R&D)

De manière générale l’évènement a rencontré un franc succès (la salle était pleine, 100 à 150 personnes présentes), les présentations intéressantes donnent à penser que l’on va de nouveau changer d’époque.

Les sujets ne portaient pas tant sur la manière de stocker et présenter des volumes importants de données. En effet, un certain nombre de technologies sont déjà émergentes et commencent à rentrer dans les stacks technologiques que l’on rencontre au sein de l’entreprise (Hadoop, MongoDB, olap, …).

Pour moi ces présentations tournaient surtout autour de l’étape suivante : Comment peut-on donner du sens à tout ce volume d’informations ? Comment peut-on les intégrer en temps réel, indépendamment de leur structure afin de les croiser et recouper plus facilement pour en sortir du sens/intelligence utilisable ?

 

Quelques keywords revenant au fil de ces présentations

  • Sémantiques, ontologies, Taxonomies
  • Linked big data / big linked data
  • Passage de schémas prévisionnels à prédictifs
  • Machine learning
  • Données hétérogènes (structurées, semi structurées et non structurées), données statiques vs données dynamiques
  • Streams de données
  • Open data

 

Quelques acronymes

  • DBMS : database management system
  • DSMS : data stream management system
  • VLDB : Very Large Database (stack intégrées des constructeurs comme Exadata d’Oracle)

 

Les quelques éléments qui m’ont semblé intéressants :

L’évolution nous amène de rapports statiques (mode batch) vers de l’analyse temps réel où les données sont intégrées, traitées et visualisables peu de temps après leur production (facteur vélocité du système).

Les sources de données sont de plus en plus nombreuses (mobiles, support GPS, Réseaux sociaux, forums, …), formants des ensembles de plus en plus hétérogènes. La sémantique et ses applications permettent de créer du lien entre les données produites par ces sources variées.

Importance des meta data venant décorer les données permettant d’appuyer des couches de traitements. Des standards existent déjà (par exemple RDF : Resource Description Framework) et permettent de passer d’une donnée non structurée à une donnée structurée facilitant son intégration et permettant de lier des ensembles d’informations.

Les champs d’applications pour les entreprises comme pour les administrations sont vastes. La combinaison de NLP (Natural Language Processing) et d’outils statistiques permettent de tirer du sens de ces flux d’informations fournis via réseaux sociaux, forums, …

  • Sentiment analysis
  • Opinion mining
  • Étude influence et réputation
  • Étude des thèmes de discussion liant des entités
  • Connaissance clients
  • Analyse temps réel de systèmes complexes (exemple train : capteurs sonores, capteurs températures, capteurs visuels, information météo, …)

 

Case Based Reasoning pour faire du diagnostic intelligent :

  • Reproduire ce qui marche
  • Éviter ce qui ne marche pas
  • Boucle de rétroaction permettant d’enrichir en permanence le système

 

Nécessite de mesurer les similarités, déterminer la quantité d’information nécessaire à la description (entropie de shannon), raisonnement par induction, sémantique.

 

Exemple d’application entreprise :

  • Service SAV de Darty
  • Bureau des brevets européens : pour la recherche de brevets déjà existant
  • Génération de documentation pour Airbus pour éviter la redondance d’information dans la documentation

 

Du fait de la diminution du coup hardware le InMemory a un potentiel disruptif pour les nouvelles technologies.

 

Nouveaux champs pour les BigData

: les équipes de dynamic pricing pour les sites eCommerce. Comme Établir un prix temps réel en fonction d’un nombre important et varié d’informations (stock, prix à la concurrence, historique de navigation, …).

 

Orientation vers des systèmes traitant des flux d’information

: DSMS (Data Stream Management System). Pas encore de standard en place mais un existant et une volonté d’établir un standard : RDF Stream

  • www.w3.org/community/rsp/
  • SPARQLStream, C-SPARQL, EP-SPARQL
  • RDF Stream : un RDF avec ajout d’une information temporelle (un tag ou un intervalle)
  • Benchmark existant : LSBench, SRBench

 

Data Stream présente encore des champs de recherche :

  • Définition de la complétude
  • Étude du bruit au sein de ces flux
  • Load shedding
  • Les approximations

 

Problématiques BigData chez EDF :

  • Augmentation du nombre de métriques collectés, par exemple avec les nouveaux compteurs EDF qui représenteraient un volume 100 To de données collectées à la cible
  • Analyse de ces données pour en tirer du sens, par exemple analyse de pattern sur les courbes de consommation

 

Pour ces champs d’application quelques benchmarks ont été réalisés :

  • VLDB
  • Hadoop

Sur ces études Hadoop ne sort pas vainqueur mais reste une brique applicative au potentiel intéressant pour un certain nombre de fonctionnalités

 

Stack technologique pour l’analyse de pattern sur les courbes :

  • Storm (storm-project.net/)
  • R Language (www.r-project.org/)
  • Hadoop (hadoop.apache.org/)

 

S.N. – Consultant Novencia

 

En réagissant à cet article, vous nous permettez d'affiner les contenus que nous publions ici !

  • Awesome (0)
  • Interesting (0)
  • Useful (0)
  • Boring (0)
  • Sucks (0)

Si cet article vous a plu, n’hésitez pas à le partager via