Data & IA

Conférence Big Data – Jeudi 16 janvier

Publié le 24/01/2014
5 mins de lecture

Conférence Big Data – Jeudi 16 janvier

A l’issu de la demi-journée sur la thématique BigData qui s’est déroulé Jeudi dernier (16 janvier 2014) voici mon feedback de l’évènement.

Les organisateurs :

L’école ISEP (Équipe RDI)
L’école Centrale Paris (Chaire Business Intelligence, Laboratoire MAS)
La société Kiolis

Le programme : 5 présentations mêlant domaine de la recherche et monde de l’entreprise

De la business Intelligence au BigData (École Centrale Paris)
Case Based Reasoning et BigData pour l’aide au diagnostic (Kiolis)
In Memory analytics, le cœur des nouvelles applications métier (QuartetFS)
Aperçu des technologies autour des flux de données sémantiques (ISEP)
Les enjeux du BigData pour la mise en place des smart grids (EDF R&D)

De manière générale l’évènement a rencontré un franc succès (la salle était pleine, 100 à 150 personnes présentes), les présentations intéressantes donnent à penser que l’on va de nouveau changer d’époque.

Les sujets ne portaient pas tant sur la manière de stocker et présenter des volumes importants de données. En effet, un certain nombre de technologies sont déjà émergentes et commencent à rentrer dans les stacks technologiques que l’on rencontre au sein de l’entreprise (Hadoop, MongoDB, olap, …).

Pour moi ces présentations tournaient surtout autour de l’étape suivante : Comment peut-on donner du sens à tout ce volume d’informations ? Comment peut-on les intégrer en temps réel, indépendamment de leur structure afin de les croiser et recouper plus facilement pour en sortir du sens/intelligence utilisable ?

Quelques keywords revenant au fil de ces présentations

Sémantiques, ontologies, Taxonomies
Linked big data / big linked data
Passage de schémas prévisionnels à prédictifs
Machine learning
Données hétérogènes (structurées, semi structurées et non structurées), données statiques vs données dynamiques
Streams de données
Open data

Quelques acronymes

DBMS : database management system
DSMS : data stream management system
VLDB : Very Large Database (stack intégrées des constructeurs comme Exadata d’Oracle)

Les quelques éléments qui m’ont semblé intéressants :

L’évolution nous amène de rapports statiques (mode batch) vers de l’analyse temps réel où les données sont intégrées, traitées et visualisables peu de temps après leur production (facteur vélocité du système).

Les sources de données sont de plus en plus nombreuses (mobiles, support GPS, Réseaux sociaux, forums, …), formants des ensembles de plus en plus hétérogènes. La sémantique et ses applications permettent de créer du lien entre les données produites par ces sources variées.

Importance des meta data venant décorer les données permettant d’appuyer des couches de traitements. Des standards existent déjà (par exemple RDF : Resource Description Framework) et permettent de passer d’une donnée non structurée à une donnée structurée facilitant son intégration et permettant de lier des ensembles d’informations.

Les champs d’applications pour les entreprises comme pour les administrations sont vastes. La combinaison de NLP (Natural Language Processing) et d’outils statistiques permettent de tirer du sens de ces flux d’informations fournis via réseaux sociaux, forums, …

Sentiment analysis
Opinion mining
Étude influence et réputation
Étude des thèmes de discussion liant des entités
Connaissance clients
Analyse temps réel de systèmes complexes (exemple train : capteurs sonores, capteurs températures, capteurs visuels, information météo, …)

Case Based Reasoning pour faire du diagnostic intelligent :

Reproduire ce qui marche
Éviter ce qui ne marche pas
Boucle de rétroaction permettant d’enrichir en permanence le système

Nécessite de mesurer les similarités, déterminer la quantité d’information nécessaire à la description (entropie de shannon), raisonnement par induction, sémantique.

Exemple d’application entreprise :

Service SAV de Darty
Bureau des brevets européens : pour la recherche de brevets déjà existant
Génération de documentation pour Airbus pour éviter la redondance d’information dans la documentation

Du fait de la diminution du coup hardware le InMemory a un potentiel disruptif pour les nouvelles technologies.

Nouveaux champs pour les BigData

: les équipes de dynamic pricing pour les sites eCommerce. Comme Établir un prix temps réel en fonction d’un nombre important et varié d’informations (stock, prix à la concurrence, historique de navigation, …).

Orientation vers des systèmes traitant des flux d’information

: DSMS (Data Stream Management System). Pas encore de standard en place mais un existant et une volonté d’établir un standard : RDF Stream

www.w3.org/community/rsp/
SPARQLStream, C-SPARQL, EP-SPARQL
RDF Stream : un RDF avec ajout d’une information temporelle (un tag ou un intervalle)
Benchmark existant : LSBench, SRBench

Data Stream présente encore des champs de recherche :

Définition de la complétude
Étude du bruit au sein de ces flux
Load shedding
Les approximations

Problématiques BigData chez EDF :

Augmentation du nombre de métriques collectés, par exemple avec les nouveaux compteurs EDF qui représenteraient un volume 100 To de données collectées à la cible
Analyse de ces données pour en tirer du sens, par exemple analyse de pattern sur les courbes de consommation

Pour ces champs d’application quelques benchmarks ont été réalisés :

VLDB
Hadoop

Sur ces études Hadoop ne sort pas vainqueur mais reste une brique applicative au potentiel intéressant pour un certain nombre de fonctionnalités

Stack technologique pour l’analyse de pattern sur les courbes :

Storm (storm-project.net/)
R Language (www.r-project.org/)
Hadoop (hadoop.apache.org/)

S.N. – Consultant Novencia

En réagissant à cet article, vous nous permettez d'affiner les contenus que nous publions ici !

Awesome (0)
Interesting (0)
Useful (0)
Boring (0)
Sucks (0)

Si cet article vous a plu, n’hésitez pas à le partager via

Ces articles peuvent également vous intéresser

Data & IA

Conférence Big Data – Jeudi 16 janvier