Notre boite noire, l'analyse augmentée des données

La smart data ou l'exploitation intelligente des données est au cœur de l'évolution de notre métier. L'augmentation exponentielle des données et la multiplicité des sources d'informations disponibles nécessitent de recourir à des techniques d'intelligence artificielle pour faire le tri au sein de la masse de données non structurées ou issues du Big Data, pour ne retenir que celles qui sont pertinentes dans un objectif précis.

Il s’agit ainsi :

  • d’améliorer la qualité des données par des traitements automatiques ;
  • de vérifier et recouper les informations disponibles en les comparant notamment avec les données ouvertes ;
  • de découvrir de nouvelles informations pertinentes au sein des données ;
  • de créer des modèles prédictifs pour mieux anticiper ou enrichir automatiquement les données ;

Même si elles sont complexes, ces technologies permettent in-fine d’offrir à l’utilisateur final des outils simples. Il peut ainsi gagner en efficacité dans son travail quotidien, analyser une situation ou augmenter son champ de vision : exploration interactive des données, recherche d’informations pertinentes, alertes automatiques, analyses et visualisations synthétiques, indicateurs temps réels, prédictions.

Chez Jurismarchés, cette analyse est au service de la détection des opportunités d’affaires et de l’exploration de l’environnement économique, avec J360. Elle peut également être au service des collectivités et citoyens, comme avec CityZenMap. L’analyse augmentée (augmented analytics) repose sur les technologies du Machine Learning et du traitement naturel du langage pour automatiser la préparation de données, la découverte et le partage d’insights. Son principal avantage est de permettre aux analystes de données de gagner beaucoup de temps (voir la synthèse du rapport Gartner « Augmented Analytics Is the Future of Data and Analytics » , publié le 27 Juillet 2017

Les analyses, qui consomment d’ordinaire beaucoup de temps et de ressources, peuvent être fortement simplifiées et accélérées grâce à cette technologie.

Machine Learning, Data mining, traitement du langage naturel, sont au cœur du produit J360

En route pour un tour rapide des technologies de notre "boîte noire" :

Notre matière première est la donnée. Elle va être moissonnée par des robots (web scraping), téléchargée à partir de sources open data , requêtées à partir du web sémantique ou de corpus de références, ou obtenues par production participative (crowdsourcing).

Nous utilisons ElasticSearch pour chercher et analyser, nos propres outils d'« analyse intelligente » des données issus de techniques de Machine Learning et du traitement automatique du langage (NLP). Pour les connaisseurs, voici quelques-uns de nos secrets :

  • analyse des principaux composants (PCA)
  • partitionnement automatique (Data clustering)
  • forêts d’arbres décisionnels (random forests)
  • champs aléatoires décisionnels (CRF) et surtout réseaux de neurones sous de multiples formes (perceptrons multi couches (MLP), réseaux de convolution, auto-encodeurs, réseaux récurrents…)

Une boite à outil très complète et en constante évolution qui ouvre de multiples possibilités sur un jeu de données, qu’il soit structuré ou non :

  • association automatique des données (similarité, recommandation) ;
  • extraction d’informations textuelles sous forme structurée (localisation, données quantitatives, qualifications catégorielles, suppression du bruit) ;
  • catégorisation automatique des données, suivant des axes multiples ;

Tous ces outils, combinés à la puissance de calcul des serveurs actuels et à notre expertise, nous permettent de proposer un service qui augmente la compétitivité de nos utilisateurs.