Data Lab’

Le programme d'analyse de données en grand nombre

 

 

 

 

Data Lab’ est notre programme d’analyse de données en grand nombre. Il repose sur la maîtrise des technologies de Traitement Automatique des Langues (TAL) combinée à notre connaissance du contexte spécifique du champ social des usages numériques de la famille

Il a pour but de comprendre le vécu des parents et des enfants dans l’espace numérique grâce à l’intelligence artificielle.

Nous collectons et analysons les grands volumes de données disponibles pour en extraire de l’information sur les usages, les attentes, les besoins des parents et des enfants.

Applications possibles

Concrètement, le programme Data Lab’ d’écoute et d’analyse des opinions et sentiments des parents et des enfants débouche sur un éventail large d’applications possibles comme :

  • Participer à l’amélioration de produits et services existants (par exemple, l’analyse en masse des verbatims anonymisés d’une ligne téléphonique dédiée à l’écoute parentale ou à l’écoute des jeunes victimes de harcèlement permettrait d’encapaciter les écoutants dans leur prise en charge ; autre exemple : ​​apporter un soutien aux éditeurs de solutions applicatives de contrôle parental).
  • Initier la création de nouveaux produits et services adaptés à de nouveaux usages induits par la révolution numérique (par exemple, veiller à la protection de l’enfance eu égard à l’usage des assistants vocaux ou de nouveaux jouets connectés)
  • Identifier de nouvelles tendances d’usages numériques au sein des familles
  • Anticiper de nouveaux risques ou de nouvelles opportunités dans les domaines de la santé, de l’éducation et de la protection de l’enfance

MODÉLISATION ET ONTOLOGIES

Data Lab’ s’appuie sur notre modélisation qui prend en considération la singularité de l’enfant, son environnement (contexte externe), la nature de son engagement dans les nouvelles technologies et son niveau d’exposition.

Toutes nos ontologies de recherche sont irriguées par ce modèle.

L’ontologie est un terme consacré en science du vivant pour décrire le monde tel qu’il est. Nos ontologies servent à catégoriser et hiérarchiser les sujets qui couvrent toute la problématique de la protection et de l’éducation de l’enfance dans l’espace numérique et des actions parentales. Elles font l’objet d’un processus dynamique. En effet, la production d’informations grâce à l’analyse en grand nombre dans un domaine donné accroît la connaissance au niveau global : les ontologies s’enrichissent et se relient de manière plus pertinente, la modélisation s’affine.

approche

Notre programme Data Lab’ propose un ensemble de processus permettant une analyse à trois niveaux des gisements de données :

  • L’analyse statistique permet de disposer d’une cartographie dans l’espace et dans le temps des principales variables.
  • L’extraction de thèmes (méthodes dites non-supervisées) est très utile pour découvrir dans un nouvel ensemble de données le poids relatif des thèmes évoqués, les sous-thèmes qui les composent ainsi que leur évolution dans le temps.
  • La classification automatique « multi-labels » (méthode dite « supervisée ») permet de prédire – c’est-à-dire d’identifier – la présence de thèmes au sein d’un texte voire d’un ensemble de textes. Elle repose sur la combinaison de notre expertise métier et de l’état de l’art des modèles. Or l’expertise métier se construit au travers des étapes précédentes (modélisation, ontologies, analyses statistiques et extractions de thèmes). Les applications de la classification automatique sont nombreuses et très riches. Elles permettent notamment de traiter, classer, avec précision et rapidité un très grand volume de données. L’efficacité des méthodes supervisées de classification est fortement dépendante de la phase d’entraînement des algorithmes qui ont besoin d’une grande quantité de données, mais surtout de données étiquetées (labellisées) dans les champs sémantiques étudiés. Au Data Lab’, nous avons obtenu des performances à l’état de l’art grâce au développement d’un processus de labellisation semi-automatique des données d’entraînement, irrigué par un ensemble de dictionnaires thématiques spécifiquement élaborés.

Programmes du Data Lab’ 

Data Lab' 1

  Période : 2019 – 2021

  Périmètre : Applications mobiles de contrôle parental

  Modalités : Analyses des avis laissés dans les app stores

DiPaF

  Période : En cours

  Périmètre : Nouveaux axes de recherche 2022 -2027

  Modalités : Application QualiQuan