Accueil 5 Recherche & Transferts 5 La datascience est un mélange subtil des savoirs de plusieurs domaines

La datascience est un mélange subtil des savoirs de plusieurs domaines

Les datas sont partout. Nous posons des capteurs sur tout ce qui produit, conditionne, achemine,…
Publié le 29 juin 2015
Partager l'article avec votre réseau

Les datas sont partout. Nous posons des capteurs sur tout ce qui produit, conditionne, achemine, tout ce qui bouge, respire ou se déplace.
La « e-santé » est en pleine expansion, on souhaite utiliser les données fournies par les objets médicaux connectés pour développer de nouvelles pratiques de prévention, d’accompagnement, de soin. On équipe les sportifs de capteurs pour optimiser leurs performances sans trop les user, on les recouvre de « e-textiles » qui mesurent les paramètres biologiques en temps réel, on veut détecter ceux qui trichent en se dopant. Les datas sont partout, massives, véloces et hétérogènes.

Dans cette « révolution » du Big Data, certains scientifiques – je pense notamment aux mathématiciens et aux statisticiens – sont encore en retrait. Ils disposent de la connaissance, de la curiosité, mais tout cela va vite, trop vite, et les choses ne sont pas faites de manière suffisamment cartésienne pour bon nombre d’entre eux. Est-ce à dire que ceux-là risquent de manquer le train lancé à pleine vitesse vers les usages de demain ? Je ne le pense pas.

Des champs de recherche inexplorés
Après l’euphorie aussi grisante que tâtonnante des premiers émois sur ces fameuses données massives, nous voilà en effet entrés dans une nouvelle phase, que je qualifierais de plus… rationnelle. Les acteurs de cet éco-système bouillonnant, ceux qui produisent, collectent ou achètent des datas, cherchent aujourd’hui des solutions scientifiques, raisonnées, structurées. Ils ont en effet compris qu’avec le Big Data, du point de vue purement statistique, le problème n’est pas tant la variance que le biais. Que certaines données, pour faire court, ne contiennent finalement rien d’intéressant ou presque.

De leur côté, une partie des scientifiques a compris qu’il y a dans ce Big Data matière à traiter des problématiques nouvelles, une ressource extraordinaire susceptible d’ouvrir de champs de recherche inexplorés. La contribution des mathématiciens au phénomène Big Data est donc bien évidemment impérative et nécessaire, et ce, à plusieurs niveaux.

Celui de l’acquisition de l’information tout d’abord. Je l’ai souligné, toutes les données ne se valent pas dans le Big Data. Le mathématicien pourra adapter ou créer une nouvelle théorie pour aider les décideurs à repérer l’essentiel dans cet amas en mouvement. On peut penser déjà aux théories sur les grandes matrices, sur les estimations par pénalisation pour sélectionner un petit nombre de variables qui concentrent presque toute l’information utile.

Concernant les applications liées à l’image, à la vidéo, nous savons que le volume des données dépassera toujours les capacités techniques de stockage et que les data centers sont des ogres énergivores dont il faudra bien, à court ou moyen terme, raisonner l’appétit. La compression à l’acquisition devient alors une problématique scientifique fondamentale que les mathématiques permettent de solutionner en caractérisant le nombre minimum de données qu’il est nécessaire de retenir pour reconstruire le signal d’origine sans altération tout en limitant l’impact écologique des infrastructures.

Mathématiciens, statisticiens, économistes, sociologues
Au niveau du traitement et de l’analyse des données enfin. Celles-ci ont souvent une structure de faible dimension. Les mathématiques peuvent aider à identifier cette structure, à la caractériser, à vérifier que c’est bien celle à laquelle on avait pensé initialement. Les mathématiques pourront également dire (et prouver) quand les algorithmes bâtis par d’autres scientifiques vont fonctionner. Cela fait plus d’un demi-siècle que les statisticiens proposent des méthodes récursives pour estimer les paramètres de modèles basées sur une simple mise à jour à chaque fois que de nouvelles données arrivent. Aujourd’hui, on redécouvre ces méthodes et on les applique au contexte du Big Data.

En conclusion, retenons que les mathématiciens, au même titre que les informaticiens, ont toute la légitimité pour répondre aux défis de la datascience. Mais retenons également que d’autres scientifiques, comme les économistes ou les sociologues, ont aussi leur place dans ce formidable challenge. Causalité, endogénéité… sont des concepts parfaitement connus et maîtrisés par les sciences humaines et sociales. La datascience est donc un mélange subtil des savoirs de plusieurs domaines et les meilleures réponses aux défis de demain seront celles qui sauront s’appuyer sur l’ensemble de ces savoirs.

Valentin Patiléa
Professeur des universités
Responsable du Centre de recherche en économie et statistique –Ensai (Crest-Ensai)

A propos de Valentin Patilea

Docteur en statistique diplômé de l’Université catholique de Louvain, Valentin Patilea est Professeur des universités, responsable du Centre de recherche en économie et statistique de l’Ecole nationale de la statistique et de l’analyse de l’information (Ensai) et membre de l’Institut de recherche mathématique de Rennes (Irmar). Ses travaux de recherche portent notamment sur les méthodes statistiques semi et non paramétriques ainsi que sur les méthodes statistiques en économétrie et finance. Il co-dirige par ailleurs le Master international Big Data de l’Ensai.

A propos de l’Ensai

L’Ecole nationale de la statistique et de l’analyse de l’information est la seule grande école d’ingénieurs entièrement dédiée aux métiers de l’ingénierie statistique et du traitement de l’information. L’Ensai donne à ses étudiants des compétences scientifiques à la fois en statistique et en informatique, mais également en économétrie. La double compétence statistique et informatique est particulièrement prisée par les employeurs, permettant à la fois la conception des systèmes d’information jusqu’à l’analyse des données, indispensable à la prise de décision. L’apprentissage académique est harmonieusement associé à la découverte du milieu de l’entreprise au travers de stages et de séminaires professionnels. L’école forme chaque année environ 90 ingénieurs et ouvre un Master international Big Data à la rentrée 2015. Elle forme par ailleurs les attachés statisticiens de l’Insee.
http://www.ensai.fr

Partager l'article avec votre réseau
Loading...