|
Michèle Sebag
Responsable de l'Equipe Inférence
et Apprentissage - Laboratoire
de Recherche en Informatique de l'Université
de Paris-Sud
Chargée
de recherche au Centre National
de la Recherche Scientifique (CNRS),
Michèle Sebag est responsable
de l'Equipe Inférence et
Apprentissage, au Laboratoire
de Recherche en Informatique de
l'Université de Paris-Sud.
Membre correspondant de l'Equipe
Evolution Artificielle et Apprentissage,
Centre de Mathématiques
Appliquées de l'Ecole Polytechnique,
elle est également correspondante
de "OR Problèmes Inverses
et Optimisation", Laboratoire
de Mécanique des Solides
de l'Ecole Polytechnique. Membre
du bureau de l'Association française
d'Intelligence Artificielle (AFIA),
Michèle Sebag assure de
nombreuses autres tâches
d'animation et de publication.
|
 |
Des
recherches essentielles à la
démocratisation de la bonne
gouvernance au 21e siècle
On sait combien les décideurs,
qu'ils soient politiques, économiques
ou syndicaux, manquent de moyens pour
obtenir dans l'océan de plus
en plus débordant des informations
disponibles, sur le web ou dans les
bases de données, les éléments
qui leur seraient nécessaires
pour prendre de meilleures décisions.
Le problème est encore plus
grave concernant les électeurs
et citoyens, ballottés entre
experts, hommes des médias
ou agents de désinformation.
Dans ce même numéro de
notre revue, nous voyons que Bruno
Latour, philosophe et sociologue des
sciences, appelle pourtant chacun
de ceux qui sont intéressés
par une question scientifique, technique
ou politique, humains et "non-humains",
selon son expression, c'est-à-dire
intérêts divers, à
se confronter autour de tables de
discussion. Pour cela, la bonne volonté
ne suffit pas. Il faut des outils,
faisant appel à l'intelligence
artificielle en réseau. Nous
avons souhaité faire le point
des perspectives de ce domaine de
recherches et d'applications en interrogeant
Michèle Sebag, l'un(e) des
meilleur(e)s scientifiques françaises
travaillant sur ces questions. Celle-ci
nous a reçus à Orsay.
Automates-Intelligents
(AI) : Michèle Sebag,
pouvez-vous, pour nos lecteurs, rappeler
votre cursus universitaire?
Michèle
Sebag (MS) : J'ai commencé
par faire des mathématiques
à l'Ecole Normale Supérieure
de Jeunes Filles de Sèvres
(l'Ecole Normale Supérieure
n'était pas mixte en ces temps
anciens). Ensuite, je suis allée
dans l'industrie (Thomson-CSF) par
curiosité et pour rencontrer
des problèmes pratiques. J'ai
appris l'informatique en commençant
par Fortran, et puis je me suis intéressée
à l'intelligence artificielle
(IA) et je suis devenue ingénieur-conseil.
AI
: Passer des maths à
l'informatique n'était pas
très courant à l'époque
MS :
Ce qui m'intéressait essentiellement,
et m'intéresse toujours, c'est
de résoudre des problèmes.
Toutes les voies sont bonnes pour
trouver une solution ; les maths,
bien sûr, mais pas seulement
: l'histoire, la biologie sont d'autres
voies / modèles / inspirations,
utilisables pour résoudre des
problèmes.
Une étape importante consiste
à analyser les premières
solutions trouvées ; comme
aux échecs, une fois qu'on
a trouvé un bon coup à
jouer, il faut voir s'il n'en existe
pas de meilleurs.
Cette démarche est en particulier
celle de l'intelligence artificielle.
J'ai appris l'IA avec Jean-Louis Laurière.
Celui-ci était professeur à
Paris 6 et enseignait dans le premier
DEA en IA, que j'ai suivi. L'IA m'a
séduite car c'était
une discipline qui faisait autant
appel aux sciences qu'aux lettres.
Ne plus souffrir du divorce entre
les deux disciplines était
tout à fait réconfortant.
AI : Quels étaient les
thèmes enseignés dans
ce DEA ?
MS :
Ils intéressaient globalement
la résolution de problèmes.
Jean-Louis Laurière jetait
les bases de ce qui allait devenir
la programmation par contraintes.
Il y avait le déclaratif et
le procédural, le caractère
primordial de la représentation
d'un problème, l'intérêt
porté au parcours dans l'espace
de recherche, etc.
A l'époque je n'étais
pas dans le monde universitaire. Comme
ingénieur-conseil pour Thomson,
j'ai commencé à faire
de la prospective concernant les applications
de l'IA qui pouvaient les intéresser.
Ils avaient par exemple à résoudre
des problèmes de placement
automatique de composants sur des
cartes de circuits imprimés,
des problèmes de filtrage
Partout,
de nouvelles méthodes de résolution
de problèmes s'imposaient.
AI
: Ceci se situe à quelle
époque ?
MS : Vers 1985. A cette date,
j'ai rencontré Joseph Zarka,
directeur de recherche au CNRS en
mécanique à l'Ecole
Polytechnique, qui s'intéressait
au problème suivant : il avait
une bibliothèque d'algorithmes
et voulait construire une sur-couche
qui, en fonction d'un problème
donné, aurait pu choisir automatiquement
l'algorithme le plus adapté
et son paramétrage. Ceci correspondait
parfaitement aux spécifications
d'un système-expert. Mais le
hic était que les environnements
de calcul bougent trop vite pour qu'on
ait le temps d'avoir une expertise
bien solide, sans parler du temps
de la transmettre. On débouchait
sur la problématique suivante
: puisqu'on n'avait pas les connaissances,
il fallait les extraire et pour les
extraire, il y avait quelque chose
qui coûtait bien moins cher
que les règles, c'étaient
les exemples. Ceci nous faisait déboucher
sur l'apprentissage artificiel, à
partir d'exemples.
Vous savez que l'IA s'est d'abord
intéressée aux problèmes
d'inférence, ce qui coïncidait
avec l'ambition de réaliser
un Général Problem Solver.
Puis, à partir du rapport Dreyfus,
les gens ont commencé à
réaliser que ce qui différencie
un novice et un expert, ce n'est pas
la capacité de raisonner -
les deux cerveaux marchent bien -
c'est que l'un a des connaissances
et pas l'autre. D'où les systèmes-experts,
qui ont représenté la
réaction de l'IA à ces
critiques.
AI
: Les systèmes-experts
eux-mêmes ont beaucoup déçu
MS : Oui,
notamment en France. Une des raisons
en est qu'on s'est attaqué
d'emblée à la reproduction
de l'expertise des plus experts -
sans réaliser que tout humain
accomplissant une tâche est
un expert, comparé à
la machine.
Ceci dit, en effet, les premières
réalisations à grande
échelle de systèmes-experts
ont fait apparaître une chose
plus profonde, tenant à la
loi des rendements décroissants
: la recherche des connaissances nécessaires
pour des problèmes de plus
en plus complexes coûtait de
plus en plus cher. En bref, les connaissances,
on ne les avait pas. Ce que l'on avait,
c'était les exemples.
Un nouveau champ d'études,
qui s'est révélé
très puissant, est apparu :
l'apprentissage automatique a pour
but d'extraire à partir des
exemples les connaissances qui permettront
le raisonnement, la déduction,
la prise de décisions.
AI
: Dans ce cas, l'utilisateur
accède au système par
l'exemple
il faut trouver l'exemple
correspondant au problème que
l'on se pose
MS : Non, pas tout à
fait. Ce que vous décrivez
là correspond à la façon
dont un médecin réalise
un diagnostic. Il dispose dans sa
tête d'une base de cas, il met
en uvre une fonction de comparaison
ou similarité qui lui permet
de dire : le cas proche de ce que
je cherche est celui-là.
Enfin il met en uvre une fonction
d'adaptation, à partir de ce
cas, qui lui permet de résoudre
le problème précis que
lui pose le patient. C'est une des
méthodes courantes de résolution
de problèmes, appelée
raisonnement à partir de Cas.
L'apprentissage est un peu différent.
A partir d'une base de cas, comme
précédemment, on cherche
à trouver des règles
qui généralisent les
cas. Ce processus de généralisation,
aussi appelé induction, permet
de détecter et de caractériser
des régularités dans
les données. Par exemple, dans
le cas d'un process industriel, on
peut apprendre que si l'acidité
est trop élevée (ph
< 7.1) et qu'il fait trop chaud
(température > 21.5), le
processus produit un rebut de type
A.
Une base de règles permet de
traiter de nouveaux cas. Un autre
intérêt de la démarche
est qu'elle procure à l'expert
une vue intelligible, vue en miroir
du processus qu'il observe. Un point
clé de l'apprentissage automatique
est de donner à l'expert une
interprétation des données.
AI
: La base de cas, je suppose,
se constitue à partir des besoins
de la demande. Il n'y a pas de cas
définis a priori ?
MS : Oui, en effet. Dans les
débuts de l'apprentissage,
la question de savoir comment constituer
la base de cas et comment le décrire
s'inspirait de ce qui se faisait déjà
en analyse de données.
Mais depuis quelques années,
1998 en fait, d'autres approches appelées
"apprentissage actif" sont
proposées. L'idée est
de chercher à chaque pas les
exemples les plus informatifs compte-tenu
des connaissances qui ont déjà
été acquises. L'apprentissage
actif alterne ainsi la recherche des
bons exemples, et celles des bonnes
règles.
AI
: Problème de l'apprentissage,
sur lequel vous vous êtes concentrée
lors de votre thèse...
MS :
Oui. Cette thèse m'a permis
de rentrer au CNRS.
AI
: Et ensuite ?
MS :
Une fois que l'on a résolu
le problème d'apprentissage
d'un expert, par exemple en trouvant
les règles permettant de prédire
les défauts, l'expert revient
souvent avec un nouveau problème,
qui consiste à minimiser le
taux de défauts. On passe ainsi
d'une problématique d'apprentissage
à une problématique
d'optimisation. Il y a mille façons
de faire de l'optimisation. Je me
suis moi-même dirigée
vers les méthodes d'optimisation
stochastiques, plus particulièrement
vers les méthodes de type "algorithmes
génétiques" dont
Marc Schonauer(2) et Pierre Collet(3)
vous ont longuement parlé.
Nos profils professionnels sont d'ailleurs
proches.
AI
: Dans votre domaine, où
avez-vous utilisé les algorithmes
génétiques
MS :
Par exemple pour la conception de
formes optimales, l'identification
de modèles, etc.
Prenons par exemple le cas d'un nouveau
matériau de construction qui
apparaît.
On a besoin de connaître la
loi de comportement de ce matériau
pour pouvoir construire des bâtiments
suffisamment solides. Le problème
direct consiste à déterminer
comment le bâtiment réagira
(en cas de choc sismique) quand on
connait la loi de comportement du
matériau.
Mais le problème inverse, celui
que nous devons résoudre, consiste
à trouver la loi du matériau
sachant comment celui-ci réagit
à des stimuli. Plus généralement,
on a le phénomène physique.
On lui fournit des conditions initiales,
on observe ce qui se passe et on recherche
le modèle.
Les problèmes d'optimisation
rencontrés à l'occasion
de l'apprentissage sont en général
mal posés (i.e. ils ne vérifient
pas les bonnes conditions, différentiabilité,
convexité... qui permettent
d'utiliser des méthodes mathématiques
classiques). Dans de tels contextes,
les algorithmes génétiques
offrent des solutions gourmandes en
temps calcul, mais de bonne qualité.
Je me suis plus particulièrement
intéressée à
la programmation génétique,
qui étend les algorithmes génétiques
dans des espaces plus complexes. L'intérêt
de ces espaces plus complexes, c'est
que l'on peut plus facilement prendre
en compte des connaissances du domaine.
Or les connaissances du domaine permettent
à l'algorithme de chercher
dans un espace de solutions très
vaste, et pourtant de ne pas se perdre
: l'expert indique, comme il peut,
la "région" où
se trouvent les bonnes solutions.
La programmation génétique
permet ainsi de s'attaquer à
des problèmes hors d'atteinte
des approches traditionnelles, en
restreignant pour rester maniable
l'exploration à un espace de
taille raisonnable.
La
fouille de données (Data Mining)
AI
: Où en êtes-vous
maintenant ? Quelles sont les grandes
activités de l'Equipe Inférence
et Apprentissage que vous dirigez
?
MS :
Notre premier thème est la
fouille de données (Data mining)
et l'extraction de connaissances à
partir de bases de données.
Ce domaine est considéré
par le MIT Technology Review comme
l'un des dix grands enjeux du siècle
qui commence : l'enjeu est de savoir
extraire à partir des grandes
bases de données médicales,
hospitalières, météorologiques,
scientifiques, bancaires, marchandes,
etc, les connaissances dont nous avons
besoin.
Concrètement, la démarche
consiste à rassembler, sélectionner,
nettoyer, les données d'une
base sous forme d'un entrepôt
de données. A partir de ces
données, on va essayer de constituer
des modèles et les présenter
aux experts afin de les évaluer
et les approfondir, en dialoguant
avec ces experts.
La denrée la plus recherchée
aujourd'hui sont les connaissances
- l'or gris. Or, un des paradoxes
de notre époque est d'offrir
des expertises de plus en plus spécialisées,
mais peu de vue d'ensemble. Considérez
l'ensemble des compétences
nécessaires pour concevoir
un hôpital ; combien d'années
d'étude faudrait-il pour s'y
connaître en médecine,
en biologie, en organisation, en informatique,
en transport...
L'idée centrale de la fouille
de données, c'est que les connaissances
sont présentes à l'état
de trace dans les données.
Distiller les données permet
idéalement de retrouver les
lois physiques (données météorologiques),
individuelles (données médicales,
assurances), ou sociales (données
de consommation) des phénomèes
étudiés.
En résumé l'objectif
de la fouille de données est
de fournir aux experts les connaissances
utiles et valides cachées dans
les données. Le web, par exemple,
est un énorme fourre-tout de
connaissances. Mais chacune de ces
connaissances est inassimilable ou
introuvable à moins de connaître
déjà 99% de ce que l'on
cherche. La fouille de données,
qui veut remédier à
cette difficulté majeure, repose
sur une recherche pluri-disciplinaire,
mettant en jeu les bases de données,
les statistiques permettant d'identifier
certaines régularités
des données, l'intelligence
artificielle pour prendre en compte
les connaissances du domaine disponibles,
l'apprentissage pour extraire de nouvelles
connaissances, les interfaces hommes-machines
pour communiquer autour de ces connaissances
et dialoguer...
Il faut abandonner en effet la pensée
que le but est d'apporter "la
solution finale" à la
question de l'utilisateur - ceci ne
serait possible que si l'on limitait
sévèrement les questions
posables.
Si l'on veut considérer des
questions ouvertes, le dialogue entre
l'homme et la machine est absolument
nécessaire ; l'objectif de
la machine devient ainsi d'apporter
des éléments de réponse
qui permettent la poursuite du dialogue
vers la résolution.
AI : Certes. Mais la démarche,
aujourd'hui, n'intéresse que
la formation des experts, disons des
experts professionnels : comment s'assurer
que ces experts, consultés
par les pouvoirs économiques
ou politiques, disposent des bonnes
connaissances, cachées dans
les bases de données. Résoudre
ce problème sera certes un
grand progrès. Il faudrait
pourtant que les citoyens, ou les
organisations qui les représentent,
disposent des mêmes outils pour
ne pas rester impuissants dans les
combats entre experts.
MS :
Effectivement, vous posez là
un problème de société.
Je vois deux niveaux : quelles sont
les questions qui peuvent être
posées et qui peut les poser.
La ligne d'horizon de notre discipline
est évidemment que toutes les
questions soient posables (des questions
ouvertes) et que tous puissent les
poser. Idéalement.
Dans la pratique, c'est beaucoup plus
difficile. Une étape préalable,
qui est loin d'être résolue,
consisterait déjà à
savoir dire : il n'y a pas de réponse
- il n'y a pas d'information dans
ces données.
AI
: Cela est très important.
Pour parler simple, cela permet d'ouvrir
le débat démocratique
: ne pas obtenir des réponses
déjà conditionnées
par la question. Il faut pouvoir poser
des questions "irrelevant"
(irrecevables) ou "anarchiques",
comme disait Paul Feyerabend. Comment
faire cela ?
MS :
Il y a plusieurs méthodes.
Prenons la recherche de textes (la
fouille de textes est un domaine très
voisin et très différent
de la fouille de données) indexés
par des mots-clefs. Ceux-ci vous enferment
dans une voie de recherche définie
à l'avance, qui n'est pas nécessairement
celle que vous voudriez explorer.
Pour y échapper, on peut identifier
les textes par les usages qui en ont
été faits : tel utilisateur
s'est intéressé à
tel et tel documents
on pourra
ainsi trouver les documents les plus
pertinents à l'objet de telle
recherche.
AI
: C'est ce que font les libraires
en ligne : " Cher M. X. vous
serez heureux d'apprendre que les
acheteurs du livre qui vous intéresse
ont aussi acheté tels ou tels
autres ouvrages".
MS : Oui.
C'est ce que l'on appelle le filtrage
collaboratif ("collaborative
filtering").
L'autre solution, connue depuis longtemps,
est la recherche en texte intégral.
Mais elle pose aussi beaucoup de problèmes.
L'un de ceux-ci est celui des co-références,
que l'on connaît bien en linguistique
automatique : "Le chien a mordu
le facteur. Il est emmené chez
le vétérinaire".
Qui est "il" ?
AI
: Quels sont pour votre laboratoire
les différents contextes de
la fouille de données ?
MS :
Nous identifions trois grands domaines
qui présentent des difficultés
différentes.
Le premier est celui des problèmes
industriels et scientifiques. Pour
les industriels il faut optimiser
les coûts. Pour les scientifiques,
il faut simplifier la recherche dans
les données intermédiaires.
Je pense par exemple à un projet
phare, qui s'appelle Ski Cat, qui
a été réalisé
par Fayyad en 1996 à Caltech(4).
Il s'agissait de permettre à
un laboratoire d'astronomie de trouver
le bon endroit où découvrir
des étoiles nouvelles dans
un espace monstrueusement encombré.
Un moteur d'apprentissage formé
à partir d'imagettes fournies
par des experts a permis d'augmenter
par nuit d'observation d'un facteur
40 le nombre d'étoiles découvertes.
Le second domaine est lié aux
données institutionnelles,
hôpitaux, banques, assurances.
Là commencent les questions
éthiques, et les données
sont confidentielles. Considérons
par exemple le fait suivant : aux
Etats-Unis, 13% de gens consomment
50% des ressources hospitalières.
Pourquoi ? Que se passe-t-il ? Pour
comprendre, il faut savoir qui sont
ces gens.
Mais avant de chercher à les
connaitre, il faudrait être
sûr de ce qu'on fera quand on
les connaitra.
En effet, la connaissance n'est pas
réversible : on ne peut plus
prétendre qu'on ne sait pas.
AI
: Dans ces domaines institutionnels,
que connaît bien notre revue,
il est impératif, au point
de vue de la démocratie dans
les choix scientifiques et techniques,
que non seulement les détenteurs
du pouvoir soient aussi bien informés
que possible, en espérant qu'ils
feront un bon usage de ces informations,
mais aussi, comme je vous le disais
précédemment, que les
opposants ou alternatifs le soient
aussi. Quand on voit par exemple les
débats actuels sur la mondialisation,
l'environnementalisme, le tiers-monde,
on ne peut que regretter l'insuffisance
des données et informations
dont disposent les militants de terrain,
même dans les grandes ONG comme
Greenpeace. Nous pensons que des scientifiques
tels que vous ont comme devoir de
leur dire qu'il existe des outils
dont ils pourraient se servir - en
leur proposant le cas échéant
des formations adéquates
MS :
Je suis pleinement d'accord. Nous
avons commencé à discuter
à ce sujet avec nos collègues
et amis d'autres disciplines, notamment
en écologie et océanologie.
De quoi ont-ils besoin ? Comment sont
leurs données ? Avons-nous
un langage commun ? Qu'est-ce que
valider une hypothèse ? C'est
toujours très long d'établir
une collaboration, on commence par
proposer un stage de DEA à
un étudiant, avec un objectif
à court terme (3 à 6
mois), et si ça marche bien,
et si on trouve une bourse, on peut
embrayer sur une thèse...
Ceci est une offre d'ouverture :-)
Les institutions, associations, etc,
qui auraient des données et
des hypothèses à tester
sur ces données - pouvant déboucher
sur un travail de recherche - peuvent
prendre contact avec l'un des DEA
français en Fouille de Données
(Orsay, Lyon, Nantes - j'en oublie
certainement).
Je pense que travailler sur des problèmes
réels est une chance pour faire
progresser la discipline - et les
étudiants seraient certainement
très intéressés
par le fait de travailler sur des
enjeux de société.
J'en viens au troisième domaine
d'applications pour la fouille de
données, qui est celui de la
gestion de relation avec le consommateur
(Consumer Relationship Management
CRM). Là l'environnement évolue
rapidement, les clients changent très
vite de goûts et de désirs.
Les objectifs concernent la détection
de groupes de consommateurs, leur
caractérisation, leur fidélisation...
AI
: Vous voulez dire que nous
ne sommes pas loin de la mise en condition
des consommateurs par les vendeurs,
ou pire, de celle des citoyens par
les pouvoirs...
MS : Considérez vous
que vous êtes mis en condition
parce que vous faites partie d'un
groupe représentant 10% des
clients, ou faites-vous partie de
ce groupe parce que vous êtes
conditionné ? Non, je ne considère
pas que la fouille de données
soit un instrument de Big Brother...
J'aimerais bien développer
ce point mais pas maintenant.
AI : Terminons par deux mots
sur votre Equipe Inférence
et Apprentissage.
MS :
Vos lecteurs trouveront, dans notre
rapport d'activité en ligne
pour l'année 2001-2002, beaucoup
d'éléments d'information.
Disons seulement ici qu'il s'agit
de la première équipe
créée en France dans
ce domaine de l'apprentissage symbolique,
fondé sur l'inférence
et l'IA. Elle a été
créée par Yves Kodratoff.
Nous avons des étudiants, des
thésards (onze), mais pas de
post-doc cette année.
AI
: Merci de tous ces renseignements.
Nous avons consulté votre rapport
d'activité(5) et nous le trouvons
bien ésotérique pour
tout un chacun. Son intérêt
"politique" risque d'échapper
à pas mal de gens qui n'y verront
certainement là que des raffinements
de scientifiques dont ils auront peu
de choses à tirer. Peut-être
faudrait-il développer tout
cela par des exemples ?
MS :
Merci de cet avis. Vous avez raison,
les chercheurs tendent à communiquer
avec d'autres chercheurs, et il faut
prendre le temps de penser aux autres
concitoyens :
AI
: En ce qui concerne les financements,
vous estimez-vous suffisamment pourvus
?
MS :
Je dirais surtout que ce qui est catastrophique
est la politique des hauts et des
bas.
On ne peut avoir de politique de recherche
sérieuse sans disposer d'une
continuité de financement.
Il est désolant de voir des
étudiants très brillants
que nous ne pouvons pas recruter parce
que nous n'avons pu prévoir
à temps les postes nécessaires.
|