Résumé de thèse

Titre : Sémantique, référence et acquisition automatique de connaissances à partir de textes

Thèse de Doctorat de Sciences du Langage, Université des Sciences Humaines de Strasbourg, soutenue le 28 novembre 1997. Jury : Georges Kleiber (président), François Rousselot (directeur), Monique Slodzian, Anne Condamines, Jean-François Dufourd, Daniel Memmi.

L'acquisition automatique de connaissances à partir de textes consiste, idéalement, à extraire d'un corpus les connaissances qu'il contient, et à les représenter de manière structurée dans une base de connaissances, et cela aussi automatiquement que possible. Cette thèse examine le problème essentiellement d'un point de vue linguistique.

Le premier chapitre est consacré à une étude bibliographique du domaine. Il existe deux grandes familles d'approches : l'extraction automatique de terminologie, et l'acquisition par projection de modèles. Pour la première, il s'agit de repérer dans le texte les syntagmes nominaux susceptibles d'être des termes. On peut regrouper les divers systèmes existants en quatre catégories, selon leurs modes de détection des termes. Une première méthode consiste à relever les cooccurrences de lexèmes statistiquement significatives dans de vastes corpus. Le problème principal est de déterminer le seuil à partir duquel les cooccurrences sont considérées comme significatives. Beaucoup d'auteurs couplent les résultats statistiques avec une méthode syntaxique, qui consiste à ne retenir que les cooccurrences qui appartiennent à des schémas syntaxiques préétablis (par exemple Nom + Adj. comme champ magnétique, ou Nom + de + Nom, comme angor d'effort), ce qui produit de bons résultats, mais présente l'inconvénient de rejeter les façons atypiques dont les termes sont utilisés en discours. Une troisième méthode consiste à repérer les SN, non par leur structure interne mais par leurs bornes, c'est-à-dire par les mots qui ne font pas partie du SN, comme les verbes et certaines prépositions. Elle permet de repérer la quasi-totalité des SN d'un corpus, qu'il s'agit ensuite de filtrer et de structurer. La quatrième méthode est celle des segments répétés, qui consiste à repérer, puis à filtrer et à structurer, des chaînes de caractères répétées dans le corpus, selon le principe qu'un terme du domaine a toutes les chances d'être répété. Beaucoup de ces systèmes parviennent à produire des listes de termes assez pertinentes, mais ils ne fournissent pas de vue structurée du domaine tel qu'il apparaît dans le corpus. Quant à la seconde famille de systèmes, elle consiste à établir un modèle conceptuel du domaine, et à associer des éléments lexicaux à chaque élément du modèle, ce qui permet de le projeter sur le corpus. La difficulté est de déterminer a priori, d'abord un modèle du domaine pertinent, et ensuite les listes de lexèmes associés. Aucun système de ce type n'est fonctionnel à l'heure actuelle en dehors de travaux de laboratoire sur des domaines très restreints.


La plupart de ces systèmes se fondent sur la notion assez intuitive qu'un sens complexe est produit par l'agencement adéquat de sens élémentaires. En conséquence, il s'agit, idéalement, de déterminer des primitives sémantiques et des règles d'agencement. Pour ces sémantiques componentielles, dominantes en Intelligence Artificielle, le sens est entièrement codé, ce qui les amène à construire des univers sémantiques clos bien structurés, mais nécessairement inflationnistes. En effet, tout nouveau texte, tout nouvel usage risquent de présenter un nouveau terme, ou un sens nouveau d'un terme déjà décrit, qu'il faudra alors intégrer, et ainsi de suite. C'est le problème de l'"acquisition bottleneck", ou goulot d'étranglement de l'acquisition de connaissances. L'avantage d'un univers sémantique clos de type IA est qu'il est totalement déterminé par son contenu propre, ce qui autorise des calculs sur les symboles qui le constituent. L'inconvénient est qu'il ne permet pas d'appréhender facilement les connaissances sur les objets dont on parle, car pour pouvoir les traiter, on est obligé de les intégrer au préalable dans l'univers sémantique.

Si le sens n'est ni entièrement componentiel, ni entièrement codé, il se pose la question de la délimitation entre ce qui est codé et ce qui ne l'est pas, et donc le problème de l'interaction entre le signe et son objet, c'est-à-dire, finalement, celui de la référence. Le chapitre deux explore la possibilité de formuler un point de vue sémantique référentiel, plus adapté à l'objectif d'acquisition de connaissances à partir de textes. Il s'appuie sur la sémiotique de Peirce, notamment la notion de lien dynamique entre un signe, l'objet de ce signe et un signe interprétant qui développe un aspect de l'objet dans un autre signe, sur le Wittgenstein des Investigations Philosophiques, et sa notion de construction du sens par l'usage, et sur les travaux de sémantique référentielle de Georges Kleiber.

Les trois derniers chapitres analysent un corpus de textes médicaux à la lumière de ces remarques théoriques, et proposent une méthodologie d'acquisition. Du point de vue de la référence, un texte contient deux types de signes : les dénominations, qui réfèrent de manière opaque et globale à un objet de l'expérience (par exemple angine de poitrine ou angor), et les dénotations, qui réfèrent de manière construite et transparente à certains aspects d'un ou de plusieurs objets de notre expérience (par exemple angine de poitrine instable, ou Une sténose serrée est responsable de l'angor d'effort). D'autres signes servent à mettre les dénominations et/ou les dénotations en relation (par exemple est responsable de). Si la dénomination pointe de manière globale vers un objet de l'expérience, la dénotation permet de construire et d'exprimer des connaissances sur les objets dont on parle : d'une angine de poitrine, on dit qu'elle peut être instable, et de la sténose et de l'angor, qu'ils sont liés par une relation de cause. Une dénotation est construite, composée, motivée, transparente ; une dénomination est préconstruite, arbitraire, opaque.

La méthodologie d'acquisition proposée utilise les résultats de logiciels existants, mais les différents modules qui la composent ne sont pas encore intégrés dans un système d'acquisition global. Elle consiste à repérer les dénominations, ainsi que les dénotations simples (assimilées au SN), et les dénotations complexes (assimilées à la proposition), puis à collecter les signes associés aux dénominations au sein des dénotations, ainsi que les signes relateurs. L'utilisateur est amené à prendre des décisions ou à valider des choix faits par le système. Les résultats sont d'abord reportés sur le corpus sous la forme d'annotations, puis stockés dans des frames, une structure de représentation des connaissances, dont l'ensemble constitue une base de connaissances terminologiques (BCT). Cette BCT doit être considérée comme une étape intermédiaire entre le corpus à l'état brut et une application spécifique, par exemple en modélisation de connaissances, en traduction, ou en terminologie. Elle propose une vue structurée de la terminologie du corpus, qui se construit au fur et à mesure de l'acquisition. Ce modèle n'est cependant pas exhaustif (un corpus ne rend pas compte de la totalité d'un domaine), ni même forcément cohérent (les différents auteurs du corpus peuvent ne pas être d'accord entre eux, par exemple). C'est pourquoi, il nécessite une phase d'adaptation manuelle à l'application envisagée.

En conclusion, ce travail développe un point de vue sémantique existant, fondé sur l'usage et la référence, et l'applique au problème de l'acquisition automatique de connaissances à partir de corpus et à la construction de bases de connaissances terminologiques.