Représentations géométriques de relations sémantiques

AutoreUgo Berni Canani
Pagine33-42

    Relazione presentata al Congresso internazionale « Informatique et sciences humaines» (Liegi, novembre 1981), in Atti pubblicati dall'Università di Liegi - LASLA» pp. 49-58.


Page 33

Nous considérerons, per rapport à un corpus donne de contextes, deux types de graphe:

- un graphe dans lequel les sommets représentent.des mots (lemmes) et les arètes une relation paradigmatique: deux sommets sont reliés par une arète si les mots qui leur correspondent peuvent ètre considérés camme equivalente dans quelque contente du corpus (synonymes, hyponymes, antonymes, termes appartenant à un mème champ paradigmatique);

- un graphe bi-partite, où les arètes représentent une relation syntagmatique simple, de compatibilite ou «application»: deux mots sont reliés par une arète si le deuxième est applique au premier dans quelque contexte du corpus; autrement dit, si le couple de mots est un syntagme dans le corpus.

A chaque sommet correspond le sousgraphe forme par les sommets adjacents (et par les sommets qui à leur tour leur sont adjacents, s'il s'agit d'un graphe bi-partite) et par les arètes qui les relient entre eux. Nous l'appellerons «adjacence» du sommet.

Nous examinerons quelques aspects de ces sousgraphes, en essayant de déterminer des expressions synthétiques de leur structure dans ses différences de complexité, des composantes ctpables de simuler des unités de sens, une orientation possible des arètes. Enfin, nous indiqeerons quelques façons de représenter géométriquement des graphes de relations sémantiques.

@1. Relations paradigmatiques

  1. Composantes caractéristiques

    Considérons1 pour chaque sommet du graphe de relations paradigmatiques l'ensemble des sommets adjacents et celili des arètes qui les relient entrePage 34 eux. Les composantes connexes. de cet ensemble, que nous pouvons appeler fibres, représentent une première unite de sens, celle qui reflète des acceptions nettement distinctes. Elles correspondent à une évidence intuitive: si un mot a deux sens nettement distincts, nous nous attendons à ce qu'entre les term'es qui lui sont respectivement liés dans les deux sens il n'y ait pas de liaison.

    A l'intérieur de chacune des fibres nous pouvons distinguer une unite de sens ples fine, donnée par les composantes complètes maximales (cliques): à savoir les groupes de sommets tous reliés entre eux (composantes complètes) n'étant contenus dans aucune composante complète plus grande. Les cliques représentent des nuances, des oscillations à l'intérieur d'un mème sens. Fibres et cliques constituent une première approximation de la définition d'unités de sens dans un champ paradigmatique2.

  2. Partitions et recouvrements

    Par rapport à un graphe de 5-6.000 sommets et 15-20.000 arètes, nous pouvons estimer que l'approximation est satisfaisante3. Mais, si fon augmente le nombre de contextes et donc on ajoute de nouveaux termes et de nouvelles liaisons, nous observerons la fusion de plusieurs cliques ou plusieurs fibres ce qui, dans le deuxième cas, entratne une confusion possible de differente sens. Ceci nous amène à modifier les conditions de séparation des fibres dans l'adjacence (ensemble des sommets adjacents à un sommet donne) de chaque sommet.

    La séparation peut ètre obtenue substantiellement de deux fagons: en opérant, par rapport à chaque sommet, soit une partition (regroupement des sommets adjacents dans des classes disjointes), soit un recouvrement (regroupement dans des classes non nécessariement disjointes) de son adjacence. La nature des données conseillerait d'opter pour des recouvrements, que fon peut obtenir de toute façon à travers des partitions: si nous remplaçons l'adjacence d,uii sommet par le graphe forme par les cliques qui la composent (les sommets représenteront des cliques, les arètes les intersections non vides entre elles) une partition des sommets de ce graphe équivaut à un recouvrement de l'adjacence remplacée. En conservant tinsi l'organisation en cliques de l'adjacence de chaque sommet nous avons l'avantage d'opérer sur des structures interprétables, moins abstraites que celles qui sont directement produites par les techniques courantes de clustering et de classification automatique que nous devrons employer pour obtenir partitions et recouvrements.

    Page 35

  3. Complexité

    Pour essayer d'exprimer l'intuition de la complexité ples ou moins grande de la structure d'un graphe on peut utiliser différentes notions. En voici quelques unes:

    - la densité (rapport entre le-nombre d'arètes qui relient les sommets du graphe et le nombre d'arètes necessaire pour relier tous les sommets entre eux);

    - la connexité, mesurée en fonction du nombre de composaetes connexes, du nombre minimal de sommets (ou d'arètes) dont l'élimination augmente d'une unite le nombre de composantes connexes, ou aussi du nombre de cliques4;

    - la complexité, au sens technique, définie comme le nombre de «spanning trees»5.

    Si fon applique aux fibres du graphe de relations paradigmatiques Fune ou Fautre de ces notions, l'on obtiendra une information synthétique, un indice de leur complexité intuitive. Il n'est pas exclu qu'à des mots différents, de par leur categorie grammaticale ou leurs propriétés sémantiques, correspondent des caractéristique différentes de complexité.

    Une autre voie pouvant amener á une description synthétique de la strueture de chaque fibre consiste à représenter sur un arbre les différents niveaux de connexion cetre les cliques qui la composent. Si Fon appelle «-connexes deux cliques qui ont en commuti au moins n sommets, Fon forme (en partant du plus petit n tei que toutes les cliques soient isolées) les composantes (n-1) - connexes, (n-2) - connexes.,. et ainsi de suite jusqu'à Funique composante l-cotinexe qui épuise toute la fibre. Nous obtenons un arbre quimet en évidence la façon dont une fibre se forme, par agrégation autour des pòles les plus denses. Si Fon neglige les éléments (les cliques) pour ne considérer que les classes (les composantes) nous avons une simplification des arbres qui, représentés par exemple comme des séquences d'astérisques, correspondant aux póles, et de parenthèses, indiquant les niveaux de connexion, fournissent une image extrèmement maniable de la strueture des fibres.

  4. Orientation

    La strueture en arbre qui peut ètre tirée des fibres nous amène à considérer un thème voisin: Forientation. A chaque graphe peut ètre doneée une orientation arbitraire des arètes, qui permet de démontrer des propriétés indépendantes de cette orientation et d'introduire en outre l'homologie6, CependantPage 36 ce que nous cherchons est une orientation interprétable dans le lexique, et Fon pense tout de suite au rapport de subordination hiérarchique entre des termes. Une arète devrait allet du sommet qui représente un mot de sensples spécifique vers celui qui représente un mot de sens plus general. On pourrait s'attendre à une diversité de «degré» (nombre d'arètes incidentes à un sommet) entre des sommets reliés correspondant à des mots d'un niveau différent de généralité. Or, ce n'est pas ce qui arrive: à cause d'un phénomène caractéristique de localisttion du lexique7, mème si fon représente chaque'mot d'un corpus avec autant de sommets qu'il a de sens, et donc qu'on élimine ainsi la polysémie du graphe, la différence de degré entre deux sommets adjacents ne reflète pas systématiqeement une différence de généralité. Il faut donc rechercher ailleurs un indice de subordination...

Per continuare a leggere

RICHIEDI UNA PROVA

VLEX uses login cookies to provide you with a better browsing experience. If you click on 'Accept' or continue browsing this site we consider that you accept our cookie policy. ACCEPT