Strumenti semantici per l'accesso all'informazione giuridica: Giur-Wordnet

AutoreMaria Teresa Sagri
CaricaUsufruisce di una borsa di studio presso l'Istituto di Teoria e Tecniche dell'Informazione giuridica del CNR.
Pagine189-214

Page 189

@1. Introduzione

L'incremento esponenziale dell'utilizzo delle tecnologie informatiche, come strumento d'accesso al mondo dell'informazione, produce inevitabilmente una crescente ed ingente disponibilità di risorse difficilmente gestibili ed utilizzabili. Ciò rende necessario lo sviluppo di nuove metodologie, che migliorando i sistemi automatici di reperimento dei dati materiali, siano capaci di gestire questo vasto quantitativo di risorse ed offrire così un'informazione più agevole e precisa. La necessità di tali risorse, risulta evidente nell'utilizzo di Internet; là dove infatti si devono consultare grandi quantità d'informazioni, questo tipo di risorsa, superando i limiti che nascono dal gestire un tipo di materiale relativamente non strutturate e memorizzate in vari formati, può riuscire a garantire, anche nella ricerca dei dati specifici, una selezione più rigorosa ed efficiente dei soli elementi pertinenti e rilevanti.

In questo contesto, i progetti Wordnet ed Eurowordnet costituiscono un ampio e standardizzato esempio di risorse linguistiche per la ricerca d'informazioni su Internet.

Wordnet è una rete semantica 1 sviluppata dal linguista George Miller ePage 190 dal suo gruppo presso l'Università di Princeton consiste in un lessico contenente tutti i termini più rilevanti della lingua inglese strutturata in una "rete semantica", in cui cioè il significato di ogni unità lessicale è rappresentato dalle relazioni semantiche (iper/iponomia, sinonimia, antinomia, ecc.) con gli altri termini. I lemmi più alti della tassonomia 2 sono classificati e correlati sulla base di categorie ontologiche generali al fine di potenziare la condivisibilità della struttura.

Wordnet , sviluppatosi ormai da dieci anni, è disponibile gratuitamente su Internet 3 : da esso nasce l' ILI : l' Inter Lingual Index , il progetto di interlingua attraverso cui le reti lessicali/semantiche sviluppate per le altre lingue europee dal progetto Eurowordnet (finanziato dalla Comunità Europea) sono messe in relazione 4 . Ad oggi sono più di venti le lingue che, condividendo la medesima struttura e la stessa metodologia di sviluppo, vengono collegate fra loro attraverso la lingua inglese.

Italwordnet è la sezione di Eurowordnet che è stata creata, per la lingua italiana, dall'Istituto di Linguistica computazionale del CNR di Pisa 5 (attualmente la copertura della lingua italiana offerta da IWN ammonta a 50.000 lemmi); accanto ad essa sono state sviluppati settori specializzati che trattano aree linguistiche specifiche, fra cui Ecowordnet 6 , sviluppato dall'Istituto per la Ricerca Scientifica e Tecnologica di Trento ( IRST ) sul linguaggio economico/finanziario. Il progetto promosso dall' ITTIG si propone un analogo obiettivo circa la specializzazione di Italwordnet per il lessico giuridico. Infatti condividendo la metodologia di descrizione semantica e di strutturazione tassonomica della risorsa generale, si propone la produzione di uno strumento specifico per il dominio prescelto ed un associativa umana; ogni parola è definita all'interno della base di conoscenza da una rete di relazioni che la collegano ad altre parole, le relazioni sono legami di senso fra i concetti espressi dai termini: inclusione, parte/tutto, dimensione, relazioni logiche".Page 191 arricchimento del lessico dell'italiano comune di almeno 4.000 lemmi.

Oggetto di questo articolo è quindi la descrizione del progetto Giur-Wordnet (Giur- IWN ), come estensione del database Eurowordnet e dell' Inter Lingual Index ( ILI ) alla terminologia giuridica.

L'obiettivo è quello di arricchire i motori di ricerca che operano su Internet con uno strumento che consenta la ricerca concettuale e l'accesso a dati eterogenei e multilingue, basandosi su un modello standardizzato di descrizione del dominio giuridico.

@2. Il progetto nir

Il punto di partenza per lo sviluppo della rete semantica è stato la realizzazione del portale per Internet chiamato Norme in rete ( Law on the net ); promosso nel 1999 come parte del programma italiano per l' e-government . Il progetto coinvolge le più importanti Istituzioni italiane (Camera dei Deputati, Senato, Ministero della giustizia, AIPA ), ed ha l'obiettivo di "disporre di un portale che consenta, attraverso un'unica e semplice interfaccia, di effettuare ricerche su tutta la documentazione di interesse normativo pubblicata gratuitamente su Internet, in particolare dai siti istituzionali" 7 . Il progetto vuole risolvere un doppio ordine di problemi: in primo luogo, in ottemperanza all'indirizzo comunitario che raccomanda alle fonti istituzionali la distribuzione gratuita dei dati pubblici essenziali, vuole consentire un reale diritto di accesso all'informazione normativa, sia sul piano dei costi, che della completezza della conoscenza; in secondo luogo, contribuire alla razionalizzazione della struttura informativa pubblica, mediante la standardizzazione delle metodologie di trattamento e distribuzione del dato.

La filosofia di base di Norme in rete è improntata a garantire l'accesso diretto alla normativa, infatti raggiungendo i siti degli organi produttori, questi divengono in automatico anche i distributori del materiale giuridico. Il progetto fornirà quindi degli standard di codifica delle tipologie delle fonti, degli identificatori ( Uniform Resource Name: URN ) della struttu-Page 192ra testuale, dei rinvii esterni ed interni e delle metainformazioni. Un vantaggio rilevante, sarà la possibilità di ottenere link ipertestuali automatici fra la norme, in modo da garantire all'utente l'accesso alla legislazione vigente 8 .

Sulla base dello studio di fattibilità curato dall' ITTIG 9 , nel 2000 il progetto è passato alla fase operativa: nel 2001 sono state pubblicati dai gruppi di lavoro i risultati dell'attività, ( DTD per la strutturazione dei testi, codifica delle citazioni, metodologie di recupero del pregresso, ecc.), ed è stato aperto un portale sperimentale (www.normeinrete.it), per la ricerca delle informazioni legislative, incrementato automaticamente attraverso l'individuazione dei documenti all'interno dei principali siti istituzionali.

L'architettura del sistema 10 è costituita da classi di schemi ( DTD : Document Type Definiton ) che, per la strutturazione dei testi normativi 11 , utilizzano quello che ormai è considerato il nuovo linguaggio universale di Internet, il linguaggio XML . Ogni struttura "descrive" l'organizzazione gerarchica delle componenti testuali (articolo, comma, ecc..) e ogni tipologia di fonte viene accompagnata da una serie di metadati, cioè di informazioni sul testo quali per es. l'Autorità, la data, la tipologia, stato, ecc. In questa fase una parte tecnicamente importante è l'adozione di URN cioè di un indirizzo Internet che consente l'individuazione del testo attraverso la sua identificazione, a prescindere dalla sua effettiva collocazione fisica 12 . Per ora la descrizione dei contenuti si limita all'adozione di schemi di classificazione ( topics ) già adottati dai database istituzionali, quale per esempio Teseo 13 , il cui dominio è l'intero testo.Page 193

Il progetto Giur IWN si colloca in questo spazio, nel senso che intende fornire un linguaggio per la descrizione dei contenuti che possa essere più ricco dello schema di classificazione, ma al tempo stesso, "uniformato" in modo da essere condiviso. A differenza delle informazioni sulla tipologia e struttura testuale dei documenti, che nel caso dei quelli giuridici possono essere individuati in modo non ambiguo, in quanto prescritti in tipologie standardizzate 14 , la descrizione dei contenuti utilizza, in quanto volta ad analizzare la vaghezza e ambiguità del linguaggio naturale, un linguaggio controllato , in cui i sensi dei termini che lo compongono e le relazioni semantiche fra essi sono definite in modo esplicito ed univoco.

Si prevedono almeno tre aspetti di possibile utilizzo di Giur- Wordnet : Come fonte di metadata per il tagging semantico dei testi legislativi (adottabile anche in fase di drafting legislativo come arricchimento dell'editore specialistico in fase di sviluppo). Alle strutture testuali viene aggiunta l'informazione semantica utilizzando i concetti definiti nella rete, individuando le singole disposizioni come entità alternative (non sempre coincidenti) ai segmenti testuali.

Come strumento di supporto a sistemi di information retrieval per facilitare l'accesso a dati eterogenei e multilingue 15 . Come verrà meglio spiega-

Senato e della Camera (disegni di legge, sindacato ispettivo, letteratura grigia, procedure non legislative al Senato, ecc.) e consta di un thesaurus di circa 3.000 descrittori. In TESEO , come in tutti i sistemi basati su thesauri , oltre ai termini di classificazione, è definito un'insieme di relazioni (gerarchiche [ BT / NT ], di affinità [ RT ], preferenziali o di sinonimia [ US / UF ]) tra i termini stessi. Il programma di navigazione del thesaurus , disponibile sia sull'elaboratore centrale della Camera che sul sito Web del Senato in versione HTML , consente di esplorare l'albero delle relazioni al fine di individuare i descrittori più appropriati per effettuare la classificazione o la ricerca in banche dati. La struttura di riferimento su cui è costruita la rete delle relazioni di TESEO è quella della Classificazione Decimale Universale ( CDU ). Si tratta quindi di un thesaurus non specializzato in una particolare disciplina, ma applicabile all'intera realtà sociale, giuridica e scientifica. L'insieme dei descrittori del thesaurus è stato scelto per lo più sulla base di quello precedente ed è quindi orientato alla classificazione di banche dati legislative e parlamentari. TESEO è stato adottato come sistema di classificazione da molte Regioni e, a seguito di un protocollo d'intesa tra Camera, Senato, Poligrafico dello Stato e Regioni, è stato avviato un progetto per la costituzione di una banca dati comune delle leggi regionali sull'elaboratore centrale della Camera che prevede la...

Per continuare a leggere

RICHIEDI UNA PROVA

VLEX uses login cookies to provide you with a better browsing experience. If you click on 'Accept' or continue browsing this site we consider that you accept our cookie policy. ACCEPT