Capitolo settimo. Verifica e sperimentazione di alcune soluzioni proposte nei capitoli precedenti su un primo sistema prototipale

Autore:Manola Cherubini/Costantino Ciampi/Pierluigi Spinosa
Carica:Dirigente di ricerca/Consulente a contratto/Primo ricercatore
Pagine:162-185
RIEPILOGO

7.1. Considerazioni introduttive. 7.2. La scelta del motore di ricerca. 7.3. L'indicizzazione dei documenti. 7.4. Le maschere per la ricerca. 7.5. La metainformazione. 7.6. Costruzione del sito Web e del portale. 7.7. Futuri sviluppi dell'attuale sistema prototipale. 7.8. Allegati.

 
ESTRATTO GRATUITO

Page 162

Costantino Ciampi - Dirigente di ricerca./Manola Cherubini - Consulente a contratto - Segreteria tecnica di raccordo col CINECA./Pierluigi Spinosa - Primo ricercatore.

@7.1. Considerazioni introduttive

Dal mese di ottobre 1999 l'Istituto per la documentazione giuridica del CNR ha svolto un'attività di verifica e sperimentazione di alcune scelte funzionali, organizzative e tecnologiche individuate nel presente Studio di fattibilità, conformemente a quanto stabilito nel "Piano di lavoro", redatto ex art. 8, comma 3, della letteracontratto 14 maggio 1999, prot. 3237/99.

La collaborazione dell'IDGCNR all'interno del progetto "Accesso alle norme in rete" prevedeva, infatti, anche una consulenza per la realizzazione di un sistema prototipale, presso il Ministero della Giustizia, avente tutte le caratteristiche (reali o simulate) del prodotto finale.

L'identificazione delle tecnologie e delle metodologie informatiche da mettere in atto per la realizzazione del prototipo è stata affidata al CINECA (Consorzio Interuniversitario Servizio Gestione ed Analisi dell'Informazione), il quale ha costituito a tal fine un gruppo di lavoro formato da esperti informatici e di trattamento dell'informazione. Lo stesso ente ha reso, quindi, disponibili gli ambienti e le tecnologie necessarie, realizzando un'apposita piattaforma hardware e software, utilizzabile via Internet, per la predisposizione dei test e dei servizi connessi al Progetto.

L'attività di verifica e sperimentazione condotta dall'IDG ha riguardato:

* aspetti organizzativi, concretizzatisi in diversi incontri di lavoro e numerose comunicazioni telefoniche ed epistolari con i tecnici delPage 163 Ministero della Giustizia, del CINECA e delle altre Amministrazioni partecipanti alla fase di avvio del prototipo;

* aspetti tecnici, che saranno riepilogati in modo particolareggiato e completo nei paragrafi che seguono, non soltanto al fine di riportarne i risultati ed effettuare delle valutazioni, ma anche per evidenziare quelli che potrebbero esserne i futuri sviluppi.

Ad oggi, in questa prima fase di attuazione del Progetto, è stato deciso di focalizzare l'attenzione soprattutto su una parte della documentazione giuridica coinvolta nello Studio di fattibilità, ovvero sulla "normativa", includendo un primo trattamento della giurisprudenza ed escludendo per il momento la dottrina.

L'approccio prototipale, inoltre, si è limitato finora alla fase implementativa e all'allargamento della base documentale, e non ha riguardato il lavoro relativo al trattamento dei documenti in XML, che tuttavia costituisce un risultato previsto di elevata utilizzabilità.

@7.2. La scelta del motore di ricerca

Questione prioritaria, rispetto a tutta la problematica relativa all'implementazione del prototipo, è stata la scelta del motore di ricerca, in grado di indicizzare più siti Internet ed orientare verso la fonte (originale) delle informazioni (sito dell'autorità emittente o quantomeno dell'editore telematico).

Prodotto finale richiesto era la predisposizione di un sito Internet (unico punto di accesso con funzionalità di ricerca su tutta la documentazione disponibile) in grado di:

* visitare automaticamente e periodicamente tutti i siti degli organismi istituzionali contenenti i materiali giuridici d'interesse per il ProgettoPage 164 presenti in rete per mezzo di uno spider (robot di navigazione), allo scopo di preparare un indice centralizzato (tecnologia "spider engine");

* disporre di un motore di ricerca con relativi supporti alla formulazione guidata delle queries (tecnologia "search engine").

La scelta doveva orientarsi verso un prodotto che avesse caratteristiche soddisfacenti per qualità, livello di sofisticazione raggiungibile, modalità di distribuzione e politiche tariffarie.

A questo proposito l'IDG - pur ritenendo che fosse prematuro, prima della conclusione dello Studio, affrontare la questione del motore da acquisire - ha effettuato una comparazione tra i principali motori di ricerca esistenti, i cui risultati sono stati mostrati durante la riunione tenutasi all'AIPA il 16 giugno 1999 (Allegato n. 29). Tale comparazione è stata incentrata soprattutto sulla valutazione delle caratteristiche riguardanti:

* numero di pagine indicizzate;

* ricerca avanzata;

* operatore standard;

* ricerca di frasi;

* parole ignorate;

* campi di ricerca;

* personalizzazione dei risultati;

* memorizzazione delle impostazioni;

* funzioni speciali;

* catalogo dei siti;

* tempi di aggiornamento dei siti.

La decisione relativa alla soluzione più idonea per la realizzazione del motore di ricerca giuridico del progetto "Accesso alle norme in rete" è stataPage 165 presa essenzialmente dal CINECA, che in ultima analisi ha valutato pregi e difetti di due soluzioni.

La prima, denominata "Motore NIR", da svilupparsi ad hoc per il Progetto, la cui realizzazione si sarebbe appoggiata sull'assemblaggio di vari componenti: un DBMS (per indicizzare e ricercare i documenti), uno spider (per la gestione del reperimento dei materiali dai siti certificati) ed una parte di codice realizzata su misura (per interfacciare i due sistemi e gestire il pre processing ed il postprocessing delle queries).

Questa soluzione, secondo il CINECA, presentava numerosi vantaggi, tra i quali: adattabilità a future esigenze, possibilità per le Amministrazioni di pilotare lo spider verso le parti del sito da indicizzare grazie ad un file su misura denominato NIR.TXT, gestione di ogni forma di metainformazione (XML, metatags), possibilità di influenzare l'ordinamento (ranking) dei risultati con parametri non dipendenti dal contenuto dei documenti (ad esempio la frequenza storica di consultazione), parametrizzazione delle queries con gli abituali operatori logici o di prossimità, possibilità di implementare diverse politiche di gestione dei documenti duplicati in attesa dell'identificatore unico e di utilizzare paradigmi di ricerca vettoriali o tipici di strumenti di text retrieval avanzati, costo contenuto ed indipendente dal numero di documenti indicizzati, assistenza tecnica presente in Italia.

Avverso tale soluzione vi era la necessità di un maggior lavoro di sviluppo per il raggiungimento dei risultati voluti.

La seconda, denominata "Motore standard Internet", la cui realizzazione si sarebbe basata su un prodotto disponibile in commercio.

La scelta è caduta su Ultraseek Server (base del motore di ricerca Infoseek), soprattutto per l'ampio numero di piattaforme per cui è disponibile il pacchetto completo e poiché consente la gestione, pur sommaria, di documenti XML; anch'esso al suo interno ha un DBMS per l'indicizzazione dei documenti ed uno spider per il loro reperimento dai siti certificati. Tra gliPage 166 altri vantaggi si citano la semplicità di installazione e di gestione, l'efficienza dello spider e delle ricerche, la possibilità di gestione dei documenti duplicati (limitata al controllo dell'uguaglianza di titolo e sommario o all'uguaglianza dei due documenti).

Contro questa scelta sono stati, invece, individuati dal CINECA i seguenti argomenti: sviluppi futuri fortemente legati alle scelte del pacchetto, possibilità di pilotare lo spider solo in maniera centralizzata o agendo sul file standard ROBOTS.TXT da parte delle singole Amministrazioni (non è documentata la possibilità di utilizzare file del tipo NIR.TXT), difficile pre trattamento delle queries e postprocessing dei risultati, ranking dei risultati influenzabile solo attraverso dati contenuti nei documenti, trattamento della metainformazione solo se interna ai documenti, costo elevato e legato al numero di documenti indicizzati, mancanza di assistenza tecnica del produttore in Italia.

La sperimentazione del motore Ultraseek Server è continuata fino alla conclusione del periodo di prova concesso dalla casa produttrice ed è al momento stata rinviata la decisione circa la sua prosecuzione.

Oggi il prototipo si avvale della prima soluzione, basata per la parte DBMS su Fulcrum, potente motore di ricerca e indicizzazione disponibile su più piattaforme.

@7.3. L'indicizzazione dei documenti

Per una compiuta descrizione delle attività e delle scelte relative all'indicizzazione delle risorse giuridiche d'interesse contenute nei siti istituzionali presenti in rete, occorre distinguere tre aspetti essenziali, in cui le stesse possono essere ripartite.

  1. Il file NIR.TXT

    Page 167

    Come suggerito dall'IDG nel capitolo 3 della presente relazione, è stato predisposto da parte del CINECA un file strumentale per la navigazione dello spider, denominato "NIR.TXT", in grado di limitare l'indicizzazione dei siti ai soli materiali pertinenti per il Progetto; si tratta di un file esterno, che non modifica il contenuto dei documenti situati all'interno dei vari siti (Allegato n. 30). Sono state, invece, apportate modifiche allo spider standard, affinché potesse accedere ed interpretare questo file particolare.

    La redazione del file NIR.TXT, relativamente ai siti fino ad oggi indicizzati, è stata in larga parte curata centralmente dal CINECA per accelerare il processo di allargamento della base documentale; in futuro si auspica che ciascun gestore sia in grado di curare direttamente la stesura di detto file.

    Inoltre lo spider è in grado di leggere un file NIR.TXT in locale, cioè non residente nel sito da visitare, e questa possibilità è stata utilizzata nei casi in cui le Amministrazioni interessate dal Progetto non abbiano fornito una tempestiva collaborazione.

    In sostanza il file NIR.TXT si articola in poche istruzioni fondamentali, che contengono i seguenti dati:

    * l'URL del file o della directory da cui iniziare la scansione (istruzione URL), estesa a tutte le eventuali sottodirectories;

    * le URLs dei files o delle directories in cui continuare la scansione dei soli documenti puntati dai files visitati per mezzo della URL di partenza (istruzione ALSO);

    * i files o...

Per continuare a leggere

RICHIEDI UNA PROVA