SOUČASNÝ STAV A TRENDY AUTOMATICKÉ INDEXACE DOKUMENTŮ

Schwarz, Josef. Současný stav a trendy automatické indexace dokumentů : přehledová studie. Praha, říjen 2002.

PODROBNÝ OBSAH
Souhrnné informace o studii | Úvod | Typy a techniky automatické indexace | Celkové hodnocení současných výsledků a trendů automatické indexace | Praktické aspekty implementace automatické indexace | Příklady systémů automatické indexace | Automatizované zpracování textu v ČR | Poznámky | Reference |


Příklady systémů automatické indexace

Tato kapitola obsahuje výběr několika domácích i zahraničních aktivit v oblasti automatické indexace, které mají ilustrovat předchozí teoretický výklad. Jedná se o plně funkční systémy, které jsou provozovány rutinně nebo v testovacím provozu. Další příklady systémů automatické indexace lze nalézt v kapitolách o stavu automatizovaného zpracování textu v ČR (viz kap. Popis vybraných českých systémů pro automatizované zpracování textu)

Media On Line Project

Media On Line Projekt byl realizován v letech 1996-1999 v Belgii, jeho financování bylo zajištěno v rámci programu Vlaams Actieprogramma Informatietechnologie, řešitelem bylo ICRI-Interdisciplinary Centre for Law and Information Technology na Katolické univerzitě v Lovani (Katholieke universiteit Leuven) ve spolupráci s dalšími institucemi.
     Projekt byl zaměřen na online publikaci článků z různých oborů (politika, ekonomika, finance, životní styl, umění, sport atd.), které bylo třeba z důvodu průběžného dodávání uživatelům rychle a efektivně indexovat. Vzhledem k tomu, že pro indexaci byly používány maximálně tři obecné deskriptory na každý článek, jednalo se spíše o klasifikaci. Kromě automatické indexace bylo řešeno i automatické abstrahování.
     V rámci projektu byl testován program pro automatickou indexaci, který pracoval na základě srovnávání cvičné (training corpus) a testovací (testing corpus) sady dokumentů. Dokumenty v cvičné sadě byly indexovány profesionálními indexátory a pomocí odvozovacího algoritmu (learning algorithm) sloužily jako referenční množina dokumentů pro nové dokumenty, které nebyly indexovány.
     Základní procedura byla založena na těchto metodách:
  1. výběr a vážení termínů důležitých z hlediska obsahu - byl kladen důraz na efektivní výběr termínů vztahujících se k obsahu a vlastní jména; vlastní jména byla rozeznávána na základě profilů (patterns) velkých písmen a jejich opakovaném výskytu v textu. Byl použit negativní slovník o rozsahu 879 slov zahrnující částice, předložky apod., číslovky byly vypouštěny, lematizace nebyla implementována. Vybírány byly termíny pouze s vysokou váhou, termíny se vážily pomocí normalizované frekvence. Termíny byly vybírány ze začátku článku obsahující hlavičku, úvod a určení článku nebo z plného textu (pozdějšími analýzami se zjistilo, že je efektivnější vybírat termíny z plného textu, protože při výběru ze začátku článku byl indikován vysoký obsah obecných slov).
  2. odvozovací algoritmus (learning algorithm) - vybrané termíny byly použity ke srovnání s cvičnou sadou dokumentů a na základě několika algoritmů byla odvozena pravděpodobnost, s jakou článek patří do určité kategorie (byl použit bayesovský klasifikátor nezávislosti - Bayesian independence classifier) a na základě Rocchiova a chí-kvadrát algoritmu byl stanoven vektor váhy příslušných kategorií (category weight vector)
  3. přiřazení deskriptorů - na základě předchozích procedur byla pomocí bayesovského klasifikátoru vypočtena pravděpodobnost příslušnosti do dané třídy pro každý deskriptor; deskriptor s nejvyšší pravděpodobností byl zvolen pro indexaci, případně byl zvolen i druhý deskriptor v pořadí
  4. testování automatické tvorby tříd (example selection) - byla otestována efektivnost indexace pomocí automaticky generovaných koeficientů úplnosti a přesnosti.

     Souhrnem lze říci, že testování automatické indexace proběhlo v tomto projektu úspěšně, většina použitých metod byla ověřena jako účinná. Pro zvýšení efektivity systému by bylo ještě možné v první fázi aplikovat lematizaci, jako velmi účinný se projevil při odvozovacím algoritmu použitý chí-kvadrát test, který vykazoval podstatně lepší výsledky než ostatní algoritmy.
     Podrobný popis testů a použitých metod lze nalézt v Moens, 2000:207-226.

NASA MAI Tool

Center for AeroSpace Information (CASI) spadající pod americkou vládní organizaci NASA už od konce 70. let 20. století vyvíjí a rutinně používá MAI Tool (Machine-Aided Indexing Tool) pro automatickou indexaci technických zpráv a dalších dokumentů. Tento systém je typický příklad jednoduchého, ale robustního a účinného nástroje, který slouží jako automatická podpora intelektuální činnosti indexátora. Systém na základě výrazů z přirozeného jazyka vybírá za pomoci znalostní báze (knowledge base) deskriptory NASA tezauru (NASA thesaurus) a předkládá je k posouzení indexátorům, kteří provedou výsledný výběr a přiřazení deskriptorů k záznamům.
      Původní syntaktická koncepce systému byla v květnu 1989 změněna na koncepci sémantickou a statistickou, a to především proto, že syntaktická koncepce přinášela tyto problémy:
  1. vysoký počet pravidel, na základě kterých se stanovoval kontextuální význam slova či sousloví
  2. vysoký počet informací potřebný k rozlišení významu slov
  3. syntaktický systém byl zaměřen spíše na formu než obsah slov a výrazů
V současnosti systém funguje na základě statistické analýzy současného výskytu slov ve větě a oborově zaměřené znalostní bázi. V rámci statistické analýzy jsou jedno- a víceslovná spojení převzatá z textu dokumentu porovnávána s obsahem znalostní báze a na základě jednoduchých pravidel jsou navrhovány kandidáti na indexační termíny (deskriptory NASA tezauru).
      Jádrem systému je znalostní báze, jejímž základem je NASA tezaurus rozšířený o termíny a informace z dalších zdrojů. Znalostní báze byla dříve označována jako lexikální slovník (lexical dictionary) nebo konverzní tabulka (translation table), nové označení bylo zvoleno v souvislosti s rozšířením báze o vlastnosti pojmové sítě.
      Znalostí báze se skládá z následujících segmentů:
  1. slovník (NASA tezaurus, výrazy z přirozeného jazyka, sousloví, termíny Department of Energy a z řady dalších zdrojů); slovník je průběžně doplňován na základě textové analýzy záznamů (užívají se názvy a abstrakty) o synonyma i nové položky, v r. 1993 obsahoval 121 000 položek
  2. vztahy mezi termíny
  3. jednoduchá pravidla, na základě kterých lze převádět výrazy přirozeného jazyka na deskriptory tezauru nebo normalizovat sousloví, která se v textu dokumentu vyskytují v různém tvaru
Záznam znalostní báze obsahuje tyto položky:
  1. klíčové slovo (key field)
  2. odkazová položka (posting term field) - toto pole obsahuje odkaz na příslušný deskriptor NASA tezauru nebo informaci o tom, jakým způsobem má být při automatické indexaci zpracován daný termín
Procedura automatické indexace probíhá ve třech krocích:
  1. aplikační program vybírá z dokumentu textové řetězce
  2. modulární program Access-2 generuje kombinace (resp. permutace) termínů a z termínů po sobě v textu následujících konstruuje potenciální sémantické jednotky (např. termíny A, B, C), které vyhledává ve znalostní bázi; pokud je sémantická jednotka nalezena, pokračuje se dalším krokem, pokud není nalezena, je vykombinována nová sémantická jednotka (např. A, B, C, D) a opět se ověřuje v databázi; nenalezená jednotka je zařazena do dávkového souboru pro pozdější posouzení a případné zařazení do znalostní báze
  3. pokud je sémantická jednotka ve znalostní databázi nalezena, na základě daných pravidel se rozhoduje, zda:
    1. je zvolen a do seznamu kandidátů zařazen odpovídající deskriptor NASA tezauru
    2. proběhne další kombinace termínů a nové vyhledávání v bázi
    3. je vyhledávání ukončeno, protože nalezená položka není pro další zpracování žádoucí
Systém MAI Tool obsahuje i jednoduché nástroje na hodnocení automatické indexace za použití tří měr:

     Retrospektivní přehled vývoje uvedených charakteristik je následující:

Rok

Počet dokumentů

Míra shody

Míra pokrytí

Míra konzistence

1987

2500

32,4

36,9

20,8

1988

100

37,0

39,0

23,4

1993

odhad

50,0

50,0

33,3


MAI Tool je v CASI používán již cca 30 let, je neustále zdokonalován, znalostní báze je stále rozšiřována, navíc, plně funkční verze MAI Tool je volně přístupná na internetu. Léta praktického užívání MAI Tool vedly k následujícím výsledkům:

     Bližší popis systému uvádí Silvester, 1997.

Automatická indexace sněmovních tisků v KPS PČR

Parlamentní knihovna jako odbor Kanceláře Poslanecké sněmovny Parlamentu ČR (KPS PČR) od r. 2000 indexuje v testovacím provozu sněmovní tisky, od 4. volebního období (červen 2002) přešla indexace sněmovních tisků do rutinního provozu. V rámci indexace sněmovních tisků byla ve spolupráci s Odborem informatiky KPS PČR a diplomantem M. Urbanem (VŠE Praha) implementována automatická indexace založená na automatické extrakci slov a sousloví z textu dokumentu za podpory lematizátoru, frekvenční analýzy, rozpoznávání víceslovných výrazů, negativního slovníku a komparace slov z textu s lexikálními jednotkami tezauru EUROVOC. Výsledkem je frekvenčně uspořádaný seznam deskriptorů, který je určen pro další intelektuální zpracování. Automatická indexace je stále pouze v testovacím provozu z důvodů omezené využitelnosti jejích výsledků (viz dále).
      Automatická indexace se skládá z následujících procedur:

     Implementovaná technika má následující nedostatky:

  1. vážení termínů - je implementována pouze absolutní frekvence, pro větší efektivitu systému by bylo vhodné použití jiných frekvenčních funkcí
  2. umístění termínů v textu - v současnosti je termín z textu vybírán bez ohledu na jeho pozici v dokumentu (název, úvod, část, hlava, paragraf atd.); aby bylo možné rozlišovat zdroj výběru termínu, je nutné pracovat se strukturovanými dokumenty, které zatím nejsou k dispozici
  3. návrhy na nedeskriptory - v současnosti systém termíny, které nenalezne v tezauru, dále nezpracovává, bylo by nicméně vhodné je navrhnout jako kandidáty na lexikální jednotky pro zařazení do tezauru

     Řešení ad 1 a 2 již byla až na úroveň algoritmu navržena diplomantem M. Klementem (VŠE Praha), nicméně zatím nebyla implementována.
     Podrobný popis realizovaných i navržených řešení automatické indexace v KPS PČR viz Urban, 1999 a Klement, 2001.
     Není bez zajímavosti, že souběžně s automatickou indexací se v KPS PČR testují moderní vyhledávací metody v rámci projektu č. 201/00/1031 Inteligentní vyhledávání v dokumentografických informačních systémech, který řeší MFF UK ve spolupráci s KPS PČR. Projekt má za cíl pomocí standardních metodik otestovat vyhledávací techniky založené na statistickém přístupu (např. vektorové vyhledávání, latentní sémantické indexování, pojmové shlukování).

-->DALŠÍ KAPITOLA