Současný stav a trendy automatické indexace dokumentů

SOUČASNÝ STAV A TRENDY AUTOMATICKÉ INDEXACE DOKUMENTŮ

Schwarz, Josef. Současný stav a trendy automatické indexace dokumentů : přehledová studie. Praha, říjen 2002.

Typy a techniky automatické indexace

Automatická indexace se běžně rozděluje na dva základní typy:

automatická extrakce je automatická indexace založená na extrakci indexačních termínů přímo z plného textu dokumentu (využívá se tak pouze přirozeného jazyka) (automatic extraction indexing, selection of natural language index terms). Automatická extrakce se také někdy označuje jako slovní indexace.
automatické přiřazování je automatická indexace založená na určování indexačních termínů z řízeného slovníku nebo znalostní báze na základě jejich srovnání s výrazy z plného textu dokumentu (automatic assignment indexing, assignment of controlled language index terms). Automatické přiřazování se také někdy označuje jako pojmová indexace.

Automatická extrakce je jednodušší a snáze programovatelnou metodou, v současnosti na jejím základě pracuje větší část funkčních systémů automatické indexace.
Automatické přiřazování je z hlediska praktické aplikace podstatně náročnější, funkční systémy rovněž existují, ale nejsou zcela běžné a často nepřinášejí žádoucí výsledky. V rámci automatického přiřazování jsou aplikovány i metody automatické extrakce, které však slouží pouze jako dílčí podklady pro další zpracování.

Jako systémy automatické indexace jsou také někdy nesprávně označovány systémy umožňující automatizaci takových standardních procedur, jako je kontrola chyb indexátora (např. zda nezvolil nesprávnou kombinaci termínů), automatický návrh preferovaného termínu místo termínu nepreferovaného, poskytnutí informace, jak byl indexační termín použit, popř. jak vypadá předchozí indexace vybraných dokumentů apod. V takových případech nelze mluvit o automatické indexaci, ale pouze o automatizované indexaci (computer-assisted indexing, resp. machine-assisted indexing).

Automatická extrakce

Účelem automatické extrakce je vybrat přímo z textu dokumentu takové termíny, které vyjadřují jeho obsah. Protože pro indexaci jsou vhodná pouze některá slova a sousloví z textu dokumentu, byla vyvinuta řada především statistických a matematicko-lingvistických metod, jak tyto relevantní termíny v textu identifikovat a extrahovat je z něj.
Standardní postup při extrakci termínů se skládá z několika procedur, níže uvedený přehled obsahuje základní z nich s tím, že vybrané procedury a použité metody pro jejich realizaci jsou popsány podrobněji. Konkrétní aplikace mohou mít implementovány pouze některé z uvedených procedur. Podrobný popis a hodnocení automatické extrakce lze také nalézt v Moens (2000:77-102), Lancaster (1998:253-256,292-297), Anderson a Pérez-Carballo (2001b:256-266), Fidel a další (1994).

Postup při extrakci termínů

lexikální analýza (lexical analysis) - identifikace jednotlivých slov a sousloví v textu dokumentu; někdy se identifikace sousloví uvádí vzhledem ke své složitosti jako samostatná procedura
odstranění nevýznamových a nespecifických slov - provádí se pomocí předem připraveného negativního slovníku; někdy se tato procedura považuje za součást lexikální analýzy
lematizace (stemming) - redukce slov na jejich základní tvary, tj. kmen nebo kořen [3] opakem tohoto procesu (např. při vyhledávání) je derivace, kdy se k základnímu tvaru slova generují jeho inflexní tvary
srovnání slov, resp. jejich kmenů nebo kořenů s termíny řízeného slovníku - jedná se o jednoduché srovnání výrazu vybraného z textu s termínem řízeného slovníku bez ohledu na strukturu řízeného slovníku; ta bývá zohledňována pouze při automatickém přiřazování
vážení neboli stanovení vah termínů (weighting) - nejčastěji se provádí na základě frekvenčních metod

Lexikální analýza

Jednotlivá slova jsou v textu nejčastěji rozpoznávána pomocí mezer [4], i když u některých typů slov není tato identifikace zcela jednoduchá nebo jednoznačná. Obtížnější je např. určování zkratek, v nichž se tečka musí odlišit od větné tečky, problém představují také výrazy se spojovníkem, u kterých je třeba rozhodnout, zda je chápat jako jedno slovo nebo dvě samostatná slova. Samostatný problém při identifikaci slov představují také číslice, u kterých je třeba stanovit, zda budou zpracovány jako samostatná slova nebo závislé prvky (např. 1. místo) nebo zda budou z analýzy a dalšího zpracování zcela vypuštěny.
Podstatně složitější je identifikace sousloví, které jsou z hlediska sémantické nosnosti a selektivní síly [5] podstatně významnější než jednotlivá slova. Pro identifikaci sousloví byla vyvinuta řada metod, zde uvádíme dvě nejobvyklejší:

statistická identifikace sousloví - u slov, která se v textu, popř. v celé databázi vyskytují často společně, lze předpokládat, že se jedná o sousloví. Při statistické analýze se vychází z frekvence výskytu daného sousloví (záleží na pořadí slov), současného výskytu slov (nezáleží na pořadí slov) nebo vzdálenosti slov v textu, přičemž tato vzdálenost může být určena buď počtem slov mezi slovy předpokládaného sousloví nebo může být sledován jejich současný výskyt ve větě, odstavci nebo jiné ucelené části textu. Vzhledem k tomu, že častý současný výskyt dvou slov ještě nemusí znamenat, že se jedná o sousloví, není tato metoda bezezbytku úspěšná.
syntaktická identifikace sousloví - identifikace sousloví probíhá jako v předchozím případě s tím, že mezi slovy v potenciálním sousloví je pomocí různých metod analyzována jejich syntaktická složka. Často se v tomto případě využívá existujících slovníků sousloví, popř. řízených slovníků.

Součástí identifikace sousloví bývá i normalizace jejich formy. Sousloví se v textu mohou vyskytovat v různých syntaktických (např. indexace dokumentů x indexovaný dokument), lexikálních (např. intelektuální indexace x manuální indexace) nebo morfologických (např. pravidla indexace x indexační pravidla) variantách, které je nezbytné pro potřeby indexace sjednotit. Používá se následujících metod:

normalizace formy sousloví pomocí slovníku variant sousloví [6] - jedná se o jednoduchou metodu, která je však většinou z důvodu omezeného rozsahu slovníku vhodná pouze v rámci dílčího oboru
vypuštění pomocných slovních druhů (předložek, spojek, příslovcí apod.) ze sousloví a zanedbání pořadí zbylých složek sousloví
syntaktická analýza sousloví v kombinaci s použitím kmene nebo kořene jednotlivých slov sousloví

Odstranění nevýznamových a nespecifických slov pomocí negativního slovníku

Nevýznamová slova jsou funkční části textu, které nenesou žádný význam (např. spojky, předložky, částice, mluvnické členy apod.), nespecifickými slovy rozumíme slova či sousloví, která se vyskytují ve většině dokumentů a proto mají z hlediska vyhledávání minimální selektivní sílu. Obě tyto kategorie slov je třeba pomocí negativního slovníku odstranit, aby do výsledku nevnášely šum. Negativní slovník lze vytvořit několika způsoby:

volbou druhů slov, které nenesou význam a slouží pouze pro syntaktické účely (např. spojky, předložky, částice apod.)
volbou slov s vysokou absolutní nebo relativní frekvencí výskytu v textu dokumentu; vychází se z empiricky ověřeného předpokladu, že nevýznamová a nespecifická slova mají podstatně vyšší frekvenci v textu než významová slova. Nevýhoda metody spočívá v tom, že mezi frekventovanými slovy se může vyskytovat i důležitý indexační termín
volbou krátkých slov; vychází se z předpokladu, že nevýznamová slova jsou krátká, v tomto případě je ovšem třeba použít samostatný anti-negativní slovník, ve kterém budou obsaženy důležité krátké indexační termíny

Lematizace

Protože se slova a sousloví vyskytují v textu v různých tvarech daných jejich číslem, flexí či jinými gramatickými kategoriemi, je žádoucí slova redukovat na jejich základy tvary, resp. kmeny nebo kořeny.
Lematizaci lze provádět pomocí:

slovníku kmenů nebo kořenů; výhodou této metody je minimální chybovost, nevýhodou rozsáhlost slovníku a jeho případné omezení na specifický obor.
odstranění afixů, tzn. sufixů (přípon) a prefixů (předpon). Jedná se o nejčastěji užívanou metodu s tím, že příslušný algoritmus je obvykle schopen zohledňovat i nepravidelnou flexi (např. hláskové změny - soli x sůl). Afixy mohou být odstraňovány na základě seznamů sufixů a prefixů nebo na základě pravidel, podle kterých jsou konkrétní afixy generovány.
statisticky na základě variety po sobě následujících písmen ve slově (letter successor variety stemmers), kdy se pomocí frekvence jednotlivých shluků písmen stanovuje, zda se jedná o prefix, kořen nebo sufix. Tato metoda je nezávislá na jazyce a dokáže pružně zohledňovat nové dokumenty v databázi, nedokáže však rozlišit inflexní a derivační (slovotvorné) afixy.

Program, kterým se provádí lematizace, se nazývá lematizátor (stemmer).

Vážení

Slova z textu dokumentu mají různou důležitost pro reprezentaci jeho obsahu, proto je nutné stanovit relativní hodnotu zohledňující význam slova a podle této hodnoty uspořádat výsledný seznam indexačních termínů. Obecně hovoříme o selektivní síle indexačního termínu, která vyjadřuje schopnost termínu vyhledat z databáze množinu dokumentů, která se bude lišit od množin vyhledaných pomocí jiných termínů. Termín, který vyhledá všechny nebo téměř všechny dokumenty z databáze, má minimální selektivní sílu (definice selektivní síly je uvedena níže).
Termíny lze vážit na základě těchto základních parametrů:

samotný termín - pro váhu termínu mohou být důležité vlastní charakteristiky termínu, např. jeho slovní druh - z hlediska sémantické nosnosti jsou důležitější substantiva a adjektiva, ostatní slovní druhy získávají menší váhy nebo jsou zařazeny do negativního slovníku (viz výše)
text - roli ve váze termínu může hrát např. délka textu a počet různých termínů v textu
vztah termínu a textu - pro vážení jsou důležité tyto faktory:
- frekvence termínu v textu - předpokládá se, že frekventovanější termíny jsou relevantní indexační termíny; to se netýká nevýznamových a nespecifických slov (viz výše)
- umístění termínu ve specifické části textu, např. v názvu, abstraktu, resumé, první a poslední větě odstavce, nadpisech kapitol, grafů, tabulek apod. Tato metoda ovšem vyžaduje formální strukturaci textu dokumentu, obvykle pomocí vybraného značkovacího jazyka (např. SGML, HTML, XML apod.)
- kontext termínu
vztah termínu a všech dokumentů v databázi - určuje se např. frekvence výskytu termínu v databázi

Na základě výše uvedených základních parametrů lze stanovit dílčí frekvenční parametry váhových funkcí:
     N počet dokumentů v databázi
     f(t, T) frekvence termínu t v textu T
     f(T) počet všech termínů v textu T
     k(T) počet všech různých termínů v textu T
     n(t) počet dokumentů, které jsou označeny selekčním termínem t
     F(t) frekvence termínu t v celé databázi

VYBRANÉ VÁHOVÉ FUNKCE
Selektivní síla - nejedná se o standardní váhovou funkci, selektivní síla slouží pro stanovení míry, do jaké jsou schopny indexační termíny efektivně vyhledávat dokumenty. Nízká hodnota znamená malou selektivní sílu, vysoká hodnota znamená vysokou selektivní sílu.
((t)= ( (N-n(t)) / N )

Prostá frekvence - váží termíny pouze s ohledem na jejich absolutní frekvenci v dokumentu; nedokáže dobře rozlišovat termíny s ohledem na jejich selektivní sílu.
w(t, T) = f(t, T)

Logaritmizovaná frekvence - zohledňuje fakt, že x-násobný výskyt termínu dokumentu nemusí znamenat x-násobnou důležitost pro obsah dokumentu a redukuje frekvenci na jednotlivé řády
w(t, T) = log f(t, T)

Normalizovaná frekvence - eliminuje délku textu dokumentu. Kromě uvedeného vzorce lze normalizovanou frekvenci určit řadou dalších způsobů
w(t, T) = f(t, T) / f(T)

Relativní frekvence - zohledňuje celkový výskyt termínu v databázi. Vysoká hodnota váhy značí, že se jedná o termín s vysokou selektivní sílou, který by měl být zvolen jako indexační termín, nízká hodnota váhy znamená, že se jedná o nevýznamový nebo nespecifický termín.
w(t, T) = f(t, T) / F(t)

Inverzní dokumentová frekvence (inverse document frekvency) - dílčí váhová funkce zohledňující selektivní sílu indexačních termínů, které již byly použity pro označení dokumentů v databázi.
w(t) = log ( N / n(t) )

Pokud je při extrakci termínů zohledněna jejich pozice ve specifické části textu (např. nadpis, abstrakt, první a poslední odstavec apod.), promítá se tato skutečnost i do výpočtu váhy, nejčastěji tím způsobem, že váha termínu vyskytujícího se v obsahově důležitější části textu (např. název) je násobena koeficientem o zvolené velikosti, kdežto váhy termínů nacházejících se v obsahově méně signifikantních částech dokumentu jsou násobeny koeficienty o nižších hodnotách. Tak se dosáhne toho, že termín z obsahově důležité části dokumentu získá relativně vyšší váhu.
Váhových funkcí existuje celá řada, jejich další typy lze nalézt v literatuře (viz např. Salton a Buckley, 1988 nebo Moens, 2000:89-97).

Hodnocení automatické extrakce

K výhodám automatické extrakce patří její relativní jednoduchost, proto je snadno použitelná ve většině současných automatizovaných informačních systémů. Teoretické i metodické modely, na kterých je automatická extrakce založena, lze snadno algoritmizovat, naprogramovat a implementovat do informačního systému. Navíc, ve srovnání s intelektuální indexací, je automatická extrakce absolutně konzistentní.
Jako podstatné omezení automatická extrakce lze chápat skutečnost, že použité metody neodpovídají postupu, jakým probíhá intelektuální indexace, která není většinou realizována jako extrakce, nýbrž jako přiřazování. Z toho důvodu automatická extrakce obecně přináší horší výsledky než intelektuální indexace a přestože na základě automatické extrakce funguje velká část současných systémů, řada z nich slouží z tohoto důvodu pouze jako automatizovaná podpora intelektuální indexace. V takovém případě pak může metoda pozitivně ovlivňovat proces a výsledky indexace; např. výzkum z poloviny 70. let 20. století prokázal, že výsledky, získané editací výstupů automatické extrakce indexátorem, přinášejí srovnatelnou úplnost a lepší přesnost než intelektuální indexace.
Takové využití automatické extrakce je reprezentováno např. systémem CAIN, který je použit pro automatizovanou podporu indexace v databázi AGREP (databáze Evropských společenství obsahující probíhající projekty z oblasti zemědělského výzkumu). Systém používá termíny z názvů, abstraktů a neřízených klíčových slov a srovnává je se dvěma tezaury (AGROVOC a CAB Thesaurus), na jejichž základě navrhuje kandidáty pro indexaci. V českém prostředí lze uvést příklad automatické indexace sněmovních tisků v Kanceláři Poslanecké sněmovny Parlamentu ČR, která je založena na použití plných textů dokumentů, identifikaci relevantních termínů pomocí tezauru EUROVOC a posouzení výsledného seznamu termínů indexátorem (podobné informace o systému viz kapitola Příklady systémů automatické indexace).

Automatické přiřazování

Systémy založené na automatickém přiřazování používají podstatně složitější statistické a matematickolingvistické metody než systémy založené na automatické extrakci; je aplikována řada postupů, které jsou doménou expertních systémů a systémů založených na umělé inteligenci, jako např. rámce, pravidla, multidimenziální prostorové modely, samoučící se algoritmy, pravděpodobnostní modely (např. lineární regresní metody, bayesovský teorém), neuronové sítě apod. Z tohoto důvodu v této kapitole uvádíme pouze obecný přehled, podrobné informace o jednotlivých technikách i s příslušným matematickým aparátem lze získat v literatuře (viz např. Moens, 2000:103-132 nebo Lancaster, 1998:256-260,292-297).

Základní popis

Koncepce automatické indexace založená na automatickém přiřazování se snaží simulovat intelektuální proces indexace, který se obvykle skládá z obsahové analýzy dokumentu, identifikace termínů, jejich zařazení do pojmových tříd (s případných zobecněním) a výběru adekvátního termínu z řízeného slovníku (viz též Anderson a Pérez-Carballo, 2001a:244-252, Moens, 2000:55-58, Lancaster, 1998:8-14).
      Metody založené na automatickém přiřazování mohou pracovat buď s výsledky získanými pomocí automatické extrakce nebo přímo s plným textem; v tom případě mohou rovněž využívat některých metod známých z automatické extrakce.
      Předpokladem funkčnosti automatického přiřazování je existence strukturovaného řízeného slovníku, který může být implementován ve formě tezauru, sémantické sítě nebo znalostní báze. Klasické tezaury se svými jednoduchými vztahy hierarchie, asociace a ekvivalence jsou sice pro automatické přiřazování použitelné, ale často bývají pro větší efektivitu celého procesu a kvalitu výsledků obohaceny o další dílčí typy vztahů a forem lexikálních jednotek nebo jsou užívány společně s dalšími externími slovníky či znalostními bázemi. (viz např. kapitolu o systému NASA MAI Tool).
      Řízený slovník užívaný při automatickém přiřazování je tvořen množinou pojmů, mezi nimiž jsou definovány explicitní vztahy. Jednotlivé pojmy jsou reprezentovány termínem a jeho profilem (pattern); profilem se rozumí souhrn charakteristik (termínů nebo jiných položek), které na různé úrovni reprezentují daný pojem (syntaktické, morfologické nebo lexikální varianty termínu) nebo se k němu vztahují na základě definovaných atributů (rododruhové vztahy, vztahy celek-část, příčina-následek apod.). Profil pojmu je pak základním prostředkem pro správné určení a přiřazení indexačního termínu [7].
      Procedura automatického přiřazování probíhá obecně v těchto základních krocích:

identifikace termínů v plném textu
srovnání termínů s relevantními profily pojmů z řízeného slovníku
určení indexačních termínů na základě profilu pojmů reprezentovaných termíny vybranými z textu

Zdánlivě jednoduchý postup skrývá řadu metodologických problémů, které tkví zejména ve skutečnostech, že:

výskyt výrazu z dokumentu v profilu pojmu nemusí být dostatečným důvodem pro přiřazení daného termínu
pojem může být v textu vyjádřen složitou kombinací termínů; určení relevantní kombinace termínů vyžaduje další poměrně složité metody
pojem není v textu reprezentován explicitně, ale pomocí nepřímého odkazu (např. prostřednictvím zájmena odkazující na jinou část textu)

Pro řešení těchto problémů byla vyvinuta řada alternativních metod, založených např. na pravděpodobnostních modelech.
K problémům s přiřazováním termínů se při neexistenci řízeného slovníku připojuje otázka jeho konstrukce.V tomto případě sice lze uvažovat o automatické tvorbě tezauru nebo znalostní báze, která je však problematická zejména z důvodů složitosti automatické identifikace vztahů mezi pojmy. Pro tyto účely se pak vyvíjejí sofistikované systémy s prvky umělé inteligence založené na pravidlech, rámcích a vzorcích, příp. i se zakomponovanými samoučícími se prvky.

Hodnocení automatického přiřazování

Přestože výzkum a rozvoj metod automatického přiřazování probíhá již od 60. let 20. století, ještě ke konci 80. let nebyly jeho výsledky příliš uspokojivé. Např. studie provedená v r. 1987 [8] v databázi BIOSIS prokázala, že účinnost automatického přiřazování je na 60-67%ní úrovni ve srovnání s intelektuálním zpracováním, a to jak z hlediska počtu přiřazených termínu, tak z hlediska počtu správně přiřazených termínů. [9]
     Metody a techniky automatického přiřazování od prvních pokusů v 60. letech značně pokročily, stále však není reálné zcela automatické přiřazování termínů bez intelektuálního zásahu. Tato skutečnost se týká zejména systémů využívajících velkých řízených slovníků (tisíce až desetitisíce termínů) a obsahujících dlouhé texty pojednávající o komplexních, obecných nebo heterogenních tématech.
     Metoda automatického přiřazování obecně selhává, pokud je hodnocena z hlediska kvality výsledků intelektuální indexace. Nicméně i v těchto případech mohou být, podobně jako u automatické extrakce, výsledky automatizovaných procedur podkladem pro další intelektuální zpracování indexátorem. [10]
     Metoda automatického přiřazování je poměrně účinná při aplikaci ve specifických oborech a disciplínách; relativně účinné jsou rovněž systémy pracující s krátkými texty (např. abstrakty nebo resumé) a s malým řízeným slovníkem. Také v aplikacích určených pro speciální účely (např. klasifikace minerálů) lze metodu s úspěchem využívat.
     Příkladem toho, že metoda automatického přiřazování není bezproblémová ani na konci 20. století, je studie z r. 1993, [11] která na testovacích datech doložila, že v daném případě prosté vyhledávání v plném textu dokumentu přináší lepší výsledky než vyhledávání pomocí termínů automaticky přiřazených na základě tezauru [12].
     Dlouhodobě neuspokojivé (resp. ne zcela uspokojivé) praktické výsledky metod automatického přiřazování vedly v posledních dvou dekádách k určitému odklonu zájmu od této problematiky; řada autorů se věnuje spíše teoretickým aspektům problematiky (např. pojmovému modelování) než praktickým implementacím ověřených metod. Důležitou roli také hraje skutečnost, že všeobecná dostupnost plných textů v elektronické podobě a účinnost moderních vyhledávacích technik (např. vektorové vyhledávání, pravděpodobnostní modely vyhledávání, latentní sémantické indexování, fuzzy modely vyhledávání, neuronové sítě, bayesovské sítě apod. - blíže viz Baeza-Yates a Ribeiro-Neto, 1999) význam indexace coby základního předpokladu pro efektivní vyhledávání dokumentů podstatně snižuje. To ovšem nic nemění na skutečnosti, že řada funkčních systémů založených na automatickém přiřazování ve specifických disciplínách existuje a je úspěšně používána. -->DALŠÍ KAPITOLA