Současný stav a trendy automatické indexace dokumentů

SOUČASNÝ STAV A TRENDY AUTOMATICKÉ INDEXACE DOKUMENTŮ

Schwarz, Josef. Současný stav a trendy automatické indexace dokumentů : přehledová studie. Praha, říjen 2002.

Úvod

Terminologické poznámky

Vzhledem k tomu, že se domácí odborná literatura automatickou indexací systematicky nezabývá a neexistuje proto ustálená terminologie, u vybraných termínů uvádíme jejich anglické ekvivalenty, aby zůstala zachována vazba na odbornou terminologii užívanou v cizojazyčných textech.
Většina současných systémů určených pro automatickou indexaci (vč. komerčních) nepracuje plně automaticky, nýbrž funguje jako automatizovaná podpora intelektuální indexace (intellectual indexing, human indexing). [1] V zahraniční literatuře se proto v těchto kontextech používá termín machine-aided indexing, popř. computer-aided indexing, který lze přeložit jako indexace s podporou počítače, popř. poloautomatická indexace. V dalším textu je však pro jednoduchost používán výhradně termín automatická indexace.

Automatická indexace vs intelektuální indexace

Intelektuální indexace je časově i intelektuálně náročný proces, který ovlivňuje řada objektivních i subjektivních faktorů (blíže viz Anderson a Pérez-Carballo, 2001a:238-252, Lancaster, 1998:65,79-81, Bonura, 1994:12, Schwarz, 2001a). To jsou důvody, které hovoří pro využití automatické indexace, ale zároveň představují i její limity: metody automatické indexace nepřinášejí zatím dostatečné výsledky proto, že automatické porozumění textu je v podstatě v počátcích a jsou používány metody, který celý proces indexace podstatně zjednodušují a tím ve srovnání s intelektuální indexací snižují kvalitu výsledků, nehledě na časovou a finanční náročnost vývoje těchto technologií. Na druhou stranu, automatická indexace umožňuje odstranit subjektivní faktory intelektuální indexace, které mají vliv především na konzistenci indexace, a podstatně snížit časovou náročnost indexačního procesu.
V současnosti je výzkum a vývoj systémů automatické indexace ve fázi, kdy nelze hovořit o plně automatické indexaci. Technologie automatické indexace jsou většinou implementovány jako hybridní systémy, ve kterých se uplatňuje automatická indexace coby automatizovaná podpora intelektuální činnosti indexátora. Základní princip takových hybridních systémů spočívá v tom, že pomocí automatizované indexace je připraven seznam výrazů, které jsou potenciálními kandidáty pro výběr indexačních termínů. Tento výběr v závěrečné fázi indexace provádí indexátor. Jak ukazují některé výzkumy, tento způsob indexace může nejen zrychlit a zjednodušit indexační proces, ale i zkvalitnit jeho výsledky, které při vyhledávání pozitivně ovlivňují především míru přesnosti (precision rate).
Automatická indexace musí řešit řadu problémů, jež z hlediska intelektuální indexace představují běžné myšlenkové pochody. Jedná se např. o tyto skutečnosti (viz též Moens, 2000:7-10, Bonura, 1994:150-151):

text obsahuje pojmy, které nejsou explicitně vyjádřeny
text obsahuje slova, která nejsou z hlediska obsahu dokumentu relevantní
text obsahuje nepřímé odkazy na jiné části téhož textu nebo na jiné texty
řada slov je synonymních nebo naopak homonymních
význam slov se mění v čase nebo mezi jednotlivými dokumenty
text v přirozeném jazyce obsahuje slova v různých tvarech daných mluvnickými kategoriemi (číslem, rodem, flexí apod.).

Všechny tyto a další problémy je třeba v rámci automatické indexace pomocí poměrně sofistikovaných metod řešit, pokud se mají její výsledky kvalitou alespoň částečně přiblížit intelektuální indexaci. Je třeba podotknout, že automatická a intelektuální indexace se sice v současném pojetí chápou jako metodicky odlišné, z hlediska výsledku (indexace a vyhledávání) však navzájem komplementární postupy, jejichž společnou implementací se dosahuje lepších výsledků než použitím pouze jedné z nich. Aktuálním stavem vztahu automatické a intelektuální indexace se nejnověji zabývá rozsáhlá komparativní studie Anderson a Pérez-Carballo (2001a a 2001b) a sborník Fidel a další (1994); důležitost intelektuální indexace akcentuje pomocí konkrétních příkladů Tenopir (1999), kritický a skeptický přístup k automatické indexaci zaujímá Bloomfield (2001:71-73).

Kontexty a souvislosti

Automatická indexace patří do širší oblasti automatizovaného (strojového) zpracování textu (text processing), resp. obecně do oblasti zpracování přirozeného jazyka (natural language processing) (blíže viz Salton, 1989, Lancaster, 1998:222-250). Při vývoji systémů automatické indexace se proto za pomocí poznatků z různých oborů (lingvistika, statistika, matematická lingvistika, kognitivní věda, informační věda, výpočetní technika) řeší problémy spojené se strukturou a reprezentací textu (např. otázky intertextuality, formálních a sémantických struktur textu, kvantitativních charakteristik textu), s percepcí textu a jeho porozumění čtenářem (modely perceptivních typů) nebo problémy související s vlastnostmi přirozeného jazyka, jako jsou např. otázky synonymie, homonymie, polysémie, morfologie, syntaxe, frazeologie apod. [2]
Automatická indexace také úzce souvisí s vyhledáváním informací (information retrieval) (viz např. Moens, 2000:16-22). Na jedné straně kvalita automatické indexace výrazně ovlivňuje kvalitu vyhledávání, na druhé straně jsou metody automatické indexace a vyhledávání informací z hlediska požadovaného výsledku - získání relevantních dokumentů na výstupu z informačního systému - zástupné; někteří autoři např. považují vyhledávání v plném textu dokumentu za nejjednodušší formu automatické indexace (viz např. Anderson a Pérez-Carballo, 2001b:258 nebo Moens, 2000:24). Podstatný je také trend směřující k vývoji takových vyhledávacích metod, které budou za pomoci technologií umělé inteligence pracovat přímo s plným textem a k automatické indexaci v původním slova smyslu nebude vůbec docházet; dojde k posunu od systémů založených na externí bázi pojmů či znalostí (knowledge-based systems) k systémům založených přímo na zpracování plného textu dokumentů (text-based systems).
Automatická indexace má také těsnou vazbu na automatickou klasifikaci (Lancaster, 1998:261-267), automatické shlukování (clustering) (Anderson a Pérez-Carballo, 2001b:265-266) a automatické abstrahování (abstracting) dokumentů (Moens, 2000:133-154, Lancaster, 1998:267-272) - o těchto tématech se často hovoří společně a někdy se také zaměňují - v případě indexace obecnými třídami se mluví spíše o automatické klasifikaci než automatické indexaci. Prolínají se také problematiky automatického shlukování a klasifikace, protože obě mají stejný účel - rozčlenit dokumenty do základních tříd; každá z metod však používá odlišných postupů. Automatická indexace také bezprostředně souvisí s automatickou tvorbou tezauru, příp. vytvářením sémantických sítí nebo znalostních bází, které jsou nezbytným předpokladem pro odpovídající funkčnost metod založených na automatickém přiřazování (viz dále). -->DALŠÍ KAPITOLA