SOUČASNÝ STAV A TRENDY AUTOMATICKÉ INDEXACE DOKUMENTŮ

Schwarz, Josef. Současný stav a trendy automatické indexace dokumentů : přehledová studie. Praha, říjen 2002.

PODROBNÝ OBSAH
Souhrnné informace o studii | Úvod | Typy a techniky automatické indexace | Celkové hodnocení současných výsledků a trendů automatické indexace | Praktické aspekty implementace automatické indexace | Příklady systémů automatické indexace | Automatizované zpracování textu v ČR | Poznámky | Reference |


Celkové hodnocení současných výsledků a trendů automatické indexace

Problematika automatické indexace se v disciplínách zabývajících se zpracováním textu řeší již od konce 50. let 20.století [13], kdy začaly být v elektronické verzi dostupné plné texty dokumentů nebo alespoň jejich části (např. abstrakty nebo názvy). V rámci mezinárodního výzkumu a vývoje v této oblasti vznikla řada teoretických, metodických, komparativních a případových studií, které se zabývají možnostmi a účinností různých modelů a technik automatické indexace. Velké úsilí bylo věnováno vytvoření teoretických, resp. koncepčních a funkčních modelů automatické indexace, vývoji metod a technik automatické indexace a tvorbě a testování úspěšnosti konkrétních systémů pro automatickou indexaci (podrobně viz (Lancaster, 1998:251-295).
     Přestože se podařilo vyvinout řadu funkčních systémů pro automatickou indexaci, více než čtyřicetiletá snaha zatím nevedla k vývoji systémů, které by byly plně funkční z hlediska ideálních nároků na úplnou automatizaci procesu indexace a na univerzálnost těchto systémů (většina v současnosti fungujících systémů je specificky oborově zaměřená). Intelektuální indexace přináší ve srovnání s řadou automatických procedur (vč. např. latentního sémantického indexování) doposud lepší výsledky. Systémy automatické indexace jsou také částečně účinné mj. proto, že doposud nebyly dostatečně prozkoumány a podrobně popsány všechny intelektuální procesy související s indexačním procesem.
     Na druhou stranu je třeba uvést, že řada technologií, jejichž účinnost byla v předchozích letech potvrzena výzkumem a řadou studií, je v současnosti implementována ve formě expertních systémů [14], systémů pracujících na základě umělé inteligence nebo ve vyhledávacích systémech. Tam, kde se podařilo automatickou indexaci úspěšně implementovat, je podstatně rychlejší a levnější než intelektuální indexace a přináší srovnatelné výsledky. V systémech, které pracují s velkými objemy dat, je automatická indexace v podstatě nezastoupitelná (Anderson a Pérez-Carballo, 2001a:236).
Výrazným trendem v praktické implementaci automatické indexace je její kombinace s intelektuální indexací za účelem vytvoření maximálně účinného systému indexace, v němž automatická indexace slouží k provádění operací, jež je možné v rámci indexačního procesu s úspěchem automatizovat, a intelektuální indexace se používá pro tvorbu přidané hodnoty, která zlepšuje celkovou kvalitu indexace a pozitivně tak ovlivňuje i výsledky vyhledávání (Anderson a Pérez-Carballo, 2001b:270-272). Tento přístup zohledňuje dlouholetým výzkumem a praxí potvrzenou skutečnost, že automatická indexace má své kvalitativní limity, na druhou stranu však může být pozitivním přínosem pro celkové zlepšení indexace, zvláště pokud jsou její výsledky upraveny pomocí intelektuální indexace.
     Další výzkum v oblasti bude orientován především na prohloubení poznatků o struktuře textu, reprezentaci informací a poznatků, rozeznávání sémantických kategorií termínů, klasifikaci textů, rozpoznávání smyslu slov, pravděpodobnostní modely vážení termínů a další otázky související s automatizovaným zpracováním textu a přirozeného jazyka. Důležité jsou rovněž obecné otázky komunikačních paradigmat a kognitivních procesů, probíhajících při percepci a intelektuálním zpracování textu, ať už se jedná o jeho indexaci, klasifikaci nebo abstrahování.
-->DALŠÍ KAPITOLA