SOUČASNÝ STAV A TRENDY AUTOMATICKÉ INDEXACE DOKUMENTŮ
Schwarz, Josef. Současný stav a trendy automatické indexace dokumentů : přehledová studie. Praha, říjen 2002.
PODROBNÝ OBSAH
Souhrnné informace o studii | Úvod | Typy a techniky automatické indexace | Celkové hodnocení současných výsledků a trendů automatické indexace | Praktické aspekty implementace automatické indexace | Příklady systémů automatické indexace | Automatizované zpracování textu v ČR | Poznámky | Reference |
Praktické aspekty implementace automatické indexace
Při úvahách, zda implementovat některou z metod automatické indexace do vlastního informačního systému, je třeba posoudit řadu okolností. O využití automatické indexace lze uvažovat v případě, pokud je splněna většina těchto podmínek:
- plné texty dokumentů, které mají být indexovány, existují v elektronické podobě a v lepším případě jsou strukturovány např. pomocí některého ze značkovacích jazyků (SGML, HTML, XML); strukturace dokumentů je nezbytná, pokud mají být implementovány metody založené na využití formalizované struktury dokumentů
- automatická indexace musí být účinnější nebo stejně účinná jako intelektuální indexace, resp. musí intelektuální indexaci zkvalitňovat anebo zrychlovat
- náklady na tvorbu, implementaci a provoz automatické indexace musí být nižší nebo stejné jako náklady na intelektuální zpracování; vyšší náklady lze akceptovat pouze při dosažení výrazně vyšší kvality výstupů
- informační systém je oborově zaměřený; systémy automatické indexace fungují dobře pouze v poměrně úzce vymezených oborech či disciplínách a jejich implementace do systému, který není oborově vymezen, je problematická
- nejsou dostupné moderní vyhledávací metody, které zajišťují efektivní vyhledávání v plných textech dokumentů a které jsou schopné automatickou indexaci do značné míry nahradit
Důležitým aspektem při rozhodování také může být skutečnost, že implementace automatické indexace předpokládá ve většině případů tvorbu systému "šitého na míru"; komerčních aplikací, které by byly bez zásadních úprav použitelné ve vlastním informačním systému (pokud se nejedná o velmi specifické případy), existuje minimum.
Také údržba systému nemusí být bez komplikací, zvláště pokud systém obsahuje sémantické komponenty, které vyžadují průběžnou aktualizaci.
Obecně lze konstatovat, že systémy automatické indexace vyvíjejí oborově zaměřené instituce, které zpracovávají velké objemy dokumentů, které je nezbytné kvalitně a konzistentně indexovat. V řadě případů se jedná o dokumenty zahrnující také komprimovaný text (např. abstrakt), na který lze použít některou z metod automatické indexace s relativně velkým úspěchem. Při dostupnosti plných textů dokumentů se dnes již spíše používá některé z pokročilých vyhledávacích metod, jejichž vývoj a implementace jsou obdobně technicky i finančně náročné jako u automatické indexace, ale v řadě případů přináší adekvátnější výsledky.
-->DALŠÍ KAPITOLA