SOUČASNÝ STAV A TRENDY AUTOMATICKÉ INDEXACE DOKUMENTŮ

Schwarz, Josef. Současný stav a trendy automatické indexace dokumentů : přehledová studie. Praha, říjen 2002.

PODROBNÝ OBSAH
Souhrnné informace o studii | Úvod | Typy a techniky automatické indexace | Celkové hodnocení současných výsledků a trendů automatické indexace | Praktické aspekty implementace automatické indexace | Příklady systémů automatické indexace | Automatizované zpracování textu v ČR | Poznámky | Reference |


Poznámky

  1. Někdy se používá méně vhodného termínu manuální indexace (manual indexing).
  2. Automatická indexace se uplatňuje i ve zpracování obrazových, zvukových a audiovizuálních informací a dokumentů, v těchto oblastech je však vývoj funkčních technologií v podstatě na počátku (Anderson a Pérez-Carballo, 2001b:256).
  3. Kmen je slovní základ, který může být tvořen pouze kořenem (např. ruka), kořenem a slovotvornou příponou (např. ruč-ní) nebo dvěma kořeny (např. vino-hrad).
  4. Rozpoznávání podle mezer nelze uplatnit v některých jazycích, např. čínštině, kde každý znak reprezentuje spíše jeden morfém nebo slabiku než slovo. Pro identifikaci se slov se v takových případech používají stejné techniky jako pro identifikaci sousloví.
  5. Výklad termínu viz kapitola Vážení.
  6. Tímto slovníkem může být i řízený slovník selekčního jazyka, např. tezaurus.
  7. Od klasického tezauru se tato struktura podstatně liší rozsáhlejší množinou ekvivalentů a dalších sémantických informací.
  8. VLEDUTS-SOKOLOV, N. Concept recognition in an automatic text-processing system for the life sciences. Journal of the American Society for Information Science, 1987, roč. 38, s. 269-287. Cit. dle LANCASTER, F. W. Indexing and abstracting in theory and practice. 2nd ed. London : Library Association Publishing, 1998, s. 258.
  9. Jako řízený slovník byl v tomto případě použit sémantický slovník s 15 000 termínů z oblasti biologie, výstupem (indexačními termíny) bylo cca 600 obecnějších klíčových slov (concept headings).
  10. HEARSH, W. R. a kol. Words, concepts, or both : optimal indexing units for automated information retrieval. In Sixteenth Annual Symposium on Computer Applications in Medical Care. New York : McGraw, 1993, s. 644-648. Cit. dle LANCASTER, F. W. Indexing and abstracting in theory and practice. 2nd ed. London : Library Association Publishing, 1998, s. 259.
  11. Tomuto postupu se často nevyhnou ani poměrně sofistikované systémy, zamýšlené jako plně automatizované, přesto vyžadující v konečné fázi indexace lidský zásah (viz např. systém AIR/PHYS - Lustig, 1986:170-173 a Rozkopal, 1994:94-96)
  12. Jednalo se o oblast medicíny, použit byl metatezaurus UMLS - Unified Medical Language System.
  13. V literatuře se jako na historicky první studii odkazuje k práci: LUHN, H. P. A statistical approach to mechanized enconding and searching of literary information. IBM Journal of Research and Development, 1957, roč. 2, č. 2, s. 159-165. Kvalitní přehled dalšího vývoje obsahují např. Anderson a Pérez-Carballo, 2001b nebo Lancaster, 1998.
  14. Příkladem může být systém MedIndEx - Medical Indexing Expert (National Library of Medicine), který je standardním expertním systémem založeným na rámcím poskytujícím podporu nezkušeným (neprofesionálním) indexátorům. Jinak je zaměřena např. aplikace CAIT - Computer-Assisted Indexing Tutor (National Agricultural Library) (viz http://www.nal.usda.gov/NewAlin/1995aprjun/arpjun1995/952cait.htm), jejímž účelem je praktický výcvik indexátorů.
  15. Viz např. firma SKIK V. Smetáčka - http://www.skik.cz a zejména rozhovor s ním: Jedličková, 2002
  16. Zpočátku se jednalo o cca 500 sémantických rysů (kódů) (Smetáček, 1982a:57), později o cca 630 (Smetáček, 1982b:17), resp. až 650 kódů (Uličný, 1987).
  17. Volně podle Smetáček, 1984b
  18. Databáze BALEX obsahovala lexikální jednotky, znaky selekčních jazyků a jejich ekvivalentní sémy. V polovině 80. let obsahovala databáze BALEX 82 000 českých a 93 000 anglických lexikálních jednotek (Smetáček a Kubešová, 1986:101). Blíže o databázi BALEX viz Smetáček a Kubešová (1986).
  19. "Tento postup [tvorba tezauru pomocí metody SEMAN] je pochopitelně při praktické aplikaci složitější a podklady, které vytvoří počítač, je třeba intelektuálně překontrolovat" (Smetáček, 1984:63).
  20. Např. experimentální verze, která pracovala s texty z elektroniky, obsahovala slovník 765 čtyřznakových koncových segmentů. Negativní slovník obsahoval 16 počátečních segmentů.
  21. Obsah databáze:
  22. Všechny číselné údaje se vztahují k roku 1999.
  23. Tj. textové v protikladu k pojmové (sémantické) struktuře textu.
-->DALŠÍ KAPITOLA