Současný stav a trendy automatické indexace dokumentů

SOUČASNÝ STAV A TRENDY AUTOMATICKÉ INDEXACE DOKUMENTŮ

Schwarz, Josef. Současný stav a trendy automatické indexace dokumentů : přehledová studie. Praha, říjen 2002.

Automatizované zpracování textu v ČR : historicko-bibliografický exkurz

Stručný souhrn

Přestože se v bývalém Československu začal rozvíjet výzkum a vývoj v oblasti automatizovaného zpracování textu až od konce 60. a začátku 70. let 20. století, tedy s cca 15letým zpožděním oproti špičkovým zahraničním pracovištím, vznikla zde řada nejen regionálně, ale i mezinárodně jedinečných systémů, které byly určeny k automatizovanému zpracování textu především v oblasti automatické indexace, automatické tvorby tezauru a automatického překladu. Na světové úrovni, zejména zásluhou P. Sgalla, se v Československu rozvinula také matematická lingvistika, označovaná také jako komputační lingvistika, a zejména v druhé polovině 90. let 20. století rovněž i korpusová lingvistika. Většina uvedených systémů dnes slouží k výzkumných účelům, ale některé z nich jsou částečně dostupné i komerčně (týká se to např. systému LEGSYS).

Vývoj před rokem 1989

Většina systémů byla vyvíjena jako projektové úkoly v rámci bývalé soustavy VTEI na specializovaných pracovištích nebo v jednotlivých oborových nebo odvětvových střediscích VTEI. V 70. letech 20. století to byly zejména experimenty s automatickou indexací prováděné J. Janošem v OBIS při závodě Turbiny podniku Škoda Plzeň (souhrnně viz Janoš, 1976), které však přes úspěšnost zvolené metody nebyly z organizačních a finančních důvodů převedeny do praktického provozu (Rozkopal, 1994:40). Za zmínku stojí také jednoduchá, ale účinná metoda automatické indexace AUTIS-AI vyvinutá na konci 80. let 20. století J. Hradilem v ODIS VTEI pro uhelný průmysl v Ostravě, která byla v bibliografické databázi AUTIS-uhlí (150 000 záznamů) používána až do r. 1996 (Hradil, 1987; Rozkopal, 1994:47-57).
Od začátku 70. let byl v rámci soustavy VTEI vyvíjen i systém SEMAN (Smetáček, 1982b a 1984a) a na akademické půdě (MFF UK) systém MOZAIKA (Kirschner, 1979 a 1983), přestože publikační činnost vztahující se k těmto systémům lze zaznamenat až o deset let později. 70. a 80. léta představovala také období rozvoje matematické, komputační a korpusové lingvistiky pod vedením P. Sgalla; vzniklo specializované pracoviště (dnes Ústav formální a aplikované lingvistiky/Centrum komputační lingvistiky na MFF UK), znalosti a zkušenosti jeho pracovníků byly zúročeny i v současném projektu Pražského závislostního korpusu.

Vývoj po roce 1989

V souvislosti s rozpadem soustavy VTEI po roce 1989, resp. 1991, oba největší systémy (SEMAN a MOZAIKA) budované téměř 20 let fakticky zanikly, i když koncepty, metodologie a technologie byly prostřednictvím hlavních autorů alespoň částečně přeneseny do projektů moderních systémů, někdy budovaných na komerční bázi [15].
      V oblasti korpusové lingvistiky vznikly dva velké projekty, Pražský závislostní korpus navazující na činnost týmu P. Sgalla, a Český národní korpus, tvořený v nově vzniklém (1994) Ústavu Českého národního korpusu na FF UK (http://ucnk.ff.cuni.cz).
     V oblasti pojmového modelování a tvorby znalostních bází byl rozvinut velmi pozoruhodný projekt v Ústavu státu a práva AVČR, který je realizován v rámci právního informačního systému LEGSYS (Kořenský, Cvrček a Novák, 1999; též http://www.legsys.cz).
     Na svůj předchozí výzkum a publikační činnost navazuje M. Cigánik, který se snaží o komplexní pohled na automatizované zpracování textu za pomocí syntaktické analýzy, reprezentace metainformací, templátové logiky, ontologických entit a dalších progresivních přístupů (viz např. Cigánik 1999a a 1999b).

Popis vybraných českých systémů pro automatizované zpracování textu

SEMAN
SEMAN (SÉMantický ANalyzátor) se podařilo rozvinout v průběhu 70. a 80. let 20. století v experimentálním i rutinním provozu a ověřit tak metodu, která problémy spojené s automatickou analýzou textu řešila na základě sémantické analýzy přirozeného jazyka. SEMAN umožňoval nejen automatickou tvorbu tezauru, ale i propojování odlišných selekčních jazyků, vyhledávání v databázích používajících různé selekční jazyky, automatické vyhledávání v plnotextových databázích a automatický překlad.
Základním principem metody SEMAN je převod výrazů přirozeného jazyka na kombinace omezeného počtu rozlišujících sémantických rysů trojího druhu: sémů, sémových operátorů a pomocných pořadatelů [16]. Sém vyjadřuje jeden sémantický rys pro celou třídu lexikálních jednotek přirozeného jazyka, u kterých lze tento rys identifikovat, sémový operátor modifikuje obsah sému a pomocné pořadatele specifikují obsah sému na velice podrobné úrovni (v případě vlastních jmen). Pro sémy a sémové operátory jsou stanoveny formální kódy, které nemají vztah k obsahu sému ani obsahu lexikální jednotky. Sémový výraz je pak kód sému případě spojený s příslušnými kódy sémových operátorů; lexikální jednotka je popsána sémovým ekvivalentem, který je představován souborem sémových výrazů. Mezi sémy byly stanoveny sémantické vztahy, z nichž většina měla paradigmatický charakter a byla do určité míry obdobná sémantickým vztahům v tezauru (Smetáček, 1982b:16-27).
Na příkladě automatické tvorby tezauru lze demonstrovat, jak metoda SEMAN prakticky fungovala [17]:

Výběr lexikálních jednotek budoucího tezauru proběhl z databáze BALEX [18] intelektuálně nebo automaticky pomocí volby nejobecnějších lexikálních jednotek. Prostřednictvím těchto obecných lexikálních jednotek bylo na základě vztahů mezi sémy možno automaticky vybrat celé lexikum tezauru. Požadované lexikální jednotky, které databáze BALEX neobsahovala, bylo možno vložit v průběhu této první etapy.
Ve druhém kroku byl proveden výpočet koeficientu příbuznosti dvojic lexikálních jednotek, který byl stanovován na základě počtu shodných sémů dvou lexikálních jednotek.
Následovalo abecední seřazení dvojic lexikálních jednotek a stanovení jejich vztahů (ekvivalence, asociace, hierarchie) na základě předchozího výpočtu a dalších hodnot (např. vah sémů).
Na závěr bylo provedeno vyloučení dvojic lexikálních jednotek, u nichž koeficient příbuznosti nedosahuje zvolené limitní hodnoty, sloučení shodných lexikálních jednotek a výstup ve formě klasického tezauru.

Tvorba tezauru pomocí metody SEMAN byla sice označována jako automatická (resp. automatizovaná) tvorba tezauru, nicméně vzhledem k prvnímu kroku a vzhledem k tomu, že výsledky uvedeného postupu sloužily "pouze" jako podklady pro další intelektuální práci na tezauru, [19] se zjevně jednalo o poloautomatickou tvorbu tezauru.

Metoda SEMAN představovala ojedinělý a ve své době úspěšný pokus o sémantickou analýzu přirozeného jazyka a jeho aplikaci pro různé oblasti automatizovaného zpracování textů. Dobové hodnocení spatřuje přínos metody zejména v tom, že ve srovnání s intelektuálními metodami přináší časové a pracovní úspory a přitom je na kvalitativně srovnatelné úrovni (Uličný, 1987). K tomu je nutno podotknout, že prvotní tvorba sémantického jazyka, analýza desítek tisíc lexikálních jednotek přirozeného jazyka a jejich vyjádření pomocí sémů a dalších sémantických rysů si vyžádala obrovské množství analytické práce. Pracnost tvorby sémantického jazyka byla jednou z nevýhod této metody. Dalším principiálním omezením metody byly problémy spojené s vyjádřením obsahu lexikálních jednotek a především specifických odborných termínů pomocí sémantických jednotek, které z důvodů své částečné subjektivity vedly k omezené kvalitě zpracovávaných výstupů a nutnosti následných intelektuálních úprav.
Další informace o SEMANu lze nalézt v řadě publikovaných materiálů (viz kap. Přehledová bibliografie automatizovaného zpracování textu v ČR, část SEMAN).

MOZAIKA

MOZAIKA (na Morfologickém Odvozování Založené Automatické Indexování Koherentními Agregáty) je poměrně sofistikovaná technologie automatického indexování, vyvinutá v 70.-80. letech 20 století na MFF UK, proto pouze stručně popíšeme její základní charakteristiky a pro detailní popis odkážeme na literaturu (viz kap. Přehledová bibliografie automatizovaného zpracování textu v ČR, část MOZAIKA):

indexační termíny se vybírají z textu
žádoucí jsou termíny maximálně charakterizující obsah textu
upřednostňují se víceslovné termíny
nepoužívá se předem připravený řízený slovník

Identifikace termínů probíhá v systému MOZAIKA na základě charakteristických sufixů (koncovek), které jsou uvedeny ve slovníku koncových segmentů [20] a charakterizují dané třídy termínů. Automatické procedury probíhaly ve dvou fázích:

morfologicko-syntaktická analýza:
1. vyloučení nevýznamových termínů pomocí negativního slovníku
2. identifikaci specifických slov (předložky, spojky), které mohou být důležité pro syntaktickou analýzu
3. určení potenciálně vhodných indexačních termínů za pomoci slovníku koncových segmentů
4. vážení termínů na základě zvolené frekvenční funkce
syntaktická analýza
1. jednotlivé indexační termíny jsou složeny do sousloví, tzv. koherentních agregátů
2. na základě předložek či spojek jsou identifikována spojení jmenných frází
3. úprava vah termínů

MOZAIKA byla jako systém úspěšně testována v několika oborech, nejlepších výsledků bylo dosaženo zejména v disciplínách s ustálenou terminologií. Metoda je vhodná zejména pro jazyky, které mají rozvinutou flexi a gramatickou shodu, určitých pozitivních výsledků bylo kromě češtiny, slovenštiny a ruštiny dosaženo i v němčině. Metoda však nedokáže dostatečně řešit problémy synonymie, homonymie a skrytých vztahů v textu.

Systém LEGSYS a pojmové modelování právního jazyka

Ústav státu a práva AVČR vybudoval během 90. let 20. století jedinečnou znalostní databázi právních textů, která ve značné retrospektivě zahrnuje rozsáhlý soubor různých typů právních textů [21]. Od dalších právních systémů se liší tím, že:

všechny dokumenty jsou důsledně strukturovány (používá se vlastní značkovací jazyk na bázi XML)
každý jedinečný termín z textu dokumentu je zařazen do několika desítek lingvistických, pojmových a dalších kategorií, čímž de fakto dochází k tvorbě ontologických entit
obsahuje řadu dílčích pomocných databází

Tyto charakteristiky řadí systém na úroveň znalostní báze, která umožňuje provádět např. rozsáhlé kvantitativní a kvalitativní charakteristiky intratextové (vztah obsahu části dokumentů jako část, hlava, oddíl, paragraf) a intertextové struktury právního textu (vztah zákona k dalším právním dokumentům z hlediska novelizace, derogace apod.) nebo analýzu formální i věcné struktury právních pojmů. Vývoj systému směřuje k tomu, aby byla umožněna automatická generace právních textů, alespoň na úrovni podpory intelektuální činnosti zákonodárce.
Komerčně dostupná verze systému obsahuje pochopitelně pouze část těchto možností, v databázi je např. zajištěna derivace tvarů rešeršních termínů a proximitní vyhledávání.
Pro ilustraci následuje popis některých komponent a analytických možností systému, podrobné informace lze nalézt v publikaci KOŘENSKÝ, J., CVRČEK, F., NOVÁK, F. (1999).

Databáze plných textů, označuje se jako úplný slovník - obsahuje 5500 právních předpisů a 3500 judikátů, 29 283 462 slov (délka databáze) [22]. Databáze obsahuje všechna různá slova, číslice a speciální znaky s uvedením četností v celé databázi. Databáze obsahuje i tvary slov, které se nevyskytují v textech; tyto položky mají nulovou četnost. Slovník obsahuje (stav 1998) 261 608 slov. Poměr slovníku k délce databáze je 0,9%.
Databáze mapa, označuje se jako LEMMA - obsahuje všechna slova, číslice a speciální znaky za sebou tak, jak se vyskytují v textech. Databáze zahrnuje základní tvary slov s kumulativními četnostmi. Tato databáze neobsahuje číslice. Databázi lze setřídit podle libovolné položky. Databáze také zahrnuje následující položky:
- základní tvar slova
- typ, který zahrnuje speciální znaky, číslice-zvláštní soubor, česká slova, zkratky s tečkou, římské číslice, zkratky bez tečky, pomocné znaky (", apod.), slovenská slova, cizí slova
- slovní druh
- rod
- životnost
- příslušnost ke kmenové sémantické (resp. onomasiologicko-slovotvorné) skupině (např. daň, danit, zdanění)
- typy právních významů
- četnost
- číslo základního slovního tvaru
Databáze obsahuje 118 309 položek, z toho cca 80% jsou česká slova. Poměr slovníku LEMMA k úplnému slovníku je cca 45%.
Automatické vyhledávání konceptuálních objektů - byla provedena podrobná analýza morfologicko-syntagmatické struktury právního textu, resp. právních pojmů a vypracován její obecný model. Na podobně podrobné úrovni je zpracována segmentace textu právních textů na základě formálních a věcných (syntakticko-sémantických) ukazatelů, která slouží pro identifikaci konceptuálních objektů, opět jako obecný model. Pro identifikaci povahy vztahu mezi formálními a věcnými ukazateli je navržen obecný algoritmus. Je popsána problematika syntagmat v rámci segmentů textu a analyzovány spojovací prostředky v rámci syntaktické segmentace formální věty. Analýzy jsou provedeny na úrovni bezprostředně využitelné pro algoritmizaci.
Analýza struktury právních textů a právních pojmů - zahrnuje lingvistickou analýzu právních textů, která zkoumá morfologické a sémantické (homonymie, polysémie, synonymie) aspekty právních textů; jedná se např. o reprezentativnost názvů textů z hlediska obsahu dokumentů nebo význam délky textů. Tato analýza částečně navazuje na předchozí analýzu morfologicko-syntagmatické struktury právního textu. Vedle lingvistické analýzy právního textu byla provedena i analýza juristická, která se zaměřila na formální členění právních textů a jeho vztahu k obsahu dokumentu, a analýza formálních vztahů mezi právními texty. Kromě toho je proveden rozbor právních pojmů z hlediska povrchové [23] struktury právních textů. Analýza struktury právních textů je realizována automaticky pomocí konkrétních programů.

Přehledová bibliografie automatizovaného zpracování textu v ČR

Bibliografie obsahuje záznamy dokumentů z let 1960-2002 vydaných v současné ČR nebo SR. Nejedná se o vyčerpávající bibliografii, nicméně základní dokumenty a témata jsou indikovány. Podle jednotlivých témat je také bibliografie uspořádána, na druhé úrovni je seřazena chronologicky sestupně.

Automatizované zpracování textu

JEDLIČKOVÁ, P. (2002). Rozumný špión čte noviny : rozhovor s Doc. PhDr. Vladimírem Smetáčkem, CSc. Ikaros [online]. 2002, č. 05 [cit. 2002-05-01]. Dostupný na World Wide Web: http://www.ikaros.cz/Clanek.asp?ID=200208484
STROSSA, P. (1999). Vybrané kapitoly z počítačového zpracování přirozeného jazyka. Opava : Slezská univerzita, 1999. 277 s.
CIGÁNIK, M. (1999b). Templátová sémantika. Knižnice a informácie, 1999, roč. 31, č. 8/9. Dostupný též na URL: http://www.snk.sk/snk/ki/0899/a1.pdf
CIGÁNIK, M. (1999a). Od informačného prieskumu k riadeniu znalostí. Knižnice a informácie, 1999, roč. 31, č. 2. Dostupný též na URL: http://www.snk.sk/snk/ki/0299/a1.pdf
KOŘENSKÝ, J., CVRČEK, F., NOVÁK, F. (1999). Juristická a lingvistická analýza právních textů : (právněinformatický přístup). Praha : Academia, 1999. 171 s.
PANEVOVÁ, J. (1998). Funkční styly a automatické zpracování jazyka. Slavia, 1998, s. 161-167.
POKORNÝ, J., SNÁŠEL, V., HÚSEK, D. (1998). Dokumentografické informační systémy. Praha : Karolinum, 1998.
CIGÁNIK, M. (1998). Synergické zbližovanie jazykového zabezpečenia informačných systémov. Knižnice a informácie, 1998, roč. 30, č. 5. Dostupný též na URL: http://www.snk.sk/snk/ki/0598/kvi05.pdf
CIGÁNIK, M. (1997). Pred koordináciou a kooperáciou informačných systémov. Knižnice a informácie, 1997, roč. 29, č. 10. Abstrakt dostupný na URL: http://www.snk.sk/snk/ki/1097/a.html
STROSSA, P. (1994). Zpracování informačních fondů. Seš. 2. Algoritmizace a automatizace zpracování textových informací. Praha : Vysoká škola ekonomická, 1994. 139 s.
CIGÁNIK, M. (1988). Komplexné informačné systémy založené na automatizovanom porozumení textu. Knižnice a vedecké informácie, 1988, roč. 20, č. 1, s. 5-13.
CIGÁNIK, M. (1985). Algoritmické metainformačné porozumenie textu. Informační systémy, 1985, roč. 14, č.1, s. 33-49.
BAKO, M. (1984). Informačné selekčné jazyky III. Bratislava : Slovenské pedagogické nakladateľstvo, 1984. Tezaurus a jeho výstavba, s. 83-177.
SMETÁČEK, V. (1982c). Trendy ve vývoji selekčních jazyků. Praha, ÚVTEI, 1982. 109 s.

Komputační lingvistika

PALA, K., OSOLSOBĚ, K. (1992). Základy počítačové lingvistiky. Brno : Masarykova univerzita, 1992.
SGALL, P. (1986). Lingvistická problematika automatického zpracování textu. Československá informatika, 1986, roč. 28, č. 10, s. 273-275.
SGALL, P. (1984). Využitie lingvistických metód vo VTEI. Bratislava : Slovenská technická knižnica, 1984. 115 s.
SGALL, P. (1977). Úloha lingvistiky při zpracování informací. Praha : ÚVTEI, 1977. 126 s.

Automatická indexace

(viz též SEMAN, MOZAIKA)

KLEMENT, M. (2001). Zdokonalení lingvistické podpory indexování dokumentů v informačním systému Poslanecké sněmovny Parlamentu ČR. [Praha], 2001. 65 s. Diplomová práce. Vysoká škola ekonomická. Fakulta informatiky a statistiky. Katedra informačního a znalostního inženýrství. Vedoucí práce P. Strossa.
URBAN, M. (1999). Strojová klasifikace dokumentů. [Praha], 1999. 92 s+8 příl. Diplomová práce. Vysoká škola ekonomická. Fakulta informatiky a statistiky. Katedra informačního a znalostního inženýrství. Vedoucí práce P. Strossa.
LHOTSKÁ, A., SCHWARZ, J. (1999). Aktualizace tezauru EUROVOC a poloautomatická reindexace. Ikaros [online], 1999, č. 1 [cit. 1999-08-12]. Dostupný z: URL: http://www.ikaros.cz/ikaros/1999/c01/tezaur.htm
CIGÁNIK, M. (1994). Inteligenčné indexovanie a inteligenčné klasifikácie. Knižnice a informácie, 1994, roč. 26, č. 12, s. 497-503.
ROZKOPAL, A. (1994). Automatizovaná indexace v dokumentografických bázích dat : vybrané přístupy k řešení v ruské, české, německé a anglické jazykové oblasti se zvláštním zřetelem na metodu AIR/PHYS. Praha, 1994. 111 s. Diplomová práce. Univerzita Karlova, Fakulta filozofická, Ústav informačních studií a knihovnictví. Vedoucí práce P. Pálka.
MITUROVÁ, P. (1991). Automatické indexování dokumentů v ODIS VTEI pro uhelný průmysl v Ostravě. Praha : 1991. 83. Diplomová práce. Univerzita Karlova, Fakulta filozofická, Katedra vědeckých informací a knihovnictví.
CIGÁNIK, M. (1990). Možnosti automatizácie predmetovej katalogizácie a tezaurového automatizovaného indexovania. Knižnice a vedecké informácie, 1990, roč. 22, č. 2, s. 49-57.
BŘUSKOVÁ, P. (1990). Zkušenosti s automatickou indexací dokumentů. In Progresívne komunikačné a informačné technológie v informačnej praxi. Košice : Dom techniky ZSVTS, 1990.
JANGOT, J., NĚMCOVÁ, A. (1989). Budování bibliografické báze dat s využitím automatické indexace v ODIS VTEI pro uhelný průmysl. In Hornická Příbram ve vědě a technice : informatika v geologii a hornictví. Příbram : Dům techniky ČSVTS, 1989, s. 29-40.
NĚMCOVÁ, A. (1989). Automatická indexace : nový způsob ukládání a vyhledávání informací v ODIS VTEI pro uhelný průmysl. Zpravodaj OKD-RPO, 1989, roč. 30, č. 9, s. 13-20.
PANEVOVÁ, M. (1989). Selekční jazyk PASSAT. Československá informatika, 1989, roč. 31, č. 4, s. 102-105.
HRADIL, J. (1987). Příručka pro automatickou indexaci dokumentografických informací z oblasti uhelného hornictví. Ostrava : OKD-Automatizace řízení, 1987. 27 s.
KOVÁŘ, B. (1984). Věcné pořádání informací a selekční jazyky. Praha : ÚVTEI, 1984, s. 243-251.
KOVÁŘ, B. (1982). Věcné pořádání informací a selekční jazyky. Díl 2. Předmětová pořádání, mezinárodní spolupráce, automatické indexování. Praha : ÚVTEI, 1982, s. 128-135.
SALTON, G. (1981). Prieskumový informačný systém. Bratislava : Alfa, 1981. 587 s.
CIGÁNIK, M. (1980a). Integrovaná báza dát založená na makrotezaure SPINES s automatickým indexováním textov. In Infos '80. Bratislava : Alfa, 1980, s. 76-90.
JANOŠ, J. (1976). Výsledky experimentu s automatickým indexováním dokumentačních záznamů odborné literatury. Praha : Státní knihovna ČSR, 1976. S. 47-104.
JANOŠ, J. (1975). Výsledky experimentu s automatickým indexováním na základě abstraktů v češtině. Československá informatika, 1975, roč. 17, č. 1, s. 4-8.
PAPOUŠEK, O. (1975). Příprava na automatickou indexaci v OKD. In Deskriptorová analýza a tvorba deskriptorů v českém jazyce : Sborník příspěvků ze semináře. Praha : Dům techniky ČSVTS, 1975, s. 60-67.
MÁRTONOVÁ, R., CHLEBÍKOVÁ, M. (1974b). Prieskum metód indexácie a tvorby riadených slovníkov a tezaurov : (štúdia k výskumnej úlohe P 18-521-079-00-04). Bratislava : Ústredná ekonomická knižnica, 1974. 27 s.
MÁRTONOVÁ, R., CHLEBÍKOVÁ, M. (1974a). Prieskum metód indexácie a tvorby riadených slovníkov a tezaurov. Bratislava : Ústredná ekonomická knižnica, 1974. 90 s.
JANOŠ, J. (1973b). Příprava počítačových experimentů s automatickým indexováním v ÚVTEI. Československá informatika, 1973, roč. 15, č. 5, s. 6-21.
JANOŠ, J. (1973a). Automatické indexování jako další etapa při integraci čs. sítě VTEI. In Pořádací systémy v integrované čs. síti VTEI. Praha : Dům techniky ČVTS, 1973, s. 56-65.
CIGÁNIK, M. (1973). Efektívne realizovatelné automatické indexovanie. Knižnice a vedecké informácie, 1973, roč. 5, č. 3, s. 97-103.
JANOŠ, J. (1972b). Základní problémy automatického indexování. Československá informatika, 1972, roč. 14, č. 4, s. 14-25.
HELBICH, J. (1972b). Statistical methods on evaluating words for indexing purposes. Prague Studies in Mathematical Linguistics, 1972, č. 4, s. 65-76.
HELBICH, J. (1972a). Selekční schopnost slov. Experimentální srovnávací studie algoritmů pro výběr slov k indexaci dokumentů a k sestavování tezaurů. P-18-121-001-00-06/větev B, č. 6. Etapová zpráva. Praha : Institut hygieny a epidemiologie, 1972. 109 s.
JANOŠ, J. (1972a). Hlavní směry experimentální praxe automatického indexování. Československá informatika, 1972, roč. 14, č. 5, s. 10-23.
Automatické indexování patentových informací (1970). Praha : Ústřední knihovna patentové literatury, 1970. 157 s.

Automatická tvorba tezauru

(viz též SEMAN)

ULIČNÝ, O., STRAKA, J. (1986). Stav a perspektivy automatizované aktualizace tezaurů. In Lingvistické metody a automatizované informační systémy. Praha : Dům techniky ČSVTS, 1986, s. 138-142.
LELÁKOVÁ, L. (1981). Automatizovaná tvorba tezauru na základě predmetových registrov. Bratislava, 1981. 72 s. Diplomová práce. KKVI FF UK.

MOZAIKA

HYHLÍKOVÁ, V. (1988). Metody automatického indexování : experiment MOZAIKA. Praha, 1988. 25 s. Strojopis. Univerzita Karlova-Filozofická fakulta.
KIRSCHNER. Z. (1988). Eksplicitnoje opisanije jazyka i avtomatičeskaja obrabotka tekstov. [Sv.] 9. Praha : SNTL, 1988. 157 s.
KIRSCHNER. Z. (1987). Eksplicitnoje opisanije jazyka i avtomatičeskaja obrabotka tekstov. [Sv.] 13. Praha : SNTL, 1987. 182 s.
PANEVOVÁ, M. (1986). Porovnání výsledků intelektuálního indexování a automatického indexování na základě metody MOZAIKA. Praha : 1986. 96 s. Diplomová práce. Univerzita Karlova, Fakulta filozofická, Katedra vědeckých informací a knihovnictví.
KIRSCHNER. Z. (1982). Experiment s metodou úplného textu. Československá informatika, 1982, roč. 24, č. 4, s. 105-112.
KIRSCHNER. Z. (1983). MOSAIC - A Method of Automatic Extraction of Significant Terms from Texts. Praha : MFF UK, 1983. 124 s.
KIRSCHNER. Z. (1979). K automatizovanému zpracování textu : metoda MOZAIKA. Československá informatika, 1979, roč. 21, č. 3, s. 67-73.
KIRSCHNER. Z. (1975). Eksplicitnoje opisanije jazyka i avtomatičeskaja obrabotka tekstov. 10., MOSAIC - A Method of Automatic Extraction of Significant Terms fromTexts. Praha : SNTL, 1975. 120 s.

SEMAN

SMETÁČEK, V. (1988). Uživatelské chody báze BALEX. Metodický zpravodaj československé soustavy VTEI, 1988, roč. 16, č. 3, s. 3-52.
ULIČNÝ, O. (1988). Rozvoj metody SEMAN v rámci výzkumných úkolů VTEI. Knižnice a vedecké informácie, 1988, roč. 20, s. 59-61.
SMETÁČEK, V. (1987). Tezaurus sémů. Automatizovaná báze lexikálních jednotek BALEX : aktuality a materiály, 1987, č. 7, nestr.
SMETÁČEK, V., MIKESKOVÁ, M. (1987). O báze BALEX a metóde SEMAN. Knižnice a vedecké informácie, 1987, roč. 19, č. 5, s. 230-232.
ULIČNÝ, O. (1987). Automatizovaná tvorba tezauru s využitím metody SEMAN. Československá informatika, 1987, roč. 29, č. 1, s. 16.
SMETÁČEK, V. (1986?). Obsahová analýza literárního textu s pomocí sémantického kódu : (první verze). 1986?, 60 s.+příl. Strojopis.
SMETÁČEK, V., KUBEŠOVÁ, M. (1986). Budování a možnosti využití báze lexikálních jednotek BALEX. In Lingvistické metody a automatizované informační systémy. Praha : Dům techniky ČSVTS, 1986, s. 96-103.
SMETÁČEK, V., NYKLOVÁ, A., ULIČNÝ, O. (1986). Automatizovaná tvorba tezaurů. In Lingvistické metody a automatizované informační systémy. Praha : Dům techniky ČSVTS, 1986, s. 103-109.
NYKLOVÁ, A. (1986). Automatické vytváření slovníku typu tezauru ze souboru lexikálních jednotek (BALEX-ATEZ) : Provozní dokumentace. Automatizovaná báze lexikálních jednotek BALEX : aktuality a materiály, 1986, č. 1, 49 s.+příl.
JONÁK, Z. (1986). Systém lingvistického zabezpečení metodou SÉMAN. In Lingvistické metody a automatizované informační systémy. Praha : Dům techniky ČSVTS, 1986, s. 118-125.
SMETÁČEK, V. (1985b). Prvky umělé inteligence v lingvistickém zabezpečení bází dat. In Informatika 90. let. Praha : Dům techniky ČSVTS, 1985, s. 45-50.
SMETÁČEK, V. (1985a). Experimentální ověření vlivu hodnot jednotlivých proměnných na výsledky procedury ATEZ. Automatizovaná báze lexikálních jednotek BALEX : aktuality a materiály, 1985, č. 9, s. 2-16.
ULIČNÝ, O., WEBR, J. (1985). K problematice automatizované tvorby a aktualizace tezauru. Automatizovaná báze lexikálních jednotek BALEX : aktuality a materiály, 1985, č. 6, s. 20-37.
ČERMÁKOVÁ, A., SMETÁČEK, V., ULIČNÝ, O. (1985). Automatické vytváření slovníku typu tezauru ze souboru lexikálních jednotek nebo znaků klasifikací (BALEX-ATEZ) : Návrh technologie. Automatizovaná báze lexikálních jednotek BALEX : aktuality a materiály, 1985, č. 7, 18 s.+příl.
SMETÁČEK, V. (1984b). Automatizovaná tvorba tezauru s pomocí metody sémantického analyzátoru. In Selekčné jazyky '84 : (zborník zo seminára konaného v dňoch 20.-21. júna 1984 v Bratislave). Bratislava : Slovenská technická knižnica, 1984, s. 60-65.
SMETÁČEK, V. (1984a). Sémantický analyzátor : (experimentální ověřování). Olomouc : Univerzita Palackého, 1984. 296 s.
ULIČNÝ, O., WEBR, J. (1984). K problematice automatizované tvorby a aktualizace tezauru. Československá informatika, 1984, roč. 28, č. 6, s. 161-167.
SMETÁČEK, V., WEBR, J. (1983). Možnost automatického zjišťování stupně obsahové příbuznosti lexikálních jednotek přirozeného selekčního jazyka. Československá informatika, 1983, roč. 25, č. 7/8, s. 197-204.
SMETÁČEK, V. (1982b). Sémantický analyzátor : základní pojmy a prvky (úvod do problematiky). Olomouc : Univerzita Palackého, 1982. 189 s.
ULIČNÝ, O. (1982). Struktura sémantického analyzátoru jako prostředku sémantické analýzy textu. In Využití lingvistických přístupů v informatice. Městský seminář, Praha, 10.-11. června 1982. Praha : Dům techniky ČSVTS, 1982, s. 81-87.
SMETÁČEK, V. (1982a). SEMAN - experimentální automatizovaný nástroj obsahové analýzy textů v přirozeném jazyce. In Využití lingvistických přístupů v informatice. Městský seminář, Praha, 10.-11. června 1982. Praha : Dům techniky ČSVTS, 1982, s. 55-63.
JONÁK, Z. (1982). Experimentální ověření sémantického analyzátoru při automatickém indexování. In Využití lingvistických přístupů v informatice. Městský seminář, Praha, 10.-11. června 1982. Praha : Dům techniky ČSVTS, 1982, s. 64-72.

-->DALŠÍ KAPITOLA