Národní knihovna. Knihovnická revue - obrázek

Rok 2001, č. 1, s. 26-37

KOOPERAČNÍ SYSTÉM ČLÁNKOVÉ BIBLIOGRAFIE A PROPOJENÍ ANALYTICKÝCH ZÁZNAMŮ S PLNÝMI TEXTY - VÝCHODISKA A SOUČASNÝ STAV

Ivana Anděrová
Národní knihovna ČR

Úvod

Informace o článcích a zpřístupnění obsahu článků v jakékoli formě patří v současné době mezi standardní služby zahraničních knihoven a informačních institucí. Přístup k nim je zajištěn z mnoha zdrojů rozptýlených po síti, z místních připojení, ze systémů CD-ROM. Moderní technologie (např. Z39.50) umožňují zavádění jednotných uživatelských rozhraní pro přístup do různých databází. Většina uživatelů používá databáze sekvenčně, vzniká nutnost existence rozhraní, které by slučovalo záznamy získané z několika databází do logické "souborné" databáze a potřeba distribuovaného vyhledávání.
Elektronické dokumenty jsou zpřístupňovány prostřednictvím nakladatelství, distributorských firem, informačních institucí či služeb a jejich produktů, dále pak prostřednictvím digitálních knihoven a služeb vznikajících na základě projektů. Přístup k plným textům je zajišťován přes různé formy bibliografií a soupisů, obsahů časopisů a plnotextových databází. Vyhledávání v plných textech zvyšuje komfort přístupu uživatelů k informacím. Elektronické dokumenty jsou zpřístupňovány v dohodnutých formátech, např. JPEG, GIF, PDF, TIFF, HTML. Služby knihoven jsou založeny na typu služby "document delivery".
Uživatelé sdružují své prostředky pro přístup k databázím, zejména plnotextovým. Vznik konsorcií různého typu je na pořadu dne. Současně vznikají tzv. celostátní licence pro libovolný počet uživatelů.
Poměrně dobře jsou zpřístupňovány plné texty novin, týdeníků a časopisů. Problém vytváření vazeb na primární obsah v tištěné či elektronické formě se v současnosti soustřeďuje na článkové databáze.
Různé typy vyhledávačů založené na vyhledávání fulltextovém, katalogovém či na kombinaci obou typů zachycují informační zdroje v nestrukturované podobě. Relevance takto vyhledaných dokumentů je problematická.
V poslední době vznikají na internetu systémy, které přistupují ke zpracování zdrojů přes strukturované záznamy. Tyto údaje mohou být obsažené ve zdrojích samotných (metadata). Pro popis webovských informačních zdrojů je navržen formát Dublin Core (DC) jako základní soubor údajů pro popis zdrojů. Dublin Core může být vytvářen autorem, vydavatelem nebo distributorem těchto zdrojů.
Mezi nejkvalitnější a nejprogresivnější služby zabývající se zpřístupněním sekundárních informací o článcích a zpřístupněním plných textů v zahraničí patří např. UNCoverWeb, ingentaJournals, OCLC FirstSearch Electronic Collection Online, Science Direct, PCI, ProQuest 5000, souborné katalogy DANBIB, LIBRIS a BIBSYS, JADE, program PICA. Na WWW je možno využít služeb upozorňujících na obsahy časopisů (např. Link Alert), rovněž je zpřístupňován denní tisk a některé časopisy s různou hloubkou retrospektivity. Přístup k bibliografickým citacím a abstraktům je zpravidla volný, k plným textům v závislosti na typu periodika a strategii zainteresovaných subjektů je přístup umožněn jen předplatitelům formou pay-per-view nebo volně. Vyhledávat lze z věcného hlediska podle klíčových slov, předmětových hesel, stále více se uplatňuje prvotní uspořádání časopisů do obecných kategorií. Problematikou metadat se zabývají projekty NORDINFO a The Nordic Metadata Project.

Služby, knihovny a instituce zabývající se zpřístupněním plných textů a sekundárních informací o článcích v ČR

České nakladatelské elektronické zdroje na internetu jsou ve stadiu vývoje a hledání podoby. Vztahy mezi uživateli, knihovnami a vydavateli/nakladateli nejsou dosud jasné jak z hlediska právního, tak obchodního, v budoucnu lze předpokládat v tomto směru vznik nových iniciativ.
Na českém internetu se však již profilovalo několik výrazných nakladatelství/vydavatelství, informačních agentur a služeb.
Objevují se specializovaná elektronická nakladatelství - Economia a.s., Sagit, Portál, Muzikus, Tigis aj. vydávávající elektronické podoby tištěných specializovaných periodik (v úplnosti i výběrově), zákonů aj. dokumentů. Přibývá elektronických časopisů, které nemají svůj tištěný ekvivalent.
Relativně velký rozvoj na internetu nastal v nabídce českých novinových a časopiseckých elektronických zdrojů - jsou vystaveny deníky, týdeníky a časopisy s různou hloubkou retrospektivy a úplnosti, od volně přístupných přes registraci a služby placené. V některých elektronických zdrojích lze vyhledávat plnotextově.
České internetové vyhledávače umožňují vyhledávat fulltextově i pomocí předmětových hesel a obsahových kategorií (www.seznam.cz, www.centrum.cz, search.quick.cz, www.redbox.cz aj.). Mezi nejúspěšnější zpravodajské servery patří www.ceskenoviny.cz, www.iDNES.cz, www.ihned.cz, www.press.cz, www.lidovky.cz. Na těchto serverech jsou většinou zpřístupněna aktuální vydání deníků a časopisů.
Politika, metody a strategie vystavování elektronických zdrojů na českém internetu se často mění, u některých je však možnost vysledovat určitou stálost a uvažovat o propojení s analytickými záznamy. Propojování s volně přístupnými zdroji na internetu však musí být velmi obezřetné.
Na českém informačním trhu působí dvě společnosti, které se zabývají zpřístupňováním plných textů programově. Společnost ANOPRESS, s.r.o. (http://www.anopress.cz) a společnost Newton I.T., s.r.o. (http://www.newtonit.cz). Obě společnosti získávají na základě smluv s jednotlivými vydavateli plná znění deníků a dalších periodik. Převod článků do tvaru vhodného k dalšímu zpracování se děje pomocí vlastních patentových postupů a zajišťuje věrnost původní předloze. Obě společnosti vlastní archiv titulů celostátních, regionálních a dalších včetně jejich mutací, dále pak přepisy televizních a rozhlasových pořadů. Poskytované služby a prezentace služeb na internetu se však liší.
Newton I.T., s.r.o. provozuje archiv plných textů (vznikl v r. 1996), který je postupně zpřístupňován na internetu (Právo, Zemské noviny, České Slovo, Mladá fronta Dnes, Respekt).
Služby se soustřeďují na výběry článků a jsou poskytovány v rámci Elektronické výstřižkové služby a prostřednictvím vyhledávacího SW Media Monitoring. Služby Newton IT jsou přizpůsobeny individuálním potřebám uživatele a zahrnují monitoring zpráv a článků na základě klíčových slov charakterizujících dané téma. Newton zpřístupňuje on-line běžně aktuální měsíc vybraných titulů. Databáze není kompletně on-line přístupná. Společnost se zaměřuje spíše na individuální monitoring a na tvorbu archivu pro vydavatele.
Vydává elektronický časopis Český výběr, který přináší důležité ekonomické a politické zprávy hlavních českých deníků.
Zdroje: celostátní deníky, regionální periodika, odborná periodika, televizní a rozhlasové pořady, všeobecné a ekonomické databáze zpravodajství ČTK, některá zahraniční periodika.

ANOPRESS, s.r.o. umožňuje on-line přístup do databanky plných textů TAMTAM v aktuálním roce, na jejíž bázi poskytuje další služby. Pomocí produktu TOVEK TOOLS pak mají uživatelé přístup i do archivních dat několika let zpět.
Společnost zpřístupňuje informace zákazníkovi na dané téma. ANOPRESS, s. r. o. umožňuje přístup do databanky novin on-line na základě licenčních smluv a umožňuje nákup celých titulů periodik. Společnost Anopress je výhradním zpracovatelem elektronické podoby většiny českých regionálních titulů (51 titulů nakladatelství Bohemia). Pro zpřístupnění plných textů ve veřejných knihovnách bylo založeno v roce 2000 konsorcium ANOPRESS. Společnost je výhradním zástupcem slovenské firmy SLOVAKIA ONLINE v ČR, která zpracovává elektronickou podobu slovenských tištěných médií. Kromě mediální části obsahuje databanka TAMTAM i část vědomostní, v níž jsou k dispozici pro fulltextové vyhledávání různé encyklopedie, příručky a další knihy referenčního charakteru.
Vyhledávací systém TOPIC, který ANOPRESS používá k monitoringu a analýze informačních zdrojů, je v současnosti jediným interaktivním systémem na českém trhu.
Automaticky vyhodnocuje relevanci dokumentů a umožňuje jejich řazení podle důležitosti. Na rozdíl od zdlouhavého fulltextového vyhledávání jde v tomto případě o pojmové, tzv. inteligentní vyhledávání. ANOPRESS ve spolupráci s Národní knihovnou ČR vytváří v rámci tohoto projektu technologii, která umožní propojit bibliografické záznamy knihovny s plnými texty článků z databáze Anopress, dále pak vkládat bibliografická metadata do analytických záznamů a metadata typu Dublin Core do plných textů (viz dále).
Zdroje: celostátní tituly, regionální periodika, odborná periodika, televizní a rozhlasové pořady, zpravodajství ČIA, slovenský tisk, Slovakia On-line (slovenská média), kroniky, encyklopedie, mapy aj.

Albertina icome Praha je česká soukromá společnost zaměřená na zpřístupnění profesionálních informačních zdrojů v elektronické formě a jejich využití v praxi. AiP nabízí přes 1000 elektronických titulů předních světových vydavatelství a možnost konsorciálních licencí pro přístup k zahraničním informačním zdrojům (ProQuest 5000, PCI aj.). Elektronické vydavatelství spolupracuje na vydávání ČNB na CD-ROM.

V České republice existují některé oborové báze plnotextových informací, např. ASPI (Automatizovaný systém právních informací), který je vyvíjen od roku 1988 a stal se nejrozšířenějším právním informačním systémem v České republice.
Akademie věd ČR zpřístupňuje na internetu current content a abstrakty článků časopisů vydávaných AV prostřednictvím jednotlivých redakcí časopisů (plné texty zatím pouze některé redakce).
V rámci Parlamentní knihovny se buduje systém, ve kterém jsou zpřístupněna v plné formě parlamentária.
V rámci programu "Informační zdroje pro výzkum a vývoj" (MŠMT) byl schválen projekt "Zpřístupnění plnotextových databází odborných zahraničních periodik na základě programu Open Society Institute - EIFL Direct". EIFEL Direct zpřístupňuje prostřednictvím databází EBSCO více než 3300 plnotextových časopisů a 1300 brožur a plnotextových referenčních publikací. Báze zahrnují humanitní a společenské obory, obchod, medicínu, aplikované přírodní vědy, výpočetní a telekomunikační techniku. Na základě projektu "Zabezpečení vědy a výzkumu v humanitních oborech základními informačními zdroji" (MŠMT) je umožněn knihovnám v ČR v rámci národní licence přístup do článkových databází PCI, PCI Full Text a ProQuest 5000.

Bibliografické zpracování článků v ČR je poměrně rozsáhlé jak co do zdrojů, které se analyticky zpracovávají, tak co do typů institucí, které tuto činnost provozují.
Národní knihovna ČR zpracovává výběrově bibliografické záznamy článků ze všech druhů seriálů (noviny, časopisy, odborná periodika, sborníky) v rámci Kooperačního systému článkové bibliografie (KOSABI), ve kterém spolupracují SVK, resp. krajské knihovny a MZK, specializované odborné knihovny (STK, ÚZPI, SPKK-ÚIV, ČSAV). Na základě této spolupráce vzniká souborná databáze ANL. Kromě toho zúčastněné knihovny disponují svými vlastními databázemi z hlediska svého regionálního a/nebo odborného zaměření. V systému LANIUS se zpracovávají biblio-grafické záznamy článků v knihovnách na úrovni okresů. V budoucnu je třeba sladit systém KOSABI a LANIUS tak, aby nedocházelo k duplicitnímu zpracování. V současné době se postupně v rámci KOSABI aplikuje nebo plánuje přechod na nové SW vyšší generace, zatím probíhá ve většině SVK popis článků v ISISu. V SVK Kladno se články popisují v systému RAPID, v MZK v Brně a v SVK Olomouc v ALEPHu. V době přechodu spolupracujících institucí na nové integrované systémy (KP-SYS, TINLIB, RAPID apod.) je kvalitní automatizovaná správa souborné databáze nutná. Souborná databáze KOSABI ANL obsahuje přes 630 000 záznamů, v NK ČR se excerpuje cca 210 titulů, 469 titulů ve spolupracujících institucích (278 specializované knihovny, 191 titulů v SVK a MZK). Přechod na zpracování v systému ALEPH 500 v dubnu 2000 posunul zpracování na úroveň mezinárodního formátu UNIMARC a pravidel popisu AACR2 s respektováním mezinárodních standardů věcného popisu - MDT-MRF pro oblast systematické indexace. Záznamy respektují metodické materiály Záznam pro soubornou databázi : UNIMARC a Záznam pro soubornou databázi : Výměnný formát. Byla aktualizována pracovní verze metodické příručky pro zpracování článků v UNIMARCu. V oblasti verbální věcné indexace se kombinují klíčová slova, věcné obecné kategorie a předmětová hesla. Vyváženost vazby mezi jednotlivými vrstvami popisu je klíčovým momentem. V rámci kooperačního systému byla stanovena pravidla pro výběr titulů k popisu (na základě územní gesce - tituly regionální a celostátní provenience - a dále pak na základě odborného zaměření). Dále byly stanoveny zásady výběru článků co do úplnosti i co do typů. Analytické záznamy zpracovávané v rámci KOSABI jsou zpřístupňovány také na CD-ROM vydávaném AiP v rámci ČNB jako řada Články v českých novinách, časopisech a sbornících, od června 2000 v UNIMARCu, od ledna 2001 s hypertextovými odkazy na volně přístupné plné texty. CD-ROM je vydáván ve čtvrtletních aktualizacích, každý měsíc je vystavena aktualizace na internetu .

Projekty týkající se zpracování české článkové bibliografie a zpřístupnění plných textů

V posledních letech vzniká několik projektů zabývajících se zpřístupněním analytických záznamů v kooperaci s ostatními knihovnami, jejich prezentací na internetu a propojením těchto záznamů s plnými texty.
Projekt Zpřístupnění výsledků analytického zpracování prostřednictvím internetu (kooperační projekt 13 knihoven v rámci RISKu, řešen v roce1998, hlavní řešitel Ivana Anděrová) umožnil konverzi analytických záznamů z CDS/ISISu do UNIMARCu. V rámci projektu byla vypracována a odzkoušena konverze tehdejší verze TINLIBu do UNIMARCu. V rámci průzkumu internetu se ukázalo, že postupné propojení článků s některými plnými texty již vystavovanými na internetu na různých serverech bylo v tehdejší době a situaci na českém internetu krajně nespolehlivé (různá retrospektiva a úplnost vystavovaných plných textů, různá strategie vystavovatelů ). Výběr spolehlivých zdrojů plných textů v budoucnu je možným řešením.
Projekt Západočeský ANAL - Kooperativní zpracování periodické produkce západních Čech (SVK v Plzni a 11 městských knihoven, řešitel Jaroslava Hanzlíčková, RISK, podaný v roce 1999) se zabývá odstraněním duplicit při zpracování, metodikou excerpce titulů a zpracování záznamů v jednotlivých okresech západočeského regionu.
Projekt Zavedení automatizovaného zpracování článkové bibliografie v systému T-Series (SVK v Ostravě, hlavní řešitel Alena Hrazdilová, VaV, 2000-2001) řeší problematiku bibliografického zpracování článků v tomto systému.
Projekt SVK Kladno (ve schvalovacím řízení) je velmi významný z hlediska tvorby a rozvoje regionálních faktografických databází a souborů autorit
Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů (VaV, hlavní řešitel Ivana Anděrová, 1999-2003) je projekt analyticko-koncepční a připravuje půdu pro praktickou realizaci programového projektu Souborná databáze kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat. Cílem výzkumného záměru je optimalizace přístupu uživatelů k plným textům dokumentů domácí provenience (nikoli zahraniční). Základem je propojení analytických záznamů o článcích s plnými texty, které jsou dostupné na internetu.
V rámci projektu proběhlo v roce 1999 v Národní knihovně ČR výběrové řízení na základě výzvy k podání nabídky pro společnost Anopress. V rámci projektu byla vyvinuta iniciativa k vytvoření konsorcia Anopress. Smlouva Konsorcium uživatelů databanky TAMTAM informační agentury ANOPRESS s.r.o. byla podepsána mezi SKIP a Anopressem v roce 2000. V roce 1999 bylo experimentálně propojeno cca 4000 záznamů s plnými texty získanými od Anopressu. Dále byly propojeny záznamy s plnými texty některých knihovnických periodik vystavených na internetu. Od zmíněné agentury bylo zakoupeno 20 075 plných textů článků, které byly publikovány převážně v celostátních denících v roce 1999 a které byly následně bibliograficky zpracovány v oddělení analytického zpracování. Periodikum Národní knihovna bylo v Anopressu převedeno do digitální formy a zpřístupněno na internetu (v roce 1999 pouze technikou OCR, od roku 2000 se přistoupilo i k prezentaci obrázků). V budoucnu se počítá s vystavením tohoto periodika ve formátech HTML a PDF.
V roce 2000 byla ujasněna základní koncepce, strategie a metody zpřístupňování plných textů ve vazbě na bibliografické záznamy obsažené v bázi ANL a vznikající v rámci Kooperačního systému článkové bibliografie (KOSABI). Koncepce má flexibilní charakter vzhledem k vyvíjející se situaci ve zpřístupňování plných textů na internetu a očekávaným aplikacím nových metod zpřístupnění dokumentů v rámci jiných projektů. Na projekt bylo v tomto roce z institucionálních prostředků vyčleněno 229 000 Kč.
Záměr souvisí s programovým projektem Souborná databáze kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat, který je svým charakterem realizační.
S ohledem na časovou, druhovou a tematickou skladbu záznamů obsažených v bázi ANL byly stanoveny základní zdroje získávání plných textů pro propojení s bibliografickými záznamy: plné texty volně přístupné na internetu s relativně stálým způsobem vystavení (elektronická vydavatelství/nakladatelství, ČSAV, UK, archivy aj. databáze) a plné texty získané od distributora plných textů (Anopress s.r.o.). Zpracování bibliografických záznamů a plných textů probíhá v rámci integrovaného knihovnického systému respektujícího UNIMARC (ALEPH aj.) a v rámci linky automatické indexace bibliografických záznamů z plných textů za současné tvorby URL a metadat DC. Propojení může být realizováno ručně i programově, metodou on-line i off-line. Propojení může být statické a dynamické, uzavřené a otevřené. Zpřístupnění plných textů z hlediska typu navigačních prvků a způsobu vyhledávání: OPAC - bibliografické záznamy uložené v UNIMARCu s URL adresou, systém pojmového vyhledávání (TOPIC) a fulltextového vyhledávání, metadata DC zabudovaná do plných textů, protokoly např. Z 39.50, SFX, vyhledávače pracující na WWW. Uložení plných textů: na internetu, na WWW serveru NK, WWW serveru distributora (Anopress s.r.o.). Pro správu Kooperačního systému článkové bibliografie v systému ORACLE bylo formulováno zadání na základě již existující aplikace pro Souborný katalog.
V rámci projektu bylo propojeno cca 1214 bibliografických záznamů s relativně stálými elektronickými prezentacemi na WWW z knihovnictví aj. oborů. Dynamicky bylo propojeno cca 1800 plných textů z celostátních deníků a vybraných časopisů za současného uložení na server NK v rámci konsorcia Anopress. Zároveň bylo zakoupeno 9350 plných textů určených k propojení off-line (seznam titulů viz dále). Plné texty uložené na serveru NK jsou vybaveny metadaty DC. V rámci projektu byl pravidelně poskytován monitoring médií pro oddělení vztahů s veřejností a ředitele NK a hrazeny licence (4 měsíce) na plné texty v rámci konsorcia Anopress. Na CD-ROM Česká národní bibliografie, v řadě Články v českých novinách, časopisech a sbornících, byla implementována funkce pro aktivní hypertextové odkazy, které umožňují propojení záznamů o článcích s plnými texty na internetu.
Souborná databáze kooperačního systému článkové bibliografie - optimalizace správy a integrace heterogenních dat (programový projekt VaV, r. 2000-2004, hlavní řešitel Ivana Anděrová).
Náplní projektu je optimalizace integrace a správy heterogenních dat souborné databáze Kooperačního systému článkové bibliografie (KOSABI). Bibliografické záznamy článků publikovaných v českém periodickém tisku zpracovávané spolupracujícími knihovnami jsou postupně propojovány s elektronickou podobou článků a takto prezentovány na internetu. V projektu jsou řešeny nové metody zpracování článků na základě dat přebíraných z plných textů v rámci linky automatické indexace za současného vkládání metadat DC do plných textů. Obě části souborné databáze - vznikající databáze plných textů (ANLFULL) a báze bibliografických záznamů ve formátu UNIMARC (ANL) - vyžadují permanentní kvalitní SW a HW podporu. Vývoj aplikace pro management kooperačního systému (pro příjem a správu dat) je předpokladem profesionalizace tohoto systému.
Plné texty článků (celostátní deníky, Respekt, Reflex, Ekonom, Týden) byly v rámci konsorcia Anopress průběžně stahovány, připravovány k dynamickému propojení a následně propojeny s bibliografickými záznamy ve 2. pololetí roku 2000 (cca 7528 propojení ). Plnotextová databáze byla dále průběžně doplňována články z celostátních deníků a výše jmenovaných časopisů vydanými v roce 2000 a 1998 (cca 17930 plných textů). Průběžně byly staticky propojovány záznamy s plnými texty z oblasti knihovnictví aj. oborů dostupnými na internetu (Národní knihovna, U nás, Ikaros, Daidalos, Veřejná správa, Obchodní právo, Právo a podnikání, Moderní obec, Vesmír, Collection of Czechoslovak Chemical Communication, Harmonie, Lesnická práce, Obecná psychologie).
V roce 2000 probíhaly rozsáhlé korektury báze. Chybovost v bázi je z velké části dána existencí dvou podob báze v minulosti - v ISISu a UNIMARCu - a způsobem zpracování v CDS/ISISu. Opravy v databázi si vyžadují průběžnou pozornost, chybovost je stále velká jak na straně NK, tak i spolupracujících institucí.
Pro optimalizaci integrace a správy heterogenních dat souborné databáze kooperačního systému vyvinula česká firma ANOPRESS na podkladě analýzy a funkčního zadání návrh speciální technologie - linky automatického získávání plných textů, indexace bibliografických záznamů a plných textů, propojování záznamů na plné texty a jejich zpřístupnění. Řešení je progresivní a odpovídá nejnovějším trendům v této oblasti, je podpořeno kvalitním technickým a programovým vybavením. Jednotlivé moduly lze použít i samostatně. V rámci experimentu v roce 2001 je třeba ještě doladit technologii v rámci různých stadií aplikace.
Řešení spočívá ve speciální aplikaci v praxi již používané technologie firmy na získávání a zpřístupňování plných textů pro NK - TAMTAM Profesional NK (TTPNK). Pomocí této technologie je možno stahovat plné texty článků z internetu z báze TAMTAM, založené na plnotextovém pojmovém vyhledávání systému TOPIC. Je možno stahovat více článků najednou na základě tématu, názvu článku, názvu zdrojového dokumentu aj. údajů. (Pro stahování je možné využít i verzi TAMTAM Standard - TTS).
Pro vlastní automatickou indexaci článků a plných textů - pro vytváření bibliografických záznamů v UNIMARCu a v Dublin Core na základě údajů uložených v plných textech a naopak pro vkládání metadat Dublin Core do plných textů - je připravena technologie TAMTAM Data Extractor (TTDE).

Pro automatické generování dat z plných textů bylo připraveno 6 hlaviček (headers) :

a) Formulář pro editaci, do kterého se generují bibliografická data z plného textu. Data lze katalogizátorem následně upravovat a provádět tak korekce nejen ve Formuláři, ale automaticky také v hlavičce UNIMARC-A, UNIMARC, Dublin hlavičce. Obsahuje údaje jmenného popisu, které se přebírají z hlavičky plného textu (oproti původním údajům byly doplněny údaje: ročník, číslo, ISSN), dále pak údaje věcného popisu (předmětové kategorie, automaticky generovaná klíčová slova, automaticky generovaný abstrakt - extrakt), automaticky generovanou URL, složenou z jednotlivých komponent, odpovídající struktuře propojovacího pole 856 ALEPH a UNIMARC. Volbou Text na horní liště je možno zobrazit plný text.

Formulář pro editaci

Obr. 2 Hlavičky

b) UNIMARC-A hlavička je hlavička s bibliografickými údaji pro importní vstupní soubor záznamů pro ALEPH (řádkový UNIMARC), do které se automaticky generují současně tatáž data i úpravy zanesené do Formuláře pro editaci. Tato hlavička je též přístupná pro editaci samostatně.

Obr. 3 UNIMARC-A hlavička

c) UNIMARC hlavička, hlavička pro klasický UNIMARC se stejnými vlastnostmi jako hlavička UNIMARC-A - slouží k eventuálnímu importu pro systémy, které jsou založeny na UNIMARCu - řádkový UNIMARC.

Obr. 4 UNIMARC hlavička

d) DUBLIN hlavička s týmiž vlastnostmi jako předchozí dvě hlavičky slouží ke generování metadat Dublin Core zpět do plného textu - slouží k zabudování těchto metadat do plných textů pro fulltextovou databázi. Tato hlavička vychází z poslední verze Dublin Core Metadata Set, obsahuje automaticky generované SICI (Serial Item and Contribution Identifier) a provizorní NBN (National Bibliography Number) .

Obr. 5 DUBLIN hlavička

e) Indexovací hlavička obsahuje údaje jmenného popisu.
f) Zobrazovací hlavička slouží k zobrazení údajů v hlavičce plného textu .

Po odrážce různé je možno nastavit tvar výstupní hlavičky pro UNIMARC-A nebo UNIMARC a spustit ruční vstup dat. V další fázi následuje přesunutí UNIMARC-A hlavičky do importu pro ALEPH (báze ANL) a umístění plných textů ve tvaru HTML na WWW server NK k indexaci do fulltextové databáze v NK nebo v Anopressu.
Pro indexaci dat do fulltextové databáze (ANL FULL) v NK byl vyvinut program MkIndex (MkI). Tento program nalezená data automaticky zaindexuje, umožňuje jejich vyhledání ve fulltextové databázi a zpřístupnění. Plné texty jsou ve formátu HTML.
V budoucnu bude Formulář pro editaci pravděpodobně rozšířen o některé údaje věcného popisu, které budou dodávány ručně.
Pro propojení plných textů se systémem ALEPH (doplnění URL adres do záznamů) byl vytvořen skript mkdoc.http. Propojení probíhá na základě dynamicky generovaného odkazu na dokument. Program vyhledá požadovaný dokument dle identifikace (identifikační číslo), provede statistiku a v budoucnu bude provádět kontrolu autorizace a na jejím základě zobrazí plný text nebo abstrakt.
Pro vyhledávání v datech ve fulltextové databázi jsou vyvinuty formuláře pro vyhledávání jednoduché, pokročilé a pokročilé s tématy.

Dotaz lze zadávat třemi způsoby:
Prostý dotaz je pouze seznam slov, které se mohou vyhledat. Všechna slova mají stejnou váhu - možno použít při hrubém hledání, kdy se přesně neví, co se má vyhledat.
Formulářový dotaz slouží k přesnějšímu vymezení dané oblasti. Dotaz lze specifikovat dalšími atributy, jako např. autor, zdroj, datum atd.
Tematický dotaz je nejpřesnější. Spočívá ve vytvoření topiku, kdy mohou být zadány všechny váhy.

Obr. 6 Formulář pro vyhledávání s tématy

Vyhledávání probíhá v systému TOPIC (Search 97) a definice formulářů vychází z jeho filozofie. TOPIC (pojmově orientovaný vyhledávací systém, concept based retrieval) je systém třetí generace založený na následujících principech: rozklad pojmu na podpojmy, vážení jednotlivých podpojmů (větví pojmového stromu), neostré vyhodnocování dotazů.
Dotaz v systému třetí generace reprezentuje pojem, resp. ideu vyhledávaného tématu. Jádrem dotazu je stromová hierarchická struktura, která rozkládá hledané téma na podtémata a přiřazuje jednotlivým částem váhy, které vyjadřují, do jaké míry příslušné téma přispívá k celkovému určení tématu. Systém dále vypočítá míru relevance vyhledaných dokumentů. Oproti běžně používaným operátorům používá TOPIC logický operátor ACCRUE se specifickými vlastnostmi. Tento operátor sbližuje operátory and a or. Každý topik obsahuje tedy tři charakteristiky - strukturu, váhy a operátory.
Nabízí se zde jistá formální analogie k hierarchickému selekčnímu jazyku systémové notace MDT. Je však třeba zdůraznit, že topiky jsou tvořeny podle skutečnosti, MDT je víceméně taxativní systém jednotlivých oborů, nikoli témat. Proto je třeba k definici topiků přistupovat svébytně. V roce 2000 byl vypracován hrubý návrh některých topiků.

Obr. 7 Topik pro obor Demografie

V oddělení analytického zpracování se používají k indexaci hrubých témat a podtémat předmětové kategorie, které připomínají svou podstatou topiky, resp. témata a skupiny témat v systému TOPIC v databázi Anopress. Je však třeba je sladit (podle možností) obsahově.
Na základě zadání pro řízení a správu kooperačního systému a za využití již vyvinutých řešení v rámci Souborného katalogu CASLIN probíhají práce na vývoji aplikace pro management Kooperačního systému článkové bibliografie. V roce 2000 byl nainstalován na server ANL systém LINUX a ORACLE, ve stadiu ladění je aplikace pro příjem a automatizované zpracování dat (příjímání analytických záznamů, integrace stávajících programů pro konverzi analytických záznamů, globální úpravy analytických záznamů, vývoj programů na formálně logické kontroly kooperujících knihoven - test na UNIMARC pro analytické záznamy).
V rámci projektu bylo zakoupeno kvalitní hardwarové a softwarové vybavení.
Dodatek č. 3 ke Smlouvě o sdružení pro Českou národní bibliografii, který zabezpečuje fungování Kooperačního systému článkové bibliografie v situaci reformy státní správy, byl podepsán koncem roku 2000.

Závěr

Kooperační systém článkové bibliografie existuje bezmála 10 let - přetrval a existuje díky trpělivé a vytrvalé práci mnoha zúčastněných. Jeho budoucnost spočívá v zavedení nových metod získávání, zpracování a zpřístupňování informací o článcích.
Integrace heterogenních dat do Kooperačního systému článkové bibliografie, v němž dochází k propojení tradičních knihovnických postupů a fondů s určitými prvky digitální knihovny, je předpokladem jeho úspěšného a efektivního fungování v budoucnu. Nalezení příslušného článku z novin či časopisu (v budoucnu snad i statě ze sborníku) v elektronické formě a navigace k primárním dokumentům přispěje ke zvýšení uživatelského komfortu.

K posunu znalostí došlo v posledních letech především v těchto oblastech:

- Možnost zpřístupňování a získávání plných textů v rámci konsorcia.
- Návrh a praktická realizace nových trendů ve zpracování a zpřístupňování informací na konkrétní fungující systém, která umožní jeho přetrvání v budoucnu (UNIMARC, AACR2, automatická indexace dokumentů, metadata, pojmové vyhledávání, propojování s elektronickými zdroji na základě dynamických a statických URL adres, vazba na klasický fond a fond elektronických dokumentů).
- Vytvoření předpokladů pro distribuované vyhledávání informací za současného využití tradičního slučování informací do souborné databáze založené na architektuře statických bází a implementaci systému do konceptu metaknihovny.
- Posílení vazeb v rámci KOSABI v situaci reformy státní správy a samosprávy.
- Nová forma poskytování informačních služeb za spolupráce knihovnické a moderní informační instituce.

Návrhy předpokladů pro úspěšné fungování systému v budoucnu:

- Zajištění dalšího financování projektů.
- Posílení vazeb stávajícího KOSABI na existující kooperační systémy na nižší úrovni z hlediska správního, zejména na systém LANIUS.
- Personální zajištění projektu z hlediska počtu pracovníků oddělení analytického zpracování v NK.
- Existence aktuálních souborů autorit v oblasti jmenného a věcného popisu jsou nutným předpokladem kvalitního zpracování a vyhledávání informací.
- Přísnější výběr článků k indexaci deníků s cílem vyloučení subjektivního faktoru při excerpci deníků, zkvalitnění popisu článků.
- Funkčnost propojovacích vazeb v systému ALEPH a možnosti expanze a spolehlivosti systému v tomto ohledu. Moderní informační systémy jsou založeny na propojování sekundárních informací s primárními, jak klasickými, tak elektronickými, ale také na vzájemném propojování sekundárních informací o různých typech dokumentů. Nejde pouze o propojení záznamů s plnými texty, ale také o provázání seriálů a jednotlivých čísel na analytický rozpis článků obsažených v seriálu v rámci báze NKC či Souborného katalogu CASLIN, dále pak připojení článků - recenzí k recenzovaným dokumentům v rámci těchto bází.
- Nutnost řešení problému jednotného přístupu uživatelů do informačního systému, existence plnotextových databází českých informačních zdrojů a stanovení pravidel pro jejich zpřístupňování, konsorciální a celostátní licence pro přístup k těmto informačním zdrojům.

Literatura:

Tištěné dokumenty

ANDĚROVÁ, Ivana. Metodika popisu článků ve formátu UNIMARC - podklad pro interpretace AACR2R : verze 1.1 (14.4.2000). 103 s. Pracovní materiál.

ANDĚROVÁ, Ivana [et al.]. Národní bibliografie - analytický popis : příručka pro zpracovatele. Praha : Národní knihovna, 1993. 412 s. Revize 1, 1993; Revize 2, 1997.

ANDĚROVÁ, Ivana. Současný stav a perspektivy kooperačního systému článkové bibliografie. Národní knihovna : knihovnická revue, 1995, roč. 6, č. 1, s. 39-42.

BRATKOVÁ, Eva. K otázkám pojmu, třídění a typologie internetových a webovských informačních zdrojů. Národní knihovna : knihovnická revue, 1998, roč. 9, č. 5, s. 262-276.
BRATKOVÁ, Eva. Metadata jako nový nástroj pro komunikaci webovských informačních zdrojů. Národní knihovna : knihovnická revue, 1999, roč. 10, č. 4, s. 178-195.

ČERVENÝ, Vlastimil. Vyhledávání v databázích plných textů. Národní knihovna : knihovnická revue, 1999, roč. 10, č. 1, s. 6-12.

OPPENHEIM, Charles and SMITHSON, Daniel. What is the hybrid library? Journal of Information Science, 1999, vol. 25, no. 2, s. 97-112.

Záznam pro soubornou databázi : UNIMARC. Fyzicky nesamostatné části dokumentů. Tištěné monografie a seriály. 1. vyd. Praha : Národní knihovna České republiky, 1999. 45 s. (Standardizace ; č. 19).

Záznam pro soubornou databázi : Výměnný formát. Fyzicky nesamostatné části dokumentů. Tištěné monografie a seriály. 1. vyd. Praha : Národní knihovna České republiky, 1999. 39 s. (Standardizace ; č. 20).

Topic : systém pro inteligentní vyhledávání dokumentů. Praha : Tovek, 19?, 77 s.

Elektronické dokumenty

BURGETOVÁ, Jarmila. Právní aspekty poskytování knihovních elektronických a reprografických služeb. Ikaros [online], 1999, č. 6. Dostupný z: <URL: http://ikaros.ff.cuni.cz/ikaros/1999/c06/repro.htm.

CELBOVÁ, Ludmila. Elektronické zdroje publikované v síti Internet jako součást České národní bibliografie. Ikaros [online], 2000, č. 6. Dostupný z: <URL: http://ikaros.ff.cuni.cz/ikaros/2000/c06/elzdroje.htm.

Cobra+ : Computerised Bibliographic Record Actions [online]. Boston Spa (Velká Británie) : COBRA+, 1997. Dostupný z: <URL: http://portico.bl.uk/gabriel/en/projects/cobra.html.

DOI, the Digital Object Identifier System [online]. Kidlington (Oxford, Velká Británie) : International DOI Foundation, 1998, updated 4 April 2000. Dostupný z: <URL: http://www.doi.org/.

Dublin Core Metadata Initiative [online]. Dublin (Ohio, USA) : OCLC, 2000. Dostupný z: <URL : http://purl.org/dc/.

HEIJTING, Inge. Interconnectivity and the Hybrid Library. Ikaros [online], 1999, č. 10. Dostupný z: <URL: http://ikaros.ff.cuni.cz/ikaros/1999/c10/ebsco.htm.

HORA, Michal a RICHTER, Vít. Veřejné informační služby knihoven - nový program pro občany a knihovny. Ikaros [online], 2000, č. 8. Dostupný z: <URL: http://ikaros.ff.cuni.cz/ikaros/2000/c08/visk.htm.

JONÁK, Zdeněk. Inteligence systémů zpracování textů. Ikaros [online], 2000, č. 1. Dostupný z: <URL: http://ikaros.ff.cuni.cz/ikaros/2000/c01/isko/z_jonak.htm.

JONÁK, Zdeněk. Krize mezilidské komunikace v období komunikační a informační exploze. Ikaros [online], 1999, č. 5. Dostupný z: <URL: http://ikaros.ff.cuni.cz/ikaros/1999/c05/veda4.htm.

JONÁK, Zdeněk. Pojem "informace" ve světě sdíleného pojetí skutečnosti. Ikaros [online], 2000, č. 2. Dostupný z: <URL: http://ikaros.ff.cuni.cz/ikaros/2000/c02/veda.htm.

JONÁK, Zdeněk. Pokles důvěry ve vědu jako důsledek změny paradigmatu vědy : důsledky změny paradigmatu v informační vědě. Část 1. Ikaros [online], 1999, č. 2. Dostupný z: <URL: http://ikaros.ff.cuni.cz/ikaros/1999/c02/veda.htm .

JONÁK, Zdeněk. Reflektuje teorie informace a komunikace dostatečně na zvýšený zájem společenských věd o semiotické a komunikační aspekty života? Ikaros [online], 1999, č. 3. Dostupný z: <URL: http://ikaros.ff.cuni.cz/ikaros/1999/c03/veda2.htm.

JONÁK, Zdeněk. TEXTQUEST: software pro obsahovou analýzu. Ikaros [online], 2000, č. 5. Dostupný z: <URL: http://ikaros.ff.cuni.cz/ikaros/2000/c05/text.htm.

JONÁK, Zdeněk. Vztah komunikační a obsahové struktury literárního díla. Ikaros [online], 1999, č. 6. Dostupný z: <URL: http://ikaros.ff.cuni.cz/ikaros/1999/c06/kom.htm.

KOCH, Traugott and BORELL, Maattias. Dublin Core Metadata Template [online]. Lund (Švédsko) : Lund universitetsbibliotek, 1997, last update 1997-08-20. Dostupný z: <URL: http://www.lub.lu.se/metadata/DC_creator.html.

KRČMAŘOVÁ, Gabriela. Sdílená katalogizace a CASLIN. Ikaros [online], 2000, č. 8. Dostupný z: <URL: http://ikaros.ff.cuni.cz/ikaros/2000/c08/caslin.htm.

Metadata [online]. Bath (Anglie) : UKOLN, last updated 16-Feb-2000. Dostupný z: <URL: http://www.ukoln.ac.uk/metadata/.

Nordic Countries URN-generator : provided by the Nordic Libraries [online]. Lund (Švédsko) : Lund universitetsbibliotek, 1997. Dostupný z: <URL: http://lub.lu.se/cgi-bin/nmurn.pl.

The Nordic Metadata projects [online]. Helsinki (Finsko) : Helsinki University, 1996, last updated 21 February 2000. Dostupný z: <URL : http://www.lib.helsinki.fi/meta.

OLSON, Nancy B. Cataloging Internet Resources [online]. Dublin (Ohio, USA) : OCLC, 1997. Dostupný z: <URL: http://www.purl.org/oclc/cataloging-internet.

PAPÍK, Richard. Trendy v rozvoji informačních služeb. Ikaros [online], 1999, č. 8. Dostupný z: <URL: http://ikaros.ff.cuni.cz/ikaros/1999/c08/usti/usti_papik.htm.

POKORNÝ, Jaroslav. Elektronické časopisy a jejich vliv na infrastrukturu vědeckých znalostí. Ikaros [online], 1999, č. 8. Dostupný z: <URL: http://ikaros.ff.cuni.cz/ikaros/1999/c08/ústi_pokorny.htm.

Projects at the Royal Library in Stockholm, Sweden [online]. Stockholm : Royal Library, updated July 1, 1999. Dostupný z: <URL: http://www.kb.se/ENG/projekt.htm.

Sborník příspěvků ze semináře CASLIN ´99 - Souborné katalogy:organizace a služby. Dostupný z: <URL: http://www.caslin.cz:7777/caslin99/prispevky.html.

Serial Item and Contribution Identifier. Dostupný z: <URL: http://sunsite.berkeley.edu/SICI/version2.html.

SICI Generator. Dostupný z: <URL: http://www.ep.cs.nott.ac.uk/~sgp/sicisend.html.

SVOBODA, Martin. Elektronické publikování. Ikaros [online], 1999, č. 3. Dostupný z: <URL: http://ikaros.ff.cuni.cz/ikaros/1999/c03/elpubl98/index.htm .

TKAČÍKOVÁ, Daniela. Když se řekne digitální knihovna ... Ikaros [online], 1999, č. 8. Dostupný z: <URL: http://ikaros.ff.cuni.cz/ikaros/1999/c08/usti/usti_tkacikova.htm.

UHLÍŘ, Zdeněk. "Computing in Humanities", čili: Táhneme, anebo jsme vlečeni? Ikaros [online], 1999, č. 11. Dostupný z: <URL: http://ikaros.ff.cuni.cz/ikaros/1999/c11/computing.htm.

Uniform Resource Names (urn) Charter [online]. Reston (VA, USA) : IETF, last modified 03-Jun-99. Dostupný z: <URL: http://www.ietf.org/html.charters/urn-charter.html.

VOJTÁŠEK, Filip a CELBOVÁ, Iva. Helsinská univerzitní knihovna přívětivá vůči každému. Ikaros [online], 2000, č. 9. Dostupný z: <URL: http://ikaros.ff.cuni.cz/ikaros/2000/c09/helsinky.htm.

VOJTÁŠEK, Filip. Knihovny zaujmou pozornost médií neobvyklými událostmi. Ikaros [online], 2000, č. 9. Dostupný z: <URL: http://ikaros.ff.cuni.cz/ikaros/2000/c09/tyden.htm.

Poznámka:

Výsledky práce Kooperačního systému článkové bibliografie - báze ANL lze nalézt na WWW adrese: http://www.nkp.cz
Výsledky práce společnosti ANOPRESS, s.r.o. lze nalézt na adrese: http://www.anopress.cz

PhDr. Ivana Anděrová je vedoucí oddělení analytického zpracování odboru zpracování fondů NK ČR.