Kooperační systém článkové bibliografie - KOSABI

(Vývoj a současný stav metodiky zpracování, zpřístupnění, organizace kooperace, perspektivy)

Ivana Anděrová, NKČR, oddělení analytického zpracování

Zpracování článků v ČR je poměrně rozsáhlé co do zdrojů, které se analyticky zpracovávají, tak co do typů institucí, které tuto činnost provozují a má dlouhou tradici.

1. Vývoj článkové bibliografie - r. 1953-2002

1.1. Článková bibliografie v tradičních podmínkách - tištěné výstupy

Pod vedením ředitele NK J. Kunce je zahájeno zpracování a vydávání článkové národní bibliografie od r. 1953 s názvem "České časopisy", v r. 1955 s názvem "Články v českých časopisech". Zpracované záznamy jsou publikovány v měsíčních sešitech podle třídění Všesvazové knižní palaty VPK s autorským, předmětovým, personálním a geografickým rejstříkem. V r. 1971 se z personálních důvodů ustupuje od rejstříku předmětového. V 70. letech jsou retrospektivně zpracována léta 1945-52.

V letech 1987-1991 je článková bibliografie zpracovávána a vydávána rovněž v měsíčních sešitech, záznamy jsou uspořádané podle vybraných znaků MDT. Rok 1991 nevychází v tištěné podobě z finančních důvodů. Výstup pro rok 1991 je zajištěn retrokonverzí prováděnou firmu PORS Příbram.

1.2. Automatizovaný systém článkové bibliografie - ASNBČ, Kooperační systém článkové

bibliografie

Příprava automatizovaného zpracování české národní článkové bibliografie má své počátky v rámci státního úkolu "Automatizace knihovnicko-bibliografických procesů" již v r. 1985.

V r. 1989 vychází výměnný formát pro bibliografický (dokumentační) a katalogizační záznam, ze kterého vychází MAKS - Modulární automatizovaný knihovnický systém, na který později navazují typové prováděcí projekty a aplikace. Základem pro zpracování článků v kooperačním systému článkové bibliografie je příručka Národní bibliografie - Analytický popis vydaná v roce 1991 ve dvou svazcích: Návod pro tvorbu a využívání báze záznamů dokumentů (vypracovaná v SVK Olomouc) a Specifikace údajů pro bázi záznamů dokumentů (vypracovaná v Národní knihovně v Praze). Na základě těchto materiálů a praktických zkušeností jsou v Národní knihovně zpracována Pravidla zápisu údajů pro analytický popis v r. 1992. Definice databáze článků vychází z tehdejších možností systému CDS/ISIS, z revidované normy ČSN 010195 Bibliografický záznam ( r. 1992), která již částečně reflektuje ISBD/CP. Jmenné zpracování je tedy koncipováno s ohledem na mezinárodní standardy. Pro věcné zpracování jsou ve spolupráci s oborovými a regionálními pracovišti zpracovány Vybrané znaky MDT a s ohledem na mezinárodní doporučení zpracována první verze metodiky tvorby a zápisu klíčových slov pro vyhledávání v on-line databázi.

Systém článkové bibliografie je původně koncipován jako propojitelný systém oborových a regionálních informačních institucí. Po r. 1989 se ustupuje od této koncepce a realizuje se zpracovatelská kooperace mezi NK a jednotlivými SVK při analytickém zpracování novinové a časopisecké produkce s oblasti společenských a přírodních věd. Specializovanou článkovou produkci z oborů lékařství, zemědělství, školství a vzděláváni, technických oborů zpracovávají oborové informační instituce. Jednotlivé excerpční základny jsou profilovány tak, aby se vzájemně doplňovaly, nedocházelo k duplicitám a "bílým místům". NK zpracovává tzv. celostátní periodika, SVK periodika vycházející na území regionu, odborné knihovny příslušný obor. Jsou přepracovány zásady výběru pro českou článkovou a regionální bibliografii, vycházejí z dlouholetých praktických zkušeností formulovaných systematičtěji již v r. 1986.

1.3 Provoz Kooperačního systému článkové bibliografie - r. 1992-2002

V r. 1992 přechází oddělení článkové bibliografie na experimentální ověřování on-line ukládání záznamů. Zároveň se ověřuje i chod kooperačního systému článkové bibliografie. Plný provoz systému je zahájen v r. 1993. Každý měsíc zasílají SVK záznamy zpracovaných článků do NK a oddělení článkové bibliografie zasílá vždy k 15. dnu měsíce produkci systému do SVK. V r. 1993 je v NK zpracováváno 280 titulů, v regionech 155 titulů. Činnost systému je založena na dvou základních tezích: registrovat výběrově českou článkovou produkci v dostatečné objektivní míře a reflektovat skutečné požadavky uživatelů na knihovnicko-bibliografické služby. Postupně vzniká databáze ANAL v systému CDS/ISIS. Postupně vzniká i databáze Evidence excerpční základny. Jednotlivé SVK vydávají průběžně regionální bibliografie (regionální bibliografické ročenky, tematické bibliografie).

V r. 1993 je vypracována nová verze specifikace a návodu pro tvorbu a využívání údajů pro analytický popis ve formě příručky pro zpracovatele (další revize byla zpracována v roce 1997 a zohledňuje částečně AACR2 a UNIMARC). V r. 1994 vychází česká článková bibliografie na CD-ROM. V tomtéž roce vychází český překlad AACR2R. Postupně jsou vydávány české překlady ISBD, pro analytický popis v r. 1997 vychází český překlad ISBD/CP doplněn o české příklady - Doporučení pro popis částí dokumentu na základě mezinárodního standardního bibliografického popisu (ISBD). Překlad UNIMARCU je vydán v r. 1996. V Národní knihovně dochází k postupné transformaci věcného popisu - přechod na UDC/MRF a LCSH. Článková bibliografie zachovává koncepci klíčových slov, která však navazují a do jisté míry reflektují zkušenosti z tvorby předmětových hesel z minulých let. Od r. 1994 se postupně vytváří částečně řízený slovník klíčových slov s vazbou na vybrané znaky MDT pomocí lexiky MDT. V r. 1994 přistupují do kooperace de facto i odborné informační instituce.

V r. 1995 probíhají rozsáhlejší úvahy o koncepci a zaměření kooperačního systému článkové bibliografie - úvahy o rozsáhlejším začlenění zpracování nepravých periodik (ročenky, materiály z konferencí, sborníky). Zásady výběru se dále upřesňují. Přihlíží se k zásadám výběru z hlediska autorů článků, žánrů a věcného obsahu. Jsou vybírány především původní české články, přeložené především týkající se ČR. Vzhledem k tomu, že pro každý typ seriálu jsou charakteristické jiné typy článků s různou informační hodnotou a odborným zaměřením, jsou upřesňovány zásady výběru článků z hlediska jejich úplnosti pro jednotlivé typy seriálů. Vědecká a odborná periodika jsou popisována prakticky v úplnosti, zpracování deníků a některých kulturně politických časopisů je velmi výběrové.

Je možno hovořit o užším kooperačním systému, založeném na regionálním principu, širším - založeném na oborovém principu a vice versa o regionálním a oborovém subsystému kooperačního systému. Jádrem či základem celého kooperačního systému a větší jeho část tvoří produkce zpracovávaná v NK. Hlavní teze kooperace v tomto období: každá instituce zpracovává články podle toho, co v regionech nebo příslušných oborech vychází při současném respektování zásad kooperace. Každá instituce ručí za svou excerpční základnu a kvalitu zpracovávaných článků.

V r. 1996 s objevují úvahy o přechodu zpracování článku v NK na integrovaný knihovnický systém ALEPH - z důvodů pomalého ukládání v NK je několikrát odsunuto. Články jsou však převáděny konverzí do ALEPHu od začátku r. 1998 na základě projektu RISK Zpřístupnění výsledků analytického zpracování prostřednictvím Internetu (kooperační projekt 13 knihoven v rámci RISKu, řešen v r.1998, hlavní řešitel Ivana Anděrová). Projekt umožňuje konverzi analytických záznamů z CDS/ISIS do UNIMARCu. Částečně řízená klíčová jsou slova převedena do předmětových kategorií UNIMARC (pole 615) a klíčových slov s vazbou na znaky MDT. V rámci projektu je a vypracována a odzkoušena konverze tehdejší verze Tinlibu do UNIMARCu V rámci průzkumu propojení analytických záznamů s plnými texty na Internetu se ukazuje, že postupné propojení článků s některými plnými texty již vystavovanými na Internetu na různých serverech je krajně nespolehlivé (různá retrospektiva a úplnost vystavovaných plných textů, různá strategie vystavovatelů). Výběr spolehlivých zdrojů plných textů je možné řešení.

V rámci projektu probíhá také revize specifikace a popisu pro analytický popis vzhledem k převodu do UNIMARCu s částečným respektem k AACR2R. Probíhají též přípravné práce na úplném a minimálním záznamu pro soubornou databázi (UNIMARC a Výměnný formát). V r. 1997 přechází báze českých periodik, v rámci které je excerpční základna kooperačního systému dosud evidována a budována ve spolupráci s kooperujícími institucemi, do oddělení pro souborné katalogy. Evidence je vedena provizorně v oddělení článkové bibliografie NK a příslušných knihovnách.

Standardizační aktivity se v následujících letech řeší v Radě pro katalogizační politiku a v příslušných skupinách pro jednotlivé dokumenty, problematika článků v Pracovní skupině pro analytické zpracování. Metodika a standardizace článků reflektuje doporučení prakticky pro všechny druhy dokumentů. V r. 1999 je zpracována první verze příručky - Metodika popisu článků ve formátu UNIMARC a jsou vydány materiály týkající se analytického popisu v rámci edice Standardizace - Záznam pro soubornou databázi : UNIMARC a Záznam pro soubornou databázi : Výměnný formát - určené k připomínkování.V r. 1999 pracuje většina knihoven kooperačního systému ještě v CDS/ISIS, pravidelně přispívají do souborné databáze ANAL, záznamy z CDS/ISIS jsou stále konvertovány do ALEPHu. V Brně se začínají zpracovávat články v ALEPHu a v následujících letech, postupně plánují a přecházejí na integrované knihovnické systémy i další instituce. Na jaře r. 2000 přechází oddělení analytického zpracování NK na ukládání článků v ALEPHu. V oddělení je vypracována interní pomůcka Seznam řízených předmětových termínů vázaných na vybrané znaky MDT, která je podle možností aktualizována. Slouží k implementaci předmětových hesel NKČR, která vycházejí z LCSH. Pro systematickou věcnou notaci se vychází z MDT/MRF. V r. 2001 je zpracována další verze příručky pro zpracování článků - Metodika popisu článků ve formátu UNIMARC - podklad pro interpretace AACR2R a vystavena na Internetu. Na Internetu jsou také vystaveny doporučené příklady a soupis polí UNIMARC pro analytický popis. Pravidla obsahují maximum dosud dostupných informací z materiálů týkajících se analytického popisu.

Jsou formulovány základní principy věcného popisu, aplikovaného při zpracování článků V NKČR. Pořadí kategorií, předmětových hesel odpovídá pořadí MDT. MDT vztahující se k osobám a formě článku se uvádí na konec věcného popisu (osoby, forma). Kategorie: obecné zařazení tématiky dokumentu pod obecné hlavní téma (615a) a zpřesnění (615x). Předmětové heslo: vystihuje hlavní téma dokumentu. Klíčová slova: variantní selekční termíny k předmětovým heslům uvádíme zatím z důvodů postupného propojování báze ANL na soubory autorit, v současné době se eliminují - s postupným provázání věcného popisu na autority i s ohledem ke zpřístupnění plných textů v bázi ANL prostřednictvím báze ANL FULL.

V kooperujících institucích se používá kombinace těchto tří prvků věcného popisu v různé míře. Předmětová hesla se aplikují pro osoby, korporace, typ dokumentu, geografické téma. Předmětová hesla tematická (pole 606 UNIMARC) se užívají zejména v NK, ve většině knihoven se praktikují klíčová slova (pole 610 UNIMARC). Vazba na autority se objevuje ve větší míře v NK a v krajské knihovně v Kladně.

V současné době se řeší NKČR problematika standardizace věcných selekčních údajů a jejich harmonizace pomocí souboru věcných autorit. Aplikuje se metoda konspektu - metoda popisu fondu a všech informačních zdrojů pomocí předmětových kategorií konspektu. Domníváme se, že po důkladné redakci předmětových kategorií v rámci báze ANL, které jsou někde detailnější a vyplývají ze specifiky článkových informací, bude moci dojít k částečnému sblížení konspektu a kategorií v ANL.

Údaje jmenného a věcného popisu jsou podle možností v bázi ANL revidovány a opravovány pomocí globálních oprav, dále pak s využitím jmenných a věcných autorit.

V r. 2002 probíhají práce na konverzi UNIMARC-MARC21. Vývoj zpracování článků v NK je v letech 1999 - 2002 výrazně ovlivňován projekty, které se řeší v NK ( týkají se propojení analytických záznamů s plnými texty a integrace dat do souborné databáze ANL) a v některých spolupracujících knihovnách (viz dále bod 2).

V červnu 2002 přechází NK a oddělení analytického zpracování na verzi ALEPH 14.2.4, která umožňuje vetší komfort pro opravy uložených dat. Na toto verzi přecházejí též v r. 2002 (před NK) i knihovny v Brně a Olomouci. Pracovníci MZK ukládají záznamy přímo do báze ANL.

Další knihovny zpracovávají články již v integrovaných knihovnických systémech. V ISIS přetrvává zpracování v Hradci Králové, SPKK, STK, ÚZPI. Tyto knihovny postupně však přejdou rovněž na jiné integrované systémy.

Postupně se ladí metodika ukládání v nových systémech a řeší se otázky převoditelnosti do báze ANL a UNIMARCu. Tato činnost je poměrně náročná v detailech a je založena na úzké spolupráci s příslušnými knihovnami. V r. 2002 v tomto směru intenzivně spolupracuje oddělení článkové bibliografie s krajskou knihovnou v Ostravě a Českých Budějovicích Jsou navrhnuta některá možná řešení a doporučení týkající se věcného popisu a konverze do UNIMARCu. Plnohodnotné předávání záznamů do národní článkové bibliografie závisí na dotažení konverzního programu Tinlib - UNIMARC. Krajská knihovna v Ústí nad Labem na zkušenosti tinlibovských knihoven navazuje. Knihovny pracující v ALEHu spolupracují dobře. U knihoven pracujících v KP-sysu je třeba dopracovat převod do UNIMARCu. Knihovny pracující v Rapidu spolupracují též bez problémů. Krajská knihovna v Plzni přešla na zpracování v KIMSu. S nově jmenovanými a konstituovanými krajskými knihovnami v Pardubicích, Havlíčkově Brodě, Zlíně a Karlových Varech byla navázána dobrá spolupráce. Ladí se převod záznamů do UNIMARCu i metodika a zvažují možnosti zpracování některých titulů.

Kromě KOSABI existuje v ČR fungující systém na úrovni městských (okresních) knihoven - LANius a jeho produkt SKAT - Souborný katalog článků. Jeho vyšší verzí je systém Clavius. Systém umožňuje sdílenou katalogizaci. Mezi LANiem a NK probíhají jednání o možné kooperaci týkající se excerpce titulů a omezení duplicit při zpracování. Export do Báze ANL je v zásadě možný. Systém používá ve věcnému popisu klíčová slova. Podobná duplicita existuje mezi krajskými knihovnami a LANiem.

Součástí širšího kooperačního systému článkové bibliografie po linii oborové je zpracování článků lékařské a zdravotnické literatury Národní lékařskou knihovnou, které nejsou součástí ANL

Kromě toho se zpřístupňují informace o článcích v některých vysokoškolských a vědeckých institucích, které nejsou součástí KOSABI.

V minulosti přispívala do báze také AVČR - Ústav státu a práva, Ústav pro soudobé dějiny. Byly činěny některé pokusy o spolupráci se Západočeskou univerzitou v Plzni, Evangelickou teologickou fakultou UK, Divadelním ústavem.

Z excerpční základny pro ANL vyloučena periodika místní, závodní a zábavného charakteru, časopisy pro děti a mládež a výběr zpracovávaných dokumentů je orientován na širší odbornou veřejnost. Některé ze spolupracujících institucí budují své lokální regionální databáze, některé z nich zpracovávají navíc články pro vlastní potřebu. V současné době jsou v KOSABI stanovena následující hlediska výběru článků podle kategorií (charakteru) zpracovávaného periodicky vydávaného dokumentu (seriálu):

A: Seriály vydávané AVČR a vysokými školami v ČR (časopisy, sborníky, ročenky)

B: Seriály (časopisy, sborníky, ročenky) vydávané ostatními institucemi v ČR

C: Noviny (ústřední i regionální) a kulturně-polické časopisy

D: Populárně-naučné časopisy

1=excerpce je prováděna v úplnosti (100-80% počtu článků)

2=excerpce je prováděna částečně (80-25% počtu článků)

3=excerpce je prováděna výběrově (25%- počtu článků)

A: 1

B: 1 (sborníky ročenky), 1-2 (odborné časopisy)

C: 2,3

D: 3

Dále jsou stanovena pravidla pro výběr článků z hlediska typů nebo charakteru. Báze obsahuje především faktograficky přínosné články, články odborné, články s dokumentární a uměleckou hodnotou, oficiální dokumenty (projevy, vyhlášení, komuniké, usnesení), zprávy a informace o kulturních, sportovních, politických, vědeckých aj. akcích (konferencích, seminářích, festivalech, jednáních, zasedáních, výstavách, divadelních, rozhlasových a televizních inscenacích, besedách, sportovních soutěžích), souhrnné a hodnotící články, závažné polemiky, diskuze a komentáře. Dále jsou zachyceny reportáže, biografické články (životopisné, jubilejní, nekrology, rozhovory, profily osobností, vzpomínky), literární texty (básně, povídky aj. ještě nepublikované, nové překlady), fejetony, sloupky, úvodníky (pouze hodnotné), recenze publikací různého zaměření, gramofonových desek, kompaktních desek, filmů apod.

Excerpční základny jednotlivých kooperujících institucí pro bázi ANL

Kooperující krajské knihovny

Národní knihovna České republiky (ALEPH) - Oddělení analytického zpracování: celkem 196 seriálů z toho 6 deníků, 11 týdeníků, 6 čtrnáctideníků, 31 dvouměsíčníků, 4 čtvrtletníky, ostatní periodika s menší periodicitou ; dále nepravá periodika - ročenky, nepravidelně vycházející periodika, sborníky - počet pohyblivý.

NKČR - Odbor knihovnictví: 19 titulů.

Moravská zemská knihovna v Brně (ALEPH): celkem 54 titulů, 2 deníky, vlastivědné časopisy, zpravodaje, sborníky a nepravá periodika, v jednání postupné předání titulů Krajské knihovně Vysočiny .

Jihočeská vědecká knihovna v Českých Budějovicích (Tinlib): celkem 23 titulů, 3 deníky z toho 2 přílohy regionální deníků, periodika s menší periodicitou a nepravá periodika.

Studijní a vědecká knihovna v Hradci Králové (ISIS) : celkem 21 titulů, z toho 8 deníků, postupně delimitace titulů po dohodě s Krajskou knihovnou v Pardubicích, Krajskou knihovnou Vysočiny, Krajskou knihovnou v Liberci.

Středočeská vědecká knihovna v Kladně (Rapid): celkem 37 titulů, z toho 12 deníků.

Krajská vědecká knihovna v Liberci (Rapid, resp. Arev): celkem 11 titulů, z toho 2 deníky.

Vědecká knihovna v Olomouc (ALEPH): celkem 17 seriálů: 2 deníky - pouze regionální přílohy, 6 týdeníků, nepravá periodika. Delimitace titulů s MVKOS.

Moravskoslezská vědecká knihovna v Ostravě (Tinlib, resp. T-Series): celkem 16 titulů, z toho 1 deník, 1 týdeník, 4 čtvrtletníky, ostatní nepravá periodika a sborníky.

Studijní a vědecká knihovna v Plzni (KIMS): celkem 22 titulů, z toho 8 deníků, 8 týdeníků, 6 měsíčníků a další periodika.

Severočeská vědecká knihovna v Ústí nad Labem (ISIS, Tinlib): celkem16 titulů, z toho 7 deníků.

Nově konstituované krajské knihovny - příprava kooperace

Krajská knihovna Františka Josefa Bartoše ve Zlíně (KP-sys): cca 67 periodik, duplicita s celostátními deníky a časopisy, do její báze přispívají městské knihovny okresu Zlín, nutná delimitace s titulů s MZK, VKOL, MVKOS.

Krajská knihovna Karlovy Vary (LANius): celkem cca 26 titulů, zpracovává články pro LANius.

Krajská knihovna v Pardubicích (KP-sys): cca 10 titulů, výběrově vlastivědné a místní zpravodaje.

Krajská knihovna Vysočiny (Havlíčkův v Brod, Clavius): údaje z r. 2001 - celkem cca 30 titulů, duplicity s NK, doporučeno nejdříve zpracovávat tituly týkající se Havlíčkobrodska, postupně přibrat další, nutná delimitace s MZK (cca 7 titulů), nedostatečné personální obsazení.

Kooperující specializované knihovny

Státní technická knihovna (ISIS): celkem 41 odborných titulů

Ústav zemědělských a potravinářských informací (ISIS) : celkem 24 odborných titulů

Ústav pro informace ve vzdělávání - Státní vědecká knihovna Komenského (ISIS) : celkem cca 43 titulů

Český geologický ústav (ISIS): odborná periodika v rámci experimentu

Organizační metodické otázky se řeší kromě Pracovní skupiny pro analytické zpracování na pravidelných poradách SDRUK - Sekce pro bibliografii a poradách pracovníků bibliografických a rešeršních oddělení vědeckých, technických a specializovaných knihoven v STK.

Důležitým jednáním z hlediska dalšího fungování KOSABI je 11. Porada sekce pro bibliografii SDRUK konaná v dubnu 2001, kde je konstatována nutnost zmapování současné situace zpracování článků v regionech pro zachování kontinuity bibliografického zpracování článků v době přechodu k novému státoprávnímu upořádání. Důležitým bodem je zmapování zpracování titulů v jednotlivých regionech a okresech. Některé knihovny poskytují poměrně zevrubné informace nutné pro koordinaci systému (viz výše).

Bývalé státní vědecké knihovny spolupracují na základě Smlouvy o sdružení pro Českou národní bibliografii z r. 1998, která je aktualizována Dodatkem č. 3 v r. 2000 vzhledem k novému státoprávnímu uspořádání tak, aby byla zachováno bibliografické zpracování článků v regionech v přechodném období. Bývalé SVK, dnes krajské a MZK tak zajišťují zpracování podle bývalého státoprávního uspořádání platného do r. 1999, než budou moci čtyři nově konstituované krajské knihovny převzít zpracování článků na území svého regionu. Přebírání a předávání titulů ke zpracování v podmínkách nového uspořádání krajů musí být plynulé a koordinováno tak, aby konvenovalo podmínkám jak technickým, tak personálním v nových krajských knihovnách . V současné době probíhají některá jednání.

Funkce knihoven jsou definovány v novém knihovním zákoně, který vychází z principů reformy veřejné správy, který jako základní prvek pro zajištění regionálních funkcí určuje krajskou knihovnu. Zákon ze dne 19. června 2001 o knihovnách a podmínkách provozování veřejných knihovnických a informačních služeb stanoví úlohu a povinnosti jednotlivých typů knihoven v rámci systému knihoven ČR. Krajské knihovny spolupracují s NKČR při zpracování národní bibliografie a souborného katalogu, koordinují plnění regionálních funkcí základních knihoven v kraji, zajišťují zprostředkování vnějších informačních zdrojů zejména informací ze státní správy a samosprávy.

Kvantitativní údaje týkající se KOSABI

Počet záznamů v bázi ANL k 19.6. 2002

NKČR - 540 881 záznamů.

Odbor knihovnictví - 7 829 záznamů.

Celkem: 548 710 záznamů.

Regiony: celkem 97 635.

Specializované knihovny: celkem 43 980.

Celkem v bázi ANL: 690 325 záznamů.

Záznamy NKČR tvoří 79,5 procent báze ANL.

Záznamy regionů tvoří 14,1 procent.

Záznamy specializovaných knihoven tvoří 6,4 procent.

(Podíl v procentech souhlasím zhruba s údaji z r.1999).

K 1. 7. má báze ANL zhruba 720 000 záznamů.

Zpracovávané tituly v ANL

NKČR - 212 titulů plus některé sborníky.

Regiony - 217 titulů.

Odborné knihovny - 108 titulů plus některé sborníky.

Celkem 537 titulů.

Tituly volně přístupné na WWW a propojované se záznamy ANL (od r. 1998) - 13 titulů (Veřejná správa,Vesmír, Lesnická práce, Harmonie, Psychiatrie, Učitelské noviny, Jezuité, Národní knihovna, Knihovní obzor, Collection of Czechoslovak Chemical Communication (abstrakta), Inforum 2000, Ikaros, U nás.

Zpracovávané tituly v bázi ANL FULL (NKČR - Anopress) - zpracování a zpřístupnění českých plných textů v rámci linky zpracování bibliografických záznamů z plných textů (viz dále bod 2)

V bázi ANL FULL zpřístupněno výběrově cca 47 titulů od r. 1997 (doplňovány off-line nebo v rámci linky zpracování).

V lince pravidelně zpracováváno 16 titulů (Bankovnictví, Ekonom, Euro, Haló noviny, Hospodářské noviny, Kapitál, Lidové noviny, Magazín Práva, Mladá fronta Dnes, Pátek magazín LN, Právo, Profit, Reflex, Respekt, Týden, Večerník Praha)

V bázi ANL FULL k 1.7. 2002 cca 96 500 plných textů (noviny a některé časopisy), z toho 1263 plných textů periodika Národní knihovna, na plné texty propojena báze ANL automaticky generovaným.

V lince zpracování bibliografických záznamů z plných textů je od 15.1.2001 do 1.7.2002 zpracováno cca 20 000 článků .

2. Kooperační systém článkové bibliografie a projekty. Projekty týkající se propojení analytických záznamů s plnými texty a integrace heterogenních dat v NKČR (r. 1999-2004)

2.1 Některé Projekty týkající se Kooperačního systému článkové bibliografie realizované spolupracujícími institucemi v KOSABI

V posledních letech vzniká několik projektů, zabývajících se zpřístupněním analytických záznamů v kooperaci s ostatními knihovnami, jejich prezentací na Internetu a propojením těchto záznamů s plnými texty.

Projekt Západočeský ANAL - Kooperativní zpracování periodické produkce západních Čech (SVK v Plzni a 11 městských knihoven, řešitel Jaroslava Hanzlíčková, RISK, podaný v r. 1999) se zabývá odstraněním duplicit při zpracování, metodikou excerpce titulů a zpracování záznamů v jednotlivých okresech západočeského regionu.

Projekt Zavedení automatizovaného zpracování článkové bibliografie v systému T-Series (SVK v Ostravě, hlavní řešitel Alena Hrazdilová, VaV, r. 2000-2001) řeší problematiku bibliografického zpracování článků v tomto systému.

Velmi významné jsou dva projekty řešené v Kladně. Projekt konverze záznamů článkové bibliografie z databáze CDS/ISIS z let 1992-1999 do knihovního systému Rapid Library. Druhým projekt se týká kooperativní tvorby a využívání souborů národních autorit.

2.2 Projekty týkající se propojení analytických záznamů s plnými texty a integrace heterogenních dat v rámci KOSABI a báze ANL řešené v NKČR

V Národní knihovně se řeší dva projekty týkající se propojení analytických záznamů s plnými texty a integrace heterogenních dat v rámci KOSABI a souborné databáze ANL.

2.2.1 Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů

Výzkumný záměr NK Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů (VaV, hlavní řešitel Ivana Anděrová, r. 1999-2003) - je projekt analyticko-koncepční a připravuje půdu pro praktickou realizaci účelového projektu týkající se KOSABI a souborné databáze ANL.

Anotace (zadání)

Cílem výzkumného záměru je optimalizace přístupu uživatelů k plným textům dokumentů domácí provenience (nikoli zahraniční). Základem je propojení analytických záznamů o článcích s plnými texty, které jsou dostupné na Internetu a/nebo CD-ROM. Okamžitě bude k dispozici účinný rešerší nástroj – analytické záznamy zpracované v Kooperačním systému české článkové bibliografie, které jsou součástí České národní bibliografie. Jejich postupné propojení s plnými texty ústředních i regionálních periodik výrazně zvýší uživatelský komfort při jejich využití.

Plnění

V rámci projektu v r. 1999 probíhá v NK výběrové řízení a na základě výše uvedených faktů je vypracována výzva k podání nabídky pro společnost Anopress. V rámci projektu je vyvinuta iniciativa k vytvoření Konzorcia Anopress, která je podepsána mezi SKIP a Anopressem v r. 2000. V rámci projektu se propojují bibliografické záznamy s plnými texty získanými z Anopressu v rámci linky zpracování bibliografických záznamů z plných textů (TTDE), které jsou zároveň importovány do báze ANL FULL a ANL. V rámci projektu je též bibiograficky popsán titul digitalizovaný v CD Hostivař.

Periodikum Národní knihovna je v Anopressu převedeno do digitální formy a zpřístupněno na Internetu v Anopressu a bázi ANL FULL. Kromě toho se vyvíjí samostatná aplikace pro zpřístupnění periodika v html a pdf. Tato aplikace bude propojena přes www rozhraní s bází ANL FULL.

V rámci projektu se zkoumají též možnosti automatické či poloautomatické indexace plných textů a možnosti zabudování předmětového popisu do topiců. Koncepce má flexibilní charakter vzhledem k vyvíjející se situaci ve zpřístupňování plných textů na Internetu a očekávaným aplikacím nových metod zpřístupnění dokumentů v rámci jiných projektů. Pro správu Kooperačního systému článkové bibliografie v systému ORACLE bylo upřesněno zadání.

Koncepce

Zdroje plných textů : plné texty volně přístupné na Internetu (elektronické časopisy, elektronická vydavatelství/nakladatelství/informační agentury – archivy a databáze), plné texty získané od autora/vydavatele/nakladatele/distributora, automatický sběr dat. Zpracování bibliografických záznamů a plných textů : tradiční v integrovaném knihovnickém systému (ALEPH apod.), v lince automatické indexace bibliografických záznamů z plných textů (extrakce, automatická indexace doplněna ručně nebo zcela automatická) za současné tvorby URL a metadat ve formě UNIMARC/MARC 21, DC, XHTML, XML/RDF nebo pomocí webovského formuláře. Identifikace plných textů: URL, URN, SICI, perspektivně DOI. Propojení: ruční/automatické, on-line/off-line, statické/dynamické, uzavřené/otevřené. Vyhledání a zpřístupnění plných textů: "subjects gateways", témata, předmětové kategorie, OPAC - bibliografické záznamy (UNIMARC/MARC 21) s URL adresou, pojmové vyhledávání a fulltextové vyhledávání (TOPIC) v kombinaci s rejstříky, metatagy DC, jazyky XHTML XML/RDF, protokoly HTTP, Z 39.50, SFX, internetové vyhledávače. Uložení plných textů: archivy, databáze – servery (nakladatelé/vydavatelé, informačních agentury, knihovny). Výstupy: seznam článků (řazení dle relevance, do skupin - clustering aj.), formáty (citace/DC/abstrakt/plný text, UNIMARC/ XHTML, XML/RDF), tisk. V budoucnu export metadat a plných textů. Uživatelé: lokální/interní, externí, registrovaní, neregistrovaní, zkušební registrace. Služby: neplacené, placené v rámci konzorcia nebo mimo, přes IP, login, heslo nebo volně.

Související projekty realizované v NKČR

Úzce navazující a související projekty

Souborná databáze kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat (programový projekt VAV, hlavní řešitelka PhDr. I. Anděrová, 2000-2004, MKČR).

Další související projekty

Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet (programový projekt VAV, hlavní řešitelka Mgr. L. Celbová, 2000-2001).

Digitální knihovna - produkce, ochrana a zpřístupnění digitálních dokumentů (výzkumný záměr VaV, řešitel Mgr. A. Knoll, MKČR, 1999-2003).

Jednotná informační brána pro hybridní knihovny (zodpovědný řešitel PhDr. B. Stoklasová, RNDr. Pavel Krbec, Mgr. Marie Balíková, MKČR).

2.2.2 Projekt Souborná databáze kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat a jeho vliv na KOSABI

Anotace (zadání)

Náplní projektu je optimalizace integrace a správy heterogenních dat souborné databáze Kooperačního systému článkové bibliografie. Bibliografické záznamy článků, publikovaných v českém periodickém tisku a zpracovávané spolupracujícími knihovnami, budou postupně propojované s elektronickou podobou článku a takto prezentované na Internetu. Obě části souborné databáze - vznikající databáze plných textů a báze bibliografických záznamů ve formátu UNIMARC - vyžadují permanentní kvalitní SW a HW podporu. Budování, doplňování, správu a údržbu plnotextové databáze s možností vyhledávání zajistí informační agentura ANOPRESS (systém TOPIC). Zároveň půjde o vývoj manažerského systému pro příjem a správu dat kooperačního systému. Hlavním cílem projektu je zkvalitnění bibliograficko-informačních služeb.

Plnění

Výsledkem řešení projektu je poloprovoz linky pro získávání a zpracování bibliografických záznamů z plných textů (TTDE) s následným importem záznamů do báze ANL s propojením na plný text v bázi ANL FULL a paralelním importem plných textů s metadaty UNIMARC a DC do báze ANL FULL a jejich zpřístupnění v systému TOPIC včetně automaticky generovaných formátů HTML, XHTML, XML v kvalifikované i nekvalifikované formě.

Velká pozornost je věnována definici báze ANL FULL v systému TOPIC, zejména vyhledávání (prostý dotaz, formulářový dotaz, topiky, rejstříky). Je nainstalován formulář pro registraci uživatelů. Plné texty článků deníků a některých časopisů jsou průběžně stahovány z databáze TamTam (Anopress), zpracovávány v lince zpracování bibliografických záznamů z plných textů a zpřístupňovány v bázi ANL a ANL FULL. Báze je také doplňována off-line z textů Anopressu (systematicky od textů s datem vydání 1997). Je založen portál pro zpřístupnění volně dostupných textů na Internetu ve struktuře tematické a regionální s popisem zdrojů. Průběžně jsou také staticky propojovány záznamy a plné texty z volně dostupných stabilních titulů na Internetu v rámci báze ANL.

V projektu se dále řeší aplikace pro správu a údržbu KOSABI, která vychází z aplikací vyvinutých v rámci SK CASLIN (přijímání záznamů, konverze, úpravy a kontrola záznamů). Pro kooperační systém i zpřístupnění plných textů je zakoupena kvalitní HW a SW platforma.

Související projekty realizované v NKČR

Úzce související projekt

Propojení analytických záznamů s plnými a optimalizace zpřístupnění plných textů (výzkumný záměr VAV, řešitelka PhDr. I. Anděrová, 1999-2003, MKČR).

Další související projekty (viz též bod 2.2.1)

Rozšiřování možností rozvoje Caslin - Souborného katalogu ČR (výzkumný záměr VaV, řešitelka PhDr. G. Krčmářová, 2000-2003).

2.2.2.1 Řešení projektu Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat

Rámec řešení zpřístupnění plných textů a ANL FUILL, integrace heterogenních dat:

Průzkumová a analytická činnost v oblasti zpřístupnění plných textů u nás i v zahraničí, technologická řešení.

Standardizace, metodika. Architektura systému - řešení: zdroje plných textů, získávání plných textů, zpracování záznamů a plných textů, identifikace plných textů, propojení záznamů s plnými texty, uložení plných textů, vyhledání a zpřístupnění plných textů, výstupy, uživatelé, služby a platby. Portál. Management KOSABI. Perspektivy.

2.2.2.1.1 Průzkumová a analytická činnost v oblasti zpřístupnění plných textů v ČR, technologická řešení

- současný stav zpřístupňování článků na Internetu a nové trendy ve zpřístupňování článků, metody a projekty

2.2.2.1.1.1 Současný stav v ČR - některé volně přístupné zdroje na českém Internetu, digitální knihovny, služby

Některé knihovny vytvářejí soupisy volných českých zdrojů plných textů na Internetu. Jinak jsou plné texty organizovány na Internetu do tematicky či jinak utříděných portálů.

Relativně velký rozvoj na Internetu nastal v nabídce českých novinových a časopiseckých elektronických zdrojů - jsou vystaveny deníky, týdeníky a časopisy. Vystavené texty jsou zachyceny s různou hloubkou retrospektivity (aktuální číslo, poslední čísla či roky), objevují se archivy volně dostupné či pouze registrovaným uživatelům. Některé zdroje obsahují citaci , abstrakt, objevují se current contents. Někdy lze vyhledávat podle základních formálních údajů, kombinovat dotazy pomocí logických operátorů, vyhledávat plnotextově.

Na české Internetu se objevují nakladatelské elektronické zdroje Vztahy mezi uživateli, knihovnami a vydavateli/nakladateli a knihovnami či bibliografickými agenturami nejsou dosud jasné z hlediska právního i obchodního, v budoucnu lze předpokládat v tomto směru vznik nových iniciativ.

Nakladatelství Economia a.s, nakladatelství ekonomické literatury vystavuje na Internetu plné texty produkce tohoto nakladatelství. Server IHNED nabízí pokročilé vyhledávání ve zdrojích i řazení výsledku podle relevance.

Sagit (elektronické nakladatelství – právní texty), Tigis s.r. o. (časopisy pro lékařskou odbornou veřejnost a edukační časopisy pro veřejnost), Nakladatelství Muzikus - hudební tématika, Portál.

Current Contents, abstrakty, citace, plné texty

AVČR - Časopisy vydávané Akademií věd České republiky. Některé časopisy jsou vybaveny abstraktem a plným textem, někde pouze obsahy časopisů.

Nakladatelství Karolinum, Nakladatelství Univerzity Karlovy - vydávání učebních textů, vědeckých monografií, sborníků vědeckých prací, slovníků a vědeckých časopisů - current contents.

Odborná knihovnická periodika

Národní knihovna. Knihovnická revue - webovská prezentace periodika v rámci Projektu propojení analytických záznamů s plnými texty), plnotextově přístupná na serveru full.nkp.cz a www.anopress.cz. Ikaros - elektronický časopis o informační společnosti. Bulletin SKIP, U nás, Knihovní obzor.

Některé digitální knihovny a databáze

ASPI (Automatizovaný systém právních informací). Digitální knihovna "Český parlament" a " Dokumenty Senátu". Digitální knihovna v NKČR obsahuje vzácné a ohrožené dokumenty digitalizované v národních programech Memoriae Mundi Series Bohemica (převážně rukopisy, staré tisky a perspektivně další dokumenty) a Kramerius (starší noviny a časopisy a další vzácné dokumenty tištěné na kyselém papíře).

Informační agentury

Albertina icome

Albertina icome Praha je česká soukromá společnost zaměřená na zpřístupnění profesionálních informačních zdrojů v elektronické formě a jejich využití v praxi. AiP nabízí elektronické tituly předních světových vydavatelství. Elektronické vydavatelství spolupracuje na vydávání ČNB na CD-ROM.

Newton I.T.

Elektronická výstřižková služba, elektronický archív novin a časopisů celostátních a regionálních. Buduje archívy některých deníků a časopisů.

Anopress I.T.

On-line databanka novin a časopisů celostátních a regionálních, monitoring na zakázku, vědomostní databáze, archívy zdrojů. Spolupracuje s NKČR v rámci zmiňovaných projektů.

2.2.2.1.1.2 Nástroje , související se zpřístupněním plných textů a integrací dat v ČR. Projekty a metody. Organizace a legislativa

DC (Dublin Core)

Formát metadat pro popis webovských informačních zdrojů - formát definovaný na základě mezinárodního konzensu - obsahuje 15 prvků k identifikaci zdroje.

XML (eXtensible Markup Language)

Jazyk XML je prostředek sloužící k zapsání strukturovaného textu , zvláště pak textu určeného k šíření v prostoru www. XML je formát textový, tzn., že dokument je možno vytvářet, přenášet a zpracovávat na libovolná data, jakýmkoli počítačovým systémem, jsou vyřešeny jazykové a kódové problémy. XML odděluje popis struktury dat od jejich prezentace (pomocí tzv. style sheetů). To umožňuje snadnou konverzi do jiných formátů, možnost prezentace dat různými způsoby (HTML, postcript, UNIMARC apod. textový formát). Každý dokument má definovanou svoji strukturu prostřednictvím tzv. DTD (Document Type Definition). Tato DTD může být unikátní pro každý dokument, ale může být také společná pro celou řadu dokumentů. Velký potenciál XML se skrývá v novém způsobu odkazování (oběma směry, na více dokumentů najednou či dokonce v rámci hierarchické struktury) pomocí speciálních jazyků XLink, XPointer a XPath. Totéž lze říci o stylovém jazyku XSL, který doplňuje a nahrazuje tzv. kaskádové styly (CSS). Oblasti potenciálního využití XML jsou široké.

RDF (Resource Description Framework)

Poskytuje základ pro popis v různých aplikačních doménách. Jako modelovací jazyk používá entity, atributy, vztahy.

Propojování informačních zdrojů

FRBR Functional Requirements for Bibliographic Records - relace mezi Dílem, Vyjádřením díla, Provedením díla, a Exemplářem díla (Work, Expression, Manifestation, Item). Propojování se zavádí komerčně: databáze statických odkazů, z A&I databáze k plnému textu, z citace v plném textu na plný text, , z OPAC k časopisu a jeho obsahu a odtud k plnému textu, většina linků je statických pro konkrétní případy předem budovaná. Dynamické linky jsou budovány následně, v době potřeby, jsou pravděpodobnostní.

Propojování pomocí URL, PURL, URN a hypoteticky u nás DOI.

SFX (Special Effects) je databáze, která na základě jednotně stavěné identifikace dokumentu (open URL) odvozené od metadat dokumentu a podle práv uživatele (context sensitive) nabízí další služby, jejichž dostupnost má uživatel zajištěnu. Práva uživatele musí SFX zaznamenat ve zvláštní databázi předem nastavené a podle toho bude nabízet služby dostupné obsluhovanému uživateli. Nabízené služby závisí též od obsahu open URL.V open URL se může využít i identifikace dokumentů pomocí DOI, kdy SFX je schopen se spojit s databází CrossRef a převést DOI na open URL s bibliografickými údaji.

Z39.50 je soustava protokolů sloužících ke komunikaci mezi heterogenními knihovnickými systémy. Umožňuje vyhledávat, editovat, upload a download záznamů.

Jednotné informační brány řeší přístup k různým zdrojům z jednotného prostředí. Jejich funkčnost je podmíněna homogenním nástrojem pro indexaci zejména věcnou. Řešením je harmonizace řízených slovníků či tezaurů.

Realizované projekty a metody, se kterými souvisí projekty a zpřístupnění textů v rámci KOSABI

WebArchiv je vytvářen v rámci programového projektu výzkumu a vývoje "Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet". Jeho cílem je připravit podmínky pro zpracování české národní bibliografie elektronických zdrojů, se zaměřením zejména na zdroje dálkově přístupné.

Programový projekt Ministerstva kultury ČR ”Jednotná informační brána pro hybridní knihovny” - řeší otázku jednotného uživatelského rozhraní pro hybridní knihovny. Takovou knihovnou je Metalib. Databáze ANL je jedním ze zdrojů této knihovny. Na Bázi ANL FULL je učiněn odkaz. Komunikace v Metalib je na základě protokolu Z39.50 nebo HTTP.

Metoda konspektu jako nástroj popisu fondů má přispět k realizaci této brány. Základem metody je popis dle věcného třídění na několika úrovních. První obsahuje 24 tematických skupin, druhá 500 kategorií, které se dále člení na 4 000 témat. Vazba na jednotnou informační bránu: výběr věcného oboru v Metalibu podle členění tématických skupin.

Propojování - Metalib a SFX. SFX je standard pro propojení dokumentů a je využíván v Metalib k vytváření vazeb. V Metalib je statický způsob propojení je nahrazován dynamickým propojováním založeném na open URL.

Organizace a legislativně právní záležitosti

Konzorcia

Pro přístup elektronickým zdrojům zejména k plným textům článků se zakládají konzorcia. Výhody: získání zdrojů jinak nedostupných, přístupu malým institucím/pracovištím, příznivějších cen na instituci, využití centrálních finančních zdrojů, levnější provoz (administrativní a organizačně-technické výhody), spolupráce. Členy některých konzorcií jsou i české knihovny a instituce.

V ČR mají uživatelé přístup k mnoha kvalitním zahraničním zdrojům elektronických informací díky programu MŠCHT "LI - Informační zdroje pro vědu a výzkum".

V současné době je funkční konzorcium Anopress vzniklé v r. 2000. V r. 2002 je podprogram VISK8 - Informační zdroje - linie A zaměřen na zajištění dostupnosti elektronických informačních zdrojů formou multilicencí z domácí, české provenience, a to: databáze TamTam fy Anopress a databáze ČTK . Je logické do tohoto konzorcia zahrnout i databázi ANL FULL, která vzniká na základě textů databáze TamTam. V NK probíhají v tomto směru jednání (zatím v mailové podobě), Anopress proti zpřístupněním databáze v konzorciu na zatím omezenou dobu za určitých podmínek v zásadě není. Jednání budou pokračovat.

Autorsko právní a legislativně právní problematika zpřístupňování elektronických dokumentů - v ČR je třeba aktualizovat zákon o povinném výtisku seriálových publikací, event. autorský zákon.

Povinný výtisk elektronických publikací je předpokladem jejich uchovávání a zpřístupnění. Dále je třeba v budoucnu uzavírat dohody mezi knihovnami a příslušnými nakladateli a vydavateli, které se budou týkat jednak zpřístupnění elektronických dokumentů, jednak spolupráce.

2.2.2.1.1.3 Standardizace, metodika - UNIMARC, DUBLIN CORE, HTML, XHTML, XML, propojení záznamů s plnými texty

V lince TTDE se extrahují data jmenného popisu z plných textů, v lince se automaticky generuje dynamická URL adresa, SICI. Dále se automaticky generuje URN (do kterého je zabudováno identifikační číslo plného textu přidělené v Anopressu) a z velké části pole LKR určené k propojení se zdrojovým dokumentem. Automaticky generovaný Dublin Core obsahuje 14 z 15 definovaných údajů. Je generován pro formát HTML, XHTML a XML ve kvalifikované i nekvalifikované formě. Do HTML je zabudován LINK tag pro potřeby odkazu na webovský zdroj, v němž se nachází specifikace daného použitého soboru metadat. Bylo nadefinováno 20 údajů Anl Core vzhledem k detailnosti popisu a vzhledem k možnostem vyhledávání v současné verzi systému TOPIC. Struktura automaticky generovaných bibliografických dat respektuje formát UNIMARC a knihovnická pravidla AACR2 v oblasti jmenného popisu. V oblasti věcného popisu se používá aktualizovaná verze MDT-MRF. Verbální věcný popis obsahuje předmětové kategorie, které zasazují dokument do širších souvislostí v rámci databáze z hlediska obecných témat, jež by se měla sbližovat s nadefinovanými tématy systému TOPIC. Předmětové kategorie do jisté míry konvenují metodě konspektu aplikované pro popis a mapování fondů. Dále se používají předmětová hesla a velmi omezeně klíčová slova. Automaticky je generován souhrn článku, automaticky lze také generovat klíčová slova, která však mají v současném stádiu "počítačovou formu". V budoucnu lze uvažovat i o částečném automatické generování termínů předmětové indexace. Tyto forma však vyžaduje intenzivní vývoj řízených slovníků/heslářů či tezaurů a jejich integraci do "subject gateways". V budoucnu se předpokládá intenzivnější využívaní vznikajících souborů autorit jmenných i věcných a zabudování předmětového popisu do vyhledávání pomocí topiců v sytému TOPIC, ve kterém je zpřístupňována báze ANL FULL.

2.2.2.1.1.4 Architektura systému pro zpřístupňování plných textů. Linka zpracování. Systém TOPIC a pojmové vyhledávání. Báze ANL FULL v systému TOPIC (v současné verzi Portal One)

Architektura systému, ve kterém vzniká báze ANL FULL a částečně báze ANL - datový a funkční model

Báze ANL FULL vzniká v rámci linky zpracování bibliografických záznamů z plných textů TTDE získaných z databáze TamTam za současného generování metadat Dublin Core ve formátech HTML, XHTML, XML v kvalifikované a nekvalifikované formě. Báze je provozována v systému TOPIC (pojmově orientovaný vyhledávací systém). Technologie zpracování a zpřístupnění článků v systému TOPIC vychází z a navazuje na již vyvinutou technologii firmy Anopress. Záznamy vznikající v lince jsou současně importovány do báze ANL a jsou propojeny na plné texty obsažené v bázi ANL FULL.

· On-line získávání dokumentů z databáze TamTam přes vstupní filtr pro linku zpracování - aplikace TT Special NK (TTSNK), textové dokumenty vstupují do linky se strukturovanou hlavičkou, kde jsou dohodnutými znaky a návěštími označeny příslušné údaje (v budoucnu možná další úprava vstupních filtrů podle charakteru získávaných dokumentů z jiných zdrojů).

· Zpracování plných textů (extrakce dat z hlavičky dokumentu, doplnění a generování DC, UNIMARC, výstup v ANSEL, UNICODE, UNICODE-UTF 8) - aplikace TTDE (TamTam Data Extractor) na lokálních pracovních stanicích.

· Konverze, generování dat URL, SICI, DC v HTML, XHTML+-, XML+-, indexace, uložení a vyhledání informací (vyhledávání pomocí textu dotazu, formulářů, topiců, rejstříků) - aplikační a datový server: Portal One SE - fulltextový vyhledávací systém, server Dell PoweEdge 6300 (1 GB RAM, 68 GB, Pentium III). MKINDEX - indexace, generování XML- a XML+, jednorázové aplikace/moduly (TTEXPORT-TamTamExport, TTXMLGen -TamTam XML generator, TTDT-TamTam Data Tester, TTDF-TamTam Data filter, TTDC- TamTam Data Convertor, MKDOC.ASP - propojení bibliografického záznamu s plným textem).

· Zobrazení a zpřístupnění informací - Internet Information Server Win 2000 - komunikace v síti, zobrazování dat a metadat v uživatelských formátech (citace bez/s odkazy, výsledky jednoduché, se souhrnem, seskupené) a pracovních formátech (klíčová slova, DC v HTML, XHTML+ -, XML+ -), tisk. Obecné základní informace, nápovědy, autorizace, statistika zobrazených informací přes Internet aj.

Poznámka:

export dat z ANL FULL pro uživatele - bude řešen.

Zpracování v lince zpracování bibliografických záznamů z plných textů (TTDE) obsažených v bázi TamTam Anopress a propojení bibliografických záznamů a plných textů

Pracovník oddělení analytického zpracování NK nejprve vybere a vyhledá příslušné články ke zpracování v databázi TamTam. Stažení vybraných článků na počítač příslušného pracovníka v podobě komprimovaného souboru. Po jeho dekompresi je text článku naimportován do příslušného adresáře. Po otevření formuláře ke zpracování se objeví v levém části formuláře pro editaci seznam názvů článků. Po kliknutí na článek se automaticky objeví extrahované údaje z hlavičky článku v příslušných rubrikách formuláře a hlavičkách TTDE.

1. Rozšířený formulář je nástroj vyvinutý pro editaci a doplnění extrahovaných dat. Data je možno upravovat také v hlavičce UNIMARC-A, UNIMARC. Automaticky se generují údaje v rozsahu minimálního záznamu stanoveného pro popis článků (kromě notace MDT), tj. údaje zejména jmenného popisu a kódované údaje. Automaticky se generuje souhrn článku. Pokud je zvolena příslušná funkce, je možno automaticky generovat klíčová slova. Další údaje věcného popisu - předmětové kategorie doplněné MDT, hesla se doplňují. Automaticky se generuje URL, SICI, téměř celé pole LKR (k propojení se zdrojovým dokumentem - vazba up and down na analytický záznam - experimentálně zatím vazby zkoušeny u deníku Právo, Magazín Práva, Reflex, Respekt, Týden).

Formulář má tři strany. První obsahuje jmenné a věcné údaje, druhá pouze věcné, třetí jmenné a věcné údaje.

2. UNIMARC-A hlavička je hlavička s bibliografickými údaji pro importní vstupní soubor záznamů do ALEPHu (řádkový UNIMARC), do které se automaticky generují tatáž data jako do formuláře pro editaci a úpravy zanesené do tohoto formuláře. Tato hlavička je také přístupná pro editaci samostatně. Jde o řádkový UNIMARC.

3. UNIMARC hlavička, hlavička pro klasický UNIMARC s týmiž vlastnostmi jako hlavička UNIMARC-A - slouží k eventuelnímu importu pro systémy, které jsou založeny na UNIMARCU - řádkový UNIMARC. Do hlavičky jsou generované tytéž údaje jako do výše jmenované hlavičky.

4. DUBLIN hlavička s týmiž vlastnostmi jako předchozí dvě hlavičky sloužící ke generování metadat Dublin Core - vychází z poslední verze Dublin Set Elements, z 15 jeho prvků aplikuje 14 (pro jemnější vyhledávání jsou určeny tzv. prvky Anl Core).

5. Zobrazovací hlavička slouží k zobrazení údajů v hlavičce plného textu.

6. Indexovací hlavička slouží k indexaci uložených údajů v databázi ANL FULL.

Po odrážce různé je možno nastavit tvar výstupní hlavičky pro UNIMARC-A nebo UNIMARC a spustit ruční vstup dat, nastavit kód výstupních dat (ANSEL, UNICODE, UTF-8).

Následuje odeslání záznamů pomocí volby odeslat na dolní liště, import do ALEPHu, import na server full.nkp.cz. Pro propojení plných textů s bibliografickými záznamy v systému ALEPH (doplnění URL adres do záznamů) byl vytvořen skript MKDOC.ASP. Propojení probíhá ne základě dynamicky generovaného odkazu na dokument. Program vyhledá požadovaný dokument dle identifikace (identifikační číslo), provede statistiku a kontrolu autorizace a na jejím základě zobrazuje plný text, abstrakt a citaci dokumentu v rámci databáze ANL FULL na serveru full.nkp.cz.

Systém TOPIC a pojmové vyhledávání

Systém TOPIC (pojmově orientovaný vyhledávací systém, concept based retrieval) je systém třetí generace založený na následujících principech: rozklad pojmu na podpojmy, vážení jednotlivých podpojmů (větví pojmového stromu), neostré vyhodnocování dotazů.

Dotaz v systému třetí generace reprezentuje pojem, resp. ideu vyhledávaného tématu. Jádrem dotazu je stromová hierarchická struktura, která rozkládá hledané téma na podtémata a přiřazuje jednotlivým částem váhy, které vyjadřují, do jaké míry příslušné téma přispívá k celkovému určení tématu. Systém dále vypočítá míru relevance vyhledaných dokumentů. Oproti běžně používaným operátorům TOPIC používá operátor ACCRUE se specifickými vlastnostmi. Tento operátor sbližuje operátory and a or. Každý topic obsahuje tedy tři základní charakteristiky - strukturu, váhy a operátory (viz dále).

Podstata systému TOPIC

Topic je předem definovaný strukturovaný dotaz.

Jednotlivá slova do topicu vkládáme pomocí operátorů a modifikátorů. Určujeme tím, v jakých vztazích k dalším pro dané téma typickým výrazům se mají tato slova v plných textech vyskytovat a jaký mají pro daný dotaz význam, resp. váhu. K tvorbě topiců se používá editor a dotaz v něm má strukturu členěné osnovy nebo stromu. Systém vyhledá všechny dokumenty, v nichž se v určených souvislostech v textech vyskytují - alespoň některá ze zadaných slov. Přihlíží i k pádovým koncovkám. Každému nalezenému dokumentu program přiřadí ohodnocení relevance v podobě čísla a to formou číselného skóre, kdy vychází jednak z četnosti výskytu zadaných slovních kombinací v textech a jednak zohledňuje váhy, které jsme přisoudili jednotlivým větvím. Fulltextové vyhledávání pomocí topiců se vyznačuje úplností, značnou přesností a vysokou mírou přizpůsobivosti individuálním potřebám uživatelů.

Úplnost (recall) znamená, že systém zachytí prakticky všechny dokumenty, které se v té či oné míře týkají daného tématu. Přesnost (precision) vyhledávání souvisí s hodnotou skóre: platí, že text, který obsahuje větší počet slovních kombinací typických pro určité téma, se k tomuto tématu váže.

Soubor vytvořených topiců tvoří tzv. znalostní bázi. Každý TOPIC má své jméno a popis.

Určování důležitosti dokumentů

Zda nějaký dokument dotazu vyhovuje či ne záleží na tom, jakými operátory jsou jednotlivá slova spojena. U běžných fulltextových technologií je možné klíčová slova spojovat operátory and nebo or.

AND – dokument obsahuje všechna klíčová slova, která požadujeme, tj. přesné vyhledávání .

OR - dokument obsahuje alespoň jedno klíčové slovo, tj. úplné vyhledávání (vyhledány všechny potenciálně možné dokumenty).

Oba operátory lze kombinovat pomocí operátoru ACCRUE (zapisuje se jako čárka při vyhledávání) a je založen na principu " čím více různých klíčových slov je nalezeno, tím je dokument důležitější". Na prvním místě jsou dokumenty obsahující všechna slova, na dalších dokumenty obsahujíc méně a méně různých klíčových slov. Pro přesné vyhodnocení důležitosti (relevance) dokumentu se berou v úvahu uvedené váhy slov a četnost jejich výskytu. Důležitý je operátor Near/nn, který umožňuje vyhledání jen takových dokumentů, kde je určitá množina slov ve vzdálenosti definována číslem nn.

U systému TOPIC odpadá tedy dilema mezi přesností a úplností, řeší je operátor ACCRUE.

Kvantifikace obsahu dokumentů

Pomocí široké škály operátorů lze stanovit způsob vyhodnocování důležitosti dokumentů vzhledem k dotazu. Toto číslo se nazývá relevance a nabývá hodnot 0,001 až 1.00.

Shlukování (clustering) – funkce, která umožňuje vyhledané dokumenty shlukovat podle možného společného kontextu. Shlukování je založeno na statistické analýze obsahu prováděné při jeho indexaci. Pro každý dokument je vybrána řada slov (významový vektor), která s určitou pravděpodobností vystihuje obsah dokumentu, a na základě něj se vytváří automatická anotace v podobě nejvýznamnějších vět z dokumentu (summary).

Báze ANL FULL v systému TOPIC. Jak se zaregistrovat. Jak vyhledávat. Výsledky vyhledávání a zobrazení, výstupy

Jak se zaregistrovat

Externí uživatelé se mohou zatím zaregistrovat pomocí formuláře v nabídce Registrace na dobu 7 dnů. Po vyplnění povinných údajů je těmto uživatelům zasláno e-mailem potvrzení registrace s aktivačním odkazem a heslem - po odeslání tohoto odkazu je registrace aktivována a prostřednictvím přiděleného hesla zajištěn bezplatný zkušební přístup na dobu sedmi dnů. Rutinní zpřístupňování plných textů bude možné po vyřešení autorskoprávních, popř. ekonomických otázek souvisejících se zpřístupňováním plných textů. Roli také bude hrát koncepce a strategie zainteresovaných subjektů.

Nabídka Přihlášení slouží k autentifikaci registrovaného uživatele. Ve formuláři pro přihlášení je třeba vyplnit jméno a přidělené heslo.

Jak vyhledávat. Druhy dotazů v databázi ANL FULL a systému TOPIC

Báze ANL FULL obsahuje jak bibliografický popis (metadata) v různé míře podrobnosti podle vývoje systému, tak plný text, přičemž obě tyto části jsou indexovány a lze z nich paralelně vyhledávat a docílit tím větší míru relevance výsledku vyhledávání k položenému dotazu. Systém umožňuje velmi sofistikované kladení dotazů vyžadující určitou zkušenost. Na druhé straně je možné položit dotaz velmi jednoduchým způsobem. Systém umožňuje tři způsoby hledání: vyhledávání (searching) pomocí formulářů a pole dotaz, pomocí topiců - předem strukturovaných dotazů v rámci rozšířeného formuláře, prohlížení (browsing) rejstříků.

Formuláře: základní, rozšířený, rozšířený s tématy (pomocí topiců).

Dotazy: druhy dotazů se liší náročností formulace a možností ovlivnit výsledek vyhledávání .

Prostý dotaz

Obsahuje slova nebo fráze oddělené čárkami nebo logickými spojkami, formulace mohou obsahovat různé konvence. Při vyhledávání se všechna slova skloňují a mají stejnou váhu.

Formulářový dotaz

Obsahuje kromě možnosti pro zadání hledaného slova nebo fráze jako u prostého dotazu i pole pro zadání podmínek pro jednotlivé položky strukturované části textové databáze. Jde o rozšíření prostého dotazu.

Tematický dotaz, resp. topic - definuje jednotlivá témata.

Topic je typ dotazu, na jehož základě se vyhledají dokumenty, které se týkají určitého tématu, oboru nebo problému.

Jsou rozděleny v bázi do tří úrovní. Lze zatím vyhledávat podle některých nadefinovaných topiců (označeny šipkou vlevo).

Témata jsou uspořádána do 7 oblastí, ty se dělí do 20 tematických skupin a skupiny obsahují zatím 114 detailních témat.

Tematické oblasti: Ekonomika, obchod, finance; hospodářství, výroba; humanitní a společenské vědy;

matematika a přírodní vědy; lékařství, zdravotnictví, technika; sport, volný čas.

Rejstříky

V rejstřících je možno listovat a vybrat výraz, podle kterého chceme vyhledávat. Tyto výrazy jsou hypertextově propojeny v citacích s metadaty, resp. údaji bibliografického popisu. Podle rejstříků doporučujeme vyhledávat údaje zejména týkající se předmětu dokumentu (předmětové kategorie, hesla - věcná a geografická, osoby, korporace, akce, klíčová slova, dokument/dílo). Rejstřík se zobrazuje v levém okně, v pravém okně se zobrazují vyhledané články.

Bylo nadefinováno 17 rejstříků: autoři, název zdroje, zdroj ročník číslo, datum vydání, předmětové kategorie, předmět, místo, hesla (věcná a geografická), osoby, korporace, akce, klíčová slova, dokument/dílo, typ článku, MDT, geografické vymezení, časové vymezení.

Výsledky vyhledávání, zobrazení výsledků

Způsoby zobrazení seznamu výsledků (názvů vyhledaných článků)

V záhlaví seznamu výsledků je uveden počet vyhledaných článků. Počet vyhledaných dokumentů na stránku je dán volbou v poli Výsl./str. V závislosti na této volbě se potom zobrazuje počet stran s možností listování.

U jednotlivých článků zobrazeno vždy, resp. standardně (zleva): tři formáty pro zobrazení údajů o článku, skóre relevance, datum vydání, název článku, velikost plného textu: jednoduchý (standardní zobrazení), se souhrnem (standardní zobrazení plus souhrn), seskupený (standardní zobrazení plus články uspořádané do skupin podle shody v klíčových slovech podle společného kontextu, clustering).

Třídění seznamu výsledků (názvů vyhledaných článků)

Třídění: dle skóre (relevance), dle názvu, zdroje, data (vydání), stran, a to sestupně nebo vzestupně.

Zobrazení údajů o článku - formáty zobrazení

Uživatelské formáty

Citace článku, souhrn - bibliografické údaje o článku, resp. metadata s odkazy pro další hledání .

Citace článku, plný text - bibliografické údaje o článků, resp. metadata s odkazy pro další hledání a plný text článku.

DC/HTML – Dubline Core Metadata .

Název článku hypertextově aktivní – zobrazení citace a plného textu bez odkazů .

Pracovní formáty

V záhlaví plného textu jsou navíc různé pracovní formáty - klíčová slova, UNIMARC, Dublin Core – formát pro zpřístupňování elektronických dokumentů a jeho aplikace, které obsahují metadata (DC/HTML/META, DC/XHTML kvalifikovaný a nekvalifikovaný, DC/XML kvalifikovaný a nekvalifikovaný). Jsou určeny pro budoucí vývoj systému a zpřístupnění plných textů.

Metadata

Ve všech variantách zobrazení je obsažena citace, resp. biliografické údaje, resp. metadata ( Dublin Core a Anl Core).

Zpřístupnění a výstupy

Plné texty s metadaty z báze ANL FULL jsou též přístupné přes bázi ANL a v rámci ní v Jednotné informační bráně, a to diferencovaně: interní uživatelé NKČR plné texty s metadaty (přístup přes IP adresy), externí uživatelé pouze metadata s krátkým souhrnem, po registraci na serveru full.nkp.cz jsou k dispozici též plné texty na 7 dnů. Plné texty lze zatím kopírovat nebo tisknout. Export dat bude řešen.

Srovnání bází ANL a ANL FULL (kvantitativní údaje - současný stav)

Zpracování v ALEPHu a v rámci linky zpracování TTDE v NKČR, zpracování v KOSABI.

Báze ANL - přírůstek NKČR - 3266 záznamů / měsíc / 11 úvazků / jmenný a věcný popis, z toho:

zpracování v ALEPHu - 1689 záznamů / měsíc / 7,5 úvazku - jmenný a věcný popis ručně, linka zpracování TTDE - 1577 záznamů / měsíc / 3,5 úvazku - jmenný popis extrahován a generován automaticky, věcný popis ručně.

Zpracování v ALEPHu - 11 záznamů / úvazek /den, zpracování v TTDE - 21 záznamů / úvazek /den.

Báze ANL - přírůstek z kooperujících institucí:1000 záznamů / měsíc

2.2.2.1.1.5 Periodika na WWW - strukturovaný portál na serveru full.nkp.cz

Nabídka volně přístupných periodik na Internetu se dále bude doplňovat, event. jejich uspořádání měnit. Nejsou zde zahrnuta periodika firemní, inzertní, bulvární, propagující hnutí potlačující lidská práva, sportovní, zpravodajská (zprávy z tiskových agentur bez dalšího kontextu) aj. periodika efemérní povahy.

U každého periodika je uveden oficiální název, www adresa, popis obsahu, vydavatel, tel., fax, e-mail, adresa. V budoucnu bude možno podle těchto údajů vyhledávat. Nabídka není ještě zdaleka proporcionální, bude postupně ladit.

Takto zpřístupněná volně dostupná periodika jsou strukturována do přehledné formy portálu na úrovni krajské, tématické a institucionální.

2.2.2.1.1.6 Management Kooperačního systému článkové bibliografie (aplikace MNG KOSABI)

Na základě zadání pro řízení a správu kooperačního systému a za využití již vyvinutých řešení v rámci Souborného katalogu CASLIN probíhají práce na vývoji aplikace pro KOSABI na serveru ANL (systém LINUX a ORACLE) Ve stádiu ladění je aplikace pro příjem a automatizované zpracování dat (příjímání analytických záznamů, integrace stávajících programů pro konverzi analytických záznamů, globální úpravy analytických záznamů, vývoj programů na formálně logické kontroly kooperujících knihoven - test na UNIMARC pro analytické záznamy). Je vyvinut základ aplikace pro evidenci zpracovávaných titulů a test na duplicitu záznamů (klíčů) mimo ALEPH.

Aplikace pro správu a údržbu KOSABI - přehled dílčích funkcí

1. Příjem dat pro systém

Způsoby příjmu dat: ftp, upload, disketa.

Formáty: Aleph, Aleph 500, UNIMARC řádkový, UNIMARC ISO 2709, Výměnný formát.

Kódovani: GIZMO, PC Latin 2, Kamenicky, ISO 8859-2, UTF-8, Ansel, ISO 646.

2. Zpracování přijímaných dat

Přidělení identifikace pro zpracovávanou dávku ( batch_id ).

Formát a kódování dle názvových konvencí.

Překódování do UTF-8.

Konverze do UNIMARC ( u formátu, které to vyžadují).

Převod do interní struktury SQLLCB.

Globální úpravy záznamu - 1. etapa

(chyby v datech, které lze programově ošetřit, např. tvrdé mezery, tagy ve vazebních polích) .

Test UNIMARC.

Uložení do baze SKA.

Statistika zpracování.

3. Export dat z baze SKA do adresáře určeného pro ALEPH

Záznamy pro export určeny dle batch_id

Globální úpravy záznamu - 2. etapa (oprava specifických "chyb" v dávkách od jednotlivých knihoven).

Konverze do kódování Ansel a formátu ALEPH 500.

Uložení výstupního souboru do příslušného adresáře pro import do ALEPHu.

Satistika zpracování.

Aplikace pro evidenci zpracovávaných titulů (nadefinována pole odpovídají SK CASLIN)

Název: [200a].[200i][200b] : [200e]

Nakladatelské údaje: [210a] : [210c]

Zdroj katalogizace: [801b].[801c]

Sigla vlastnika: [910a].[910a]

Region: [952a].[952a]

Údaje o excerpci: [980a].[980b].[980c].[980k].[980p].[980r].

Test na duplicitu klíčů

V rámci ALEPHU není test na duplicity zatím možný. Mimo ALEPH je definováno několik klíčů.

2.2.2.1.1.7 Perspektivy - další možný vývoj prezentovaného systému, předpoklady, cíl

· Marc 21

· zvážení možnosti a efektivnosti spojení automatické sklizně dat a linky zpracování (návaznost na Webarchiv)

· automatická indexace věcná - průzkum, do jaké míry je možná; zabudování věcného popisu do topicu

· předpoklad automatické indexace věcné - existence homogenního nástroje

· napojení na autority

· zapojení do digitální knihovny

· řešení legislativně právních otázek a otázek plateb (jasné oddělení textů poskytovaných zdarma a za úplatu)

· rozšíření linky zpracování na další instituce a aplikace moderních metod zpracování a zpřístupnění na spolupracující instituce v rámci KOSABI (zpracování pomocí linky TTDE je jednoduché a propojení s plnými texty automatické)

· cíl: automatické či poloautomatické zpracování bibliografických záznamů z plných textů - pouze výběr textů ke zpracování a korekce dat

· usnadnění chodu, administrativy a správy KOSABI

· orientace na další typy seriálových publikací v rámci ANL FULL

· pro uživatele zpřístupnění báze ANL FULL v rámci konzorcia Anopress, resp. celostátní licence (VISK 8) - záznamy báze ANL s propojením na plný text v bázi ANL FULL již v Metalib zpřístupněny s příslušným diferencovaným přístupem pro uživatele přes IP

· zpřístupnění báze ANL FULL v rámci Jednotné informační brány přes http protokol závisí na strategii tvůrců Metalibu (předpokládá připojit full.nkp.cz do Metalibu pro vyhledávání, připojit full.nkp.cz do SFX)

· spolupráce s nakladateli a vydavateli - začlenění linky zpracování do předpokládaného možného vývoje - předpoklad: strukturované údaje, resp. údaje Dublin Core v textových formátech, resp. HTML formátu

Popsaná linka zpracování je použitelná po úpravě vstupním filtrem i na data existující v jiné databázi, event. v komunikaci mezi autorem, nakladatelstvím, bibliografickou agenturou, knihovnou/informační institucí a naopak.

Předpokládá však do jisté úrovně strukturovaný vstupní text, ze kterého data mohou být extrahována.

V této struktuře mohou být zachyceny údaje nejen jmenné povahy (autor apod.), ale i povahy věcné (klíčová slova, abstrakt).Ty je potom možno převést pomocí vstupního filtru do linky k dalšímu zpracování.

1) Pro identifikaci článků ve struktuře textu pro další zpracování v lince jsou důležité následující údaje z možných 15 prvků DC:

1. Název (Title)

2. Tvůrce (Creator)

3. Zdroj / Vztah (Source/Relation) - tj. název zdroje, roč., číslo, datum, strany

4. Nakladatel (Publisher)

5. Předmět (Subject) - klíčová slova nebo hesla nebo výrazy tezauru

6. Popis (Description) ve formě abstraktu

7. Práva (Rights)

8. Identifikátor (Identifier)

2) Pro konverzi či zápis údajů obsažených v hlavičce textu dokumentu je možno použít schéma definované na základě pokynů pro přispěvatele do časopisů (v běžném editoru), je možno použít i speciálních maker.

Výsledek konverze:

#NAZ#Název článku#/NAZ#

#ATR#Hlavní autor#/ATR#

#AT2#Další autor#/AT2#

#ZDR#Název zdroje#/ZDR#

#ROC#Ročník#/ROC#

#CIS#Číslo#/CIS#

#DAT#Datum vydání zdroje#/DAT#

#STR#Počáteční strana#/STR#

#VYD#Vydavatel#/VYD#

#KEY#klíčové slovo, klíčové slovo#/KEY#

#SUM#Abstrakt#/SUM#

#COP#Práva#/COP#

#ISN#ISSN#/ISN#

#IDE#Identifikační číslo#/IDE#

3) Zobrazení metadat po konverzi do DC v lince zpracování

4) V rámci linky zpracování se potom údaje mohou dále editovat a následně konvertovat do HTML podoby a příslušných formátů.

3. Perspektivy Kooperačního systému článkové bibliografie a jeho další možný vývoj, některé předpoklady a cíle

Organizace spolupráce

· Postupně reálně začlenit nově konstituované krajské knihovny v Pardubicích, Karlových Varech, Havlíčkově Brodě a Zlíně do KOSABI. Přerozdělení některých titulů vzhledem k novému státoprávnímu uspořádání.

· Postupně sladit profil zpracovávaných titulů v KOSABI se Souborným katalogem článků systému LANius, resp. Clavius.

· Spolupráce s institucemi pedagogického a vědeckého zaměření (UK, ČSAV aj.).

· Spolupráce se společností Anopress a event. navázání spolupráce s dalšími nakladateli/vydavateli .

Metody zpracování, standardizace

· Doladit převod výstupů z některých systémů do standardního UNIMARCu a báze ANL.

· Harmonizace popisu článků v rámci KOSABI se soubory autorit zejména v oblasti věcného zpracování (předmětová hesla, předmětové kategorie a metoda konspektu).

· Konverze UNIMARC - MARC 21, pravidla pro popis článků vzhledem k tomuto formátu.

· Postupně testovat nové metody zpracování vyvíjené v projektech na KOSABI (linka automatického zpracování bibliografických záznamů s plných textů a zpřístupnění plných textů v bázi ANL FULL): výhoda jednotného a poměrně jednoduchého a rychlého zpracování importního souboru bibliografických záznamů pro integrované knihovnické systémy za paralelního zabudování metadat do plných textů a možnosti vyhledávání v plných textech). Pracovníci v současné době pouze kontrolují extrahované jmenné údaje z plného textu a doplňují věcné údaje. Předpokládá se, že v budoucnu dosud doplňované věcné údaje bude možno zabudovat do topiců a tak podle nich vyhledávat. Metody automatické či poloautomatické indexace věcné jsou ve stádiu zkoumání. Cíl: pouhý výběr titulů ke zpracování a kontrola.

· Testovat metody, popř. navázat na metody získávání a zpracování elektronických plných textů (projekt Webarchiv) .

· Postupně přecházet z tradičního zpracování článků obsažených v určených titulech na zpracování pomocí nových technologických metod. Přechod však musí být uvážlivý vzhledem k zachování kontinuity zpracování titulů.

Organizace zpracování článků vzhledem k excerpovaným titulům z hlediska systémového

Do budoucna je možné uvažovat o několika subsystémech zpracování z hlediska typů titulů:

· Zpracování sborníků a nepravých periodik (v rámci integrovaných knihovnických systémů), které zatím nejsou dostupné na Internetu. Většinu pracovních kapacit přesunout na tuto činnost.

· Zpracování deníků a časopisů v rámci linky zpracování bibliografických záznamů z plných textů. Tato linka ušetří pracovní kapacity, zpracování je rychlé, kvalitní se spolehlivým napojením na plné texty.

· Zpracování plných textů volně přístupných na www na základě automatického sběru dat event. metod vyvíjených v rámci projektu Webarchiv v návaznosti na metody vyvíjené v projektech týkajících se souborné databáze ANL a KOSABI při zachování kontinuity zpracování článků.

· Dodržování zásad výběru článků.

Organizace zpracování článků z hlediska typů institucí:

Vzájemná kooperace mezi následujícími sítěmi knihoven:

· NK, krajské knihovny, základní knihovny.

· Specializované knihovny.

· Vysokoškolské knihovny.

· Vědecké instituce.

Současné Výstupy z KOSABI a jejich možné zpřístupnění v budoucnu

· Báze ANL a ANAL (Olomouc) je zpřístupněna v Metalibu jako zdroj, ANL FULL a článková databáze krajské knihovny v Liberci jako odkaz. Další zpřístupnění článkových databází závisí na strategii Metalibu a příslušných institucí.

· Propojení je realizováno v rámci linky zpracování bibliografických záznamů s plnými texty zatím v rámci NK, tuto metodu lze aplikovat i v dalších institucích KOSABI na dohodnutých titulech.

· Propojení v rámci Metalibu přes open URL závisí na strategii v rámci Metalibu.

· Linky na volně přístupné plné texty na Internetu jsou součástí ČNB, Řady články v českých novinách, časopisech a sbornících. Linky na plné texty báze ANL FULL zatím součásti ČNB nejsou.

Legilativně právní otázky zpřístupnění plných textů

Vyřešení autorsko právních aspektů zpřístupnění plných textů s příslušnými nakladateli/vydavateli a distributory a dohody s těmito subjekty za situace, kdy neexistuje v ČR právo povinného výtisku elektronických dokumentů.

Diferencované zpřístupnění plných textů

Jasné vymezení a ošetření přístupu k plným textům, které jsou zpřístupňovány volně, přes konzorcia , interním a externím uživavelům institucí a způsob plateb (paušál, kredity, apod.)

Personální a finanční zajištění KOSABI

· KOSABI se již tradičně potýká s problémem personálního zajištění činností. Dobrá personální situace je podmínkou převedení systému do nového prostředí a pro aplikaci novým metod. Tyto metody pomohou práci zrychlit a zkvalitnit za menšího počtu pracovníků. Metody je však dobré nejdříve vyvinout a dobře otestovat při současném zachovaní kontinuity zpracování a zpřístupnění. V posledních dvou letech probíhají silné redukce oddělení analytického zpracování. Redukce jsou plánovány na cílový počet 11 pracovníků v r. 2003

· Vývoj systému je po finanční stránce zajištěn do roku 2004 díky podpoře MKČR. Je na místě pomalu uvažovat a návazném projektu.

Závěr

Zpracování českých článků prochází transformací, jde o inovaci jak po stránce technické i technologické, ale i koncepční, jde o zkvalitnění báze ANL a diferencované plné zpřístupnění plných textů v bázi ANL FULL. Tyto změny však musí být postupné a citlivé při zachování toho, na co je třeba navázat, pokud nechceme systém zlikvidovat. Systém zpracování a zpřístupnění článků je možno transformovat díky finanční podpoře projektů a do budoucna ošetřit tak, abychom články zpracovávali moderně. O důležitosti informací uveřejněných v článcích nelze pochybovat. Nemyslím tím pouze informace odborné a vědecké povahy, na které je třeba se především zaměřit.

Spolupráce s Anopressem mohla být navázána díky zmíněným projektům a NK mohla navázat na moderní technologii, která tato firma užívá a dále rozvíjí. Báze ANL FULL a určité procento báze ANL vzniká díky spolupráci s touto firmou.

Na zpřístupňování českých plných textů mají vliv nejen vyvíjené technologie, ale i koncepce a strategie zainteresovaných subjektů, jejich smysl a citlivost pro dobrý odhad, znalost věci, transparentnost řešení a schopnost kompromisů, respekt k domácímu terénu a světovým trendům.

Na závěr se zmíním o projektu GILS - o službě a nástroji pro řízení informačních zdrojů z oblasti státní správy USA , v rámci které kooperují kromě jiných institucí knihovny v jednotlivých státech. Tzv. lokátorové záznamy odkazují na zdroje, které uchovávají úřady státní a místní správy nebo státní instituce. Pomocí lokátoru se zjišťují, popisují a zpřístupňují informace o zdroji.

V rámci systému GILS existuje trojí způsob tvorby záznamů: klasický způsob (ruční), konverze (převod záznamů z jiných bází dat), automatizovaný způsob (extrahování metadat). Posledně jmenovaný způsob spočívá v automatizovaném vytváření záznamů při prohledávání a indexaci zdrojů (metadat a samotného textu). Z tohoto důvodu je nutné, aby se metadata stala součástí www dokumentů. Dosavadní editory pro tvorbu webovských dokumentů neumožňují vytvářet a automaticky začlenit prvky metadat, je nutné formát pro metadata ručně vložit do zdrojového dokumentu. Předpokládá se, že formuláře nahradí efektivnější software pro generování metadat. Tento systém by mohl být v mnoha směrech inspirativní i pro nás ( je založen na kooperaci a automatizovaném zpracování dat).

Jedním ze základních východisek nového knihovního zákona je, že veřejné knihovny pracují v celostátně koordinovaném systému. Koncepce státní informační politiky ve vzdělávání (usnesení vlády ze dne 10. 4. 2000, č. 351) stanoví důležitou úlohu veřejných knihoven při zajištění bezbariérového přístupu k informacím všech typů v procesu výchovy a vzdělávání. Vybudování České digitální knihovny je jeden z hlavních úkolů. Základním cílem státní informační politiky je vybudovat a rozvíjet informační společnost a tím vytvořit předpoklady zejména pro zlepšení kvality života jednotlivých občanů, zefektivnění státní správy a samosprávy a zkvalitnění podpory rozvoje podnikání. Toto je i cílem institucí spolupracujících v KOSABI.

Literatura:

Analytický popis. Praha : Národní knihovna v Praze, 1991. 2 sv. + disketa. ( MAKS)

KOUDELKOVÁ, L., Nádvorníková, M., Baják, M. Návod pro tvorbu a využívání báze záznamů dokumentů. Verze 1. Praha : Národní knihovna v Praze, 1991. 71 s. (MAKS)

Stoklasová, B., Anděrová, I., Kremerová, J. Specifikace údajů pro bázi záznamů dokumentů. Verze 1. Praha : Národní knihovna v Praze, 1991. nestr. (MAKS)

Anděrová, I. Pravidla zápisu údajů pro analytický popis. Praha : Národní knihovna v Praze, 1992. 217 s. + příl.

ANDĚROVÁ, Ivana [et al.]. Národní bibliografie - analytický popis : příručka pro zpracovatele. Praha : Národní knihovna, 1993. 412 s. Revize 1, 1993; Revize 2, 1997.

Bínová, J.Regionální bibliografická činnost v SVK - možnosti spolupráce s okresními knihovnami. Čtenář, roč. 46, č. 2,1994, s. 45-48.

Nádvorníková, M. Spolupráce na úplnosti národní bibliografie z pohledu regionálních vědeckých knihoven. Knihovny současnosti '96.1. vyd. Brno : Sdružení knihoven, 1996, s. 134-139.

Doporučení pro popis částí dokumentu na základě mezinárodního standardního bibliografického popisu (ISBD). 1. vyd. Praha: Národní knihovna ČR, 1997. 32 s.

Záznam pro soubornou databázi : UNIMARC. Fyzicky nesamostatné části dokumentů. Tištěné monografie a seriály. Pracovní skupina pro analytické zpracování, Rada pro katalogizační politiku. 1. vyd. Praha : Národní knihovna České republiky,1999. 45 s. (Standardizace ; č. 19). Určeno k připomínkám.

Záznam pro soubornou databázi : Výměnný formát. Fyzicky nesamostatné části dokumentů. Tištěné monografie a seriály. Pracovní skupina pro analytické zpracování, Rada pro katalogizační politiku. 1. vyd. Praha : Národní knihovna České republiky,1999. 39 s. (Standardizace ; č. 20). Určeno k připomínkám.

Anděrová, I. Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů. Souhrnná zpráva za rok ... [online]. Dostupný z: < http://www.nkp.cz/start/knihcin/OAZ/propoj.htm>.

ANDĚROVÁ, I. Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat. Souhrnná zpráva za rok … [online]. Dostupný z: <http://www.nkp.cz/start/knihcin/OAZ/grant.htm>.

ANDĚROVÁ, I. Kooperační sytém článkové bibliografie a propojení analytických záznamů s plnými texty - východiska a současný stav. Národní knihovna : knihovnická revue. 2001, roč. 12, č. 1, s. 26-37. Též dostupný z: <http://full.nkp.cz/nkdb/index.html>.

ANDĚROVÁ, Ivana. Metodika popisu článků ve formátu UNIMARC [online]. 2001. Dostupný z: <http://www.nkp.cz/start/knihcin/OAZ/Popis/popis1.htm>.

Anděrová, I. Báze ANL FULL v systému TOPIC. Textová verze. Inforum 2002. Dostupný z: <http://www.aip.cz>, <http://full.nkp.cz>, Rubrika Co je nového ... .

Anděrová, I. Báze ANL FULL v systému TOPIC. Prezentace PPT. Inforum 2002. Dostupný z: <http://full.nkp.cz>, Rubrika Co je nového .... .

CVRČKOVÁ, R. Služba GILS jako nástroj pro řízení informačních zdrojů z oblasti řízení státní správy USA. Národní knihovna : knihovnická revue. 2001, roč. 12, č.2, s. 99-113. Též dostupný z: <http://full.nkp.cz/nkdb/index.html>.

Praktické výsledky projektů prezentované na www

Seriály (periodika) a analytický popis (články) v České republice, plné texty.Propojení bibliografických záznamů s plnými texty [online]. Dostupný z: < http://www.nkp.cz/start/knihcin/OAZ/odd_anal_zprac.htm>.

Seznam seriálů excerpovaných v oddělení analytického zpracování. Dostupný z: <http://www.nkp.cz/start/knihcin/OAZ/Seznam_OAZ.htm>.

Státní vědecké a ostatní knihovny spolupracující v kooperačním systému článkové bibliografie a excerpční základny

Dostupný z:< http://www.nkp.cz/start/knihcin/OAZ/kooper_SVK.htm>.

Báze ANL [online]. Dostupný z:

<http://sigma.nkp.cz:4505/ALEPH/7315F16RAY35G4NNL4MC7NUGSLSUVSN1YHCAGNR1SR47H9TYVB-01862/file/start-0>

Báze ANL FULL [online]. Dostupný z:<http:full.nkp.cz>

Národní knihovna. Knihovnická revue [online]. Dostupný z: <http://full.nkp.cz/nkkr/NKKR.html>

Databáze Anopress

Báze TamTam [online]. Dostupný z:<http://www.anopress.cz>

31.7.2002

Redakce: 21.9.2002