Kooperační systém článkové bibliografie - KOSABI
(Vývoj a současný stav metodiky zpracování,
zpřístupnění, organizace kooperace, perspektivy)
Ivana
Anděrová, NKČR, oddělení analytického zpracování
Zpracování
článků v ČR je
poměrně rozsáhlé co do zdrojů, které se analyticky zpracovávají, tak co do typů
institucí, které tuto činnost provozují a má dlouhou tradici.
1. Vývoj
článkové bibliografie - r. 1953-2002
1.1.
Článková bibliografie v tradičních podmínkách
- tištěné výstupy
Pod vedením ředitele NK J. Kunce je zahájeno zpracování a
vydávání článkové národní bibliografie od r. 1953 s názvem "České
časopisy", v r. 1955 s názvem "Články v českých
časopisech". Zpracované záznamy jsou publikovány v měsíčních sešitech
podle třídění Všesvazové knižní palaty VPK s autorským, předmětovým,
personálním a geografickým rejstříkem.
V r. 1971 se z personálních důvodů ustupuje od rejstříku předmětového. V
70. letech jsou retrospektivně
zpracována léta 1945-52.
V letech 1987-1991 je článková bibliografie zpracovávána a
vydávána rovněž v měsíčních sešitech,
záznamy jsou uspořádané podle vybraných znaků MDT. Rok 1991 nevychází v
tištěné podobě z finančních důvodů. Výstup pro rok 1991 je zajištěn
retrokonverzí prováděnou firmu PORS
Příbram.
1.2.
Automatizovaný
systém článkové bibliografie - ASNBČ, Kooperační systém článkové
bibliografie
Příprava automatizovaného zpracování
české národní článkové bibliografie má své počátky v rámci státního úkolu "Automatizace
knihovnicko-bibliografických procesů" již v r. 1985.
V r. 1989 vychází výměnný
formát pro bibliografický (dokumentační) a katalogizační záznam, ze kterého
vychází MAKS - Modulární automatizovaný knihovnický systém, na který
později navazují typové prováděcí projekty a aplikace. Základem pro zpracování
článků v kooperačním systému článkové bibliografie je příručka Národní
bibliografie - Analytický popis vydaná v roce 1991 ve dvou svazcích: Návod
pro tvorbu a využívání báze záznamů dokumentů (vypracovaná v SVK Olomouc) a
Specifikace údajů pro bázi záznamů dokumentů (vypracovaná v Národní
knihovně v Praze). Na základě těchto
materiálů a praktických zkušeností jsou v Národní knihovně zpracována Pravidla
zápisu údajů pro analytický popis v r. 1992. Definice databáze článků
vychází z tehdejších možností systému CDS/ISIS, z revidované normy ČSN 010195
Bibliografický záznam ( r. 1992), která již částečně reflektuje ISBD/CP. Jmenné
zpracování je tedy koncipováno s ohledem na mezinárodní standardy. Pro věcné
zpracování jsou ve spolupráci s oborovými a regionálními pracovišti zpracovány Vybrané
znaky MDT a s ohledem na
mezinárodní doporučení zpracována první verze metodiky tvorby a zápisu
klíčových slov pro vyhledávání v on-line databázi.
Systém článkové bibliografie je
původně koncipován jako propojitelný systém oborových a regionálních
informačních institucí. Po r. 1989 se ustupuje od této koncepce a realizuje
se zpracovatelská kooperace mezi NK a jednotlivými SVK při analytickém
zpracování novinové a časopisecké produkce s oblasti společenských a přírodních
věd. Specializovanou článkovou produkci z oborů lékařství, zemědělství,
školství a vzděláváni, technických oborů zpracovávají oborové informační
instituce. Jednotlivé excerpční základny jsou profilovány tak, aby se
vzájemně doplňovaly, nedocházelo k duplicitám a "bílým místům". NK zpracovává tzv. celostátní periodika, SVK
periodika vycházející na území regionu, odborné knihovny příslušný obor. Jsou
přepracovány zásady výběru pro českou článkovou a regionální bibliografii, vycházejí
z dlouholetých praktických zkušeností formulovaných systematičtěji již v r.
1986.
1.3 Provoz Kooperačního systému článkové bibliografie - r. 1992-2002
V r. 1992 přechází oddělení článkové bibliografie
na experimentální ověřování on-line ukládání záznamů. Zároveň se ověřuje
i chod kooperačního systému článkové bibliografie. Plný provoz systému
je zahájen v r. 1993. Každý měsíc zasílají SVK záznamy zpracovaných článků
do NK a oddělení článkové bibliografie zasílá vždy k 15. dnu měsíce produkci
systému do SVK. V r. 1993 je v NK
zpracováváno 280 titulů, v regionech
155 titulů. Činnost systému je založena
na dvou základních tezích: registrovat výběrově českou článkovou produkci v
dostatečné objektivní míře a reflektovat skutečné požadavky uživatelů na
knihovnicko-bibliografické služby. Postupně vzniká databáze ANAL v
systému CDS/ISIS. Postupně vzniká i
databáze Evidence excerpční základny.
Jednotlivé SVK vydávají průběžně
regionální bibliografie (regionální bibliografické ročenky, tematické
bibliografie).
V r. 1993 je vypracována nová verze specifikace a návodu pro tvorbu a využívání údajů
pro analytický popis ve formě příručky pro zpracovatele (další revize byla
zpracována v roce 1997 a zohledňuje částečně AACR2 a UNIMARC). V r. 1994 vychází
česká článková bibliografie na CD-ROM. V tomtéž roce vychází český
překlad AACR2R. Postupně jsou vydávány
české překlady ISBD, pro analytický popis v r. 1997 vychází český překlad
ISBD/CP doplněn o české příklady - Doporučení
pro popis částí dokumentu na základě mezinárodního standardního bibliografického
popisu (ISBD). Překlad UNIMARCU je
vydán v r. 1996. V Národní knihovně dochází k postupné transformaci věcného
popisu - přechod na UDC/MRF a LCSH.
Článková bibliografie zachovává koncepci klíčových slov, která však
navazují a do jisté míry reflektují zkušenosti z tvorby předmětových hesel z minulých let. Od r. 1994 se postupně vytváří částečně řízený slovník
klíčových slov s vazbou na vybrané znaky MDT pomocí lexiky MDT. V r. 1994
přistupují do kooperace de facto i odborné informační instituce.
V r. 1995 probíhají rozsáhlejší úvahy o koncepci a
zaměření kooperačního systému článkové bibliografie - úvahy o rozsáhlejším
začlenění zpracování nepravých periodik (ročenky, materiály z konferencí,
sborníky). Zásady výběru se dále upřesňují. Přihlíží se k zásadám výběru z
hlediska autorů článků, žánrů a věcného obsahu. Jsou vybírány především původní
české články, přeložené především týkající se ČR. Vzhledem k tomu, že pro každý
typ seriálu jsou charakteristické jiné typy článků s různou informační hodnotou
a odborným zaměřením, jsou upřesňovány zásady výběru článků z hlediska
jejich úplnosti pro jednotlivé typy seriálů. Vědecká a odborná periodika jsou
popisována prakticky v úplnosti, zpracování deníků a některých kulturně
politických časopisů je velmi výběrové.
Je možno hovořit o užším kooperačním systému,
založeném na regionálním principu, širším - založeném na oborovém
principu a vice versa o regionálním a
oborovém subsystému kooperačního systému. Jádrem či základem celého
kooperačního systému a větší jeho část tvoří produkce zpracovávaná v NK.
Hlavní teze kooperace v tomto období: každá instituce zpracovává články podle
toho, co v regionech nebo příslušných oborech vychází při současném
respektování zásad kooperace. Každá instituce ručí za svou excerpční základnu a
kvalitu zpracovávaných článků.
V r. 1996 s objevují úvahy o přechodu zpracování
článku v NK na integrovaný knihovnický
systém ALEPH - z důvodů pomalého ukládání v NK je několikrát odsunuto. Články jsou však převáděny konverzí do ALEPHu od začátku
r. 1998 na základě projektu RISK Zpřístupnění
výsledků analytického zpracování prostřednictvím Internetu (kooperační
projekt 13 knihoven v rámci RISKu, řešen v r.1998, hlavní řešitel Ivana
Anděrová). Projekt umožňuje
konverzi analytických záznamů z CDS/ISIS do UNIMARCu. Částečně řízená klíčová
jsou slova převedena do předmětových kategorií UNIMARC (pole 615) a klíčových
slov s vazbou na znaky MDT. V rámci projektu je a vypracována a odzkoušena
konverze tehdejší verze Tinlibu do UNIMARCu V rámci průzkumu propojení
analytických záznamů s plnými texty na Internetu se ukazuje, že postupné
propojení článků s některými plnými texty již vystavovanými na Internetu na
různých serverech je krajně nespolehlivé (různá retrospektiva a úplnost
vystavovaných plných textů, různá strategie vystavovatelů). Výběr spolehlivých zdrojů plných textů je možné
řešení.
V rámci projektu probíhá
také revize specifikace a popisu pro analytický popis vzhledem k převodu
do UNIMARCu s částečným respektem k AACR2R. Probíhají též přípravné práce
na úplném a minimálním záznamu pro
soubornou databázi (UNIMARC a Výměnný formát). V r. 1997 přechází báze
českých periodik, v rámci které je
excerpční základna kooperačního systému dosud evidována a budována
ve spolupráci s kooperujícími institucemi, do oddělení pro souborné katalogy.
Evidence je vedena provizorně v oddělení článkové bibliografie NK a příslušných
knihovnách.
Standardizační aktivity se v následujících letech řeší v
Radě pro katalogizační politiku a v příslušných skupinách pro jednotlivé dokumenty, problematika článků v Pracovní skupině pro analytické zpracování.
Metodika a standardizace článků
reflektuje doporučení prakticky pro všechny druhy dokumentů. V r. 1999 je zpracována první verze příručky - Metodika popisu článků
ve formátu UNIMARC a jsou vydány materiály
týkající se analytického popisu v rámci edice Standardizace - Záznam pro soubornou databázi : UNIMARC a Záznam pro soubornou databázi :
Výměnný formát - určené k připomínkování.V r. 1999 pracuje většina
knihoven kooperačního systému ještě v CDS/ISIS, pravidelně přispívají do
souborné databáze ANAL, záznamy z CDS/ISIS jsou stále konvertovány do ALEPHu. V Brně se začínají zpracovávat
články v ALEPHu a v následujících letech, postupně plánují a přecházejí na integrované
knihovnické systémy i další instituce. Na jaře r. 2000 přechází oddělení
analytického zpracování NK na ukládání
článků v ALEPHu. V oddělení je
vypracována interní pomůcka Seznam řízených předmětových termínů vázaných na
vybrané znaky MDT, která je podle možností aktualizována. Slouží k
implementaci předmětových hesel NKČR, která vycházejí z LCSH. Pro systematickou
věcnou notaci se vychází z MDT/MRF.
V r. 2001 je zpracována další verze příručky pro zpracování článků - Metodika
popisu článků ve formátu UNIMARC -
podklad pro interpretace AACR2R a vystavena na Internetu. Na
Internetu jsou také vystaveny doporučené příklady a soupis polí UNIMARC pro
analytický popis. Pravidla obsahují maximum
dosud dostupných informací z materiálů týkajících se analytického popisu.
Jsou formulovány základní principy věcného popisu,
aplikovaného při zpracování článků V NKČR. Pořadí kategorií, předmětových hesel odpovídá pořadí
MDT. MDT vztahující
se k osobám a formě článku se uvádí na konec věcného popisu (osoby,
forma). Kategorie: obecné
zařazení tématiky dokumentu pod obecné hlavní téma (615a) a zpřesnění (615x). Předmětové
heslo: vystihuje hlavní téma dokumentu. Klíčová slova:
variantní selekční termíny k předmětovým heslům uvádíme zatím z důvodů
postupného propojování báze ANL na soubory autorit, v současné době se
eliminují - s postupným provázání věcného popisu na autority i s ohledem ke
zpřístupnění plných textů v bázi ANL
prostřednictvím báze ANL FULL.
V kooperujících institucích se používá kombinace těchto
tří prvků věcného popisu v různé míře. Předmětová hesla se aplikují pro osoby, korporace, typ dokumentu,
geografické téma. Předmětová hesla tematická (pole 606 UNIMARC) se užívají
zejména v NK, ve většině knihoven se praktikují klíčová slova (pole 610 UNIMARC).
Vazba na autority se objevuje ve větší
míře v NK a v krajské knihovně v Kladně.
V současné době se řeší NKČR problematika standardizace věcných
selekčních údajů a jejich harmonizace pomocí souboru věcných autorit. Aplikuje
se metoda konspektu - metoda popisu fondu a všech informačních zdrojů
pomocí předmětových kategorií konspektu. Domníváme se, že po důkladné redakci
předmětových kategorií v rámci báze ANL, které jsou někde detailnější a
vyplývají ze specifiky článkových informací, bude moci dojít k částečnému
sblížení konspektu a kategorií v ANL.
Údaje jmenného a věcného popisu jsou podle možností v bázi
ANL revidovány a opravovány pomocí
globálních oprav, dále pak s využitím jmenných a věcných autorit.
V r. 2002 probíhají práce na konverzi UNIMARC-MARC21.
Vývoj zpracování článků v NK je v letech 1999 - 2002 výrazně ovlivňován
projekty, které se řeší v NK ( týkají se propojení analytických záznamů s
plnými texty a integrace dat do souborné databáze ANL) a v některých
spolupracujících knihovnách (viz dále bod 2).
V červnu 2002
přechází NK a oddělení analytického zpracování na verzi ALEPH 14.2.4, která
umožňuje vetší komfort pro opravy uložených dat. Na toto verzi přecházejí
též v r. 2002 (před NK) i knihovny v
Brně a Olomouci. Pracovníci MZK ukládají záznamy přímo do báze ANL.
Další knihovny zpracovávají články již v integrovaných knihovnických
systémech. V ISIS přetrvává zpracování v Hradci Králové, SPKK, STK, ÚZPI.
Tyto knihovny postupně však přejdou rovněž na jiné integrované systémy.
Postupně se ladí metodika ukládání v nových systémech a
řeší se otázky převoditelnosti do báze ANL a UNIMARCu. Tato činnost je
poměrně náročná v detailech a je založena na
úzké spolupráci s příslušnými knihovnami. V r. 2002 v tomto směru intenzivně spolupracuje oddělení článkové
bibliografie s krajskou knihovnou v Ostravě a Českých Budějovicích Jsou
navrhnuta některá možná řešení a doporučení týkající se věcného popisu a
konverze do UNIMARCu. Plnohodnotné předávání záznamů do národní článkové
bibliografie závisí na dotažení konverzního programu Tinlib - UNIMARC. Krajská knihovna v Ústí nad Labem na
zkušenosti tinlibovských knihoven navazuje. Knihovny pracující v ALEHu
spolupracují dobře. U knihoven pracujících v KP-sysu je třeba dopracovat převod
do UNIMARCu. Knihovny pracující v Rapidu spolupracují též bez problémů. Krajská
knihovna v Plzni přešla na zpracování v KIMSu. S nově jmenovanými a
konstituovanými krajskými knihovnami v Pardubicích, Havlíčkově Brodě, Zlíně
a Karlových Varech byla navázána dobrá spolupráce. Ladí se převod záznamů do
UNIMARCu i metodika a zvažují možnosti zpracování některých titulů.
Kromě KOSABI existuje v ČR fungující systém na úrovni městských (okresních) knihoven - LANius a jeho produkt SKAT - Souborný katalog
článků. Jeho vyšší verzí je systém Clavius. Systém umožňuje sdílenou
katalogizaci. Mezi LANiem a NK probíhají jednání o možné kooperaci
týkající se excerpce titulů a omezení duplicit při zpracování. Export do Báze
ANL je v zásadě možný. Systém používá ve věcnému popisu klíčová slova. Podobná
duplicita existuje mezi krajskými knihovnami a LANiem.
Součástí širšího kooperačního systému
článkové bibliografie
po linii oborové je zpracování článků lékařské a zdravotnické literatury Národní
lékařskou knihovnou, které nejsou součástí
ANL
Kromě toho se zpřístupňují informace
o článcích v některých vysokoškolských a vědeckých institucích, které nejsou
součástí KOSABI.
V minulosti
přispívala do báze také AVČR - Ústav státu a práva, Ústav pro soudobé dějiny.
Byly činěny některé pokusy o spolupráci se Západočeskou univerzitou v Plzni,
Evangelickou teologickou fakultou UK, Divadelním ústavem.
Z excerpční
základny pro ANL vyloučena periodika místní, závodní a zábavného
charakteru, časopisy pro děti a mládež a
výběr zpracovávaných dokumentů
je orientován na širší odbornou veřejnost. Některé ze spolupracujících
institucí budují své lokální regionální
databáze, některé z nich zpracovávají navíc články pro vlastní potřebu. V
současné době jsou v KOSABI stanovena následující hlediska výběru článků
podle kategorií (charakteru) zpracovávaného periodicky vydávaného dokumentu
(seriálu):
A: Seriály
vydávané AVČR a vysokými školami v ČR (časopisy, sborníky, ročenky)
B: Seriály
(časopisy, sborníky, ročenky) vydávané ostatními institucemi v ČR
C: Noviny
(ústřední i regionální) a kulturně-polické časopisy
D:
Populárně-naučné časopisy
1=excerpce
je prováděna v úplnosti (100-80% počtu článků)
2=excerpce
je prováděna částečně (80-25% počtu článků)
3=excerpce
je prováděna výběrově (25%- počtu
článků)
A: 1
B: 1 (sborníky ročenky), 1-2 (odborné časopisy)
C: 2,3
D: 3
Dále jsou stanovena pravidla pro výběr článků z hlediska
typů nebo charakteru. Báze obsahuje především faktograficky přínosné
články, články odborné, články s dokumentární a uměleckou hodnotou, oficiální dokumenty (projevy,
vyhlášení, komuniké, usnesení), zprávy a informace o kulturních, sportovních,
politických, vědeckých aj. akcích (konferencích, seminářích, festivalech,
jednáních, zasedáních, výstavách, divadelních, rozhlasových a televizních
inscenacích, besedách, sportovních soutěžích), souhrnné a hodnotící články,
závažné polemiky, diskuze a komentáře. Dále jsou zachyceny reportáže,
biografické články (životopisné, jubilejní, nekrology, rozhovory, profily
osobností, vzpomínky), literární texty (básně, povídky aj. ještě nepublikované,
nové překlady), fejetony, sloupky, úvodníky (pouze hodnotné), recenze publikací
různého zaměření, gramofonových desek, kompaktních desek, filmů apod.
Excerpční
základny jednotlivých kooperujících institucí pro bázi ANL
Kooperující
krajské knihovny
Národní
knihovna České republiky (ALEPH) -
Oddělení analytického zpracování: celkem 196 seriálů
z toho 6 deníků, 11 týdeníků, 6
čtrnáctideníků, 31 dvouměsíčníků, 4
čtvrtletníky, ostatní periodika s menší periodicitou ; dále nepravá
periodika - ročenky, nepravidelně
vycházející periodika, sborníky - počet pohyblivý.
NKČR - Odbor
knihovnictví: 19 titulů.
Moravská
zemská knihovna v Brně (ALEPH): celkem 54 titulů, 2
deníky, vlastivědné časopisy,
zpravodaje, sborníky a nepravá periodika, v jednání postupné předání titulů
Krajské knihovně Vysočiny .
Jihočeská
vědecká knihovna v Českých Budějovicích (Tinlib): celkem 23 titulů, 3 deníky z toho 2
přílohy regionální deníků, periodika s menší periodicitou a nepravá periodika.
Studijní
a vědecká knihovna v Hradci Králové (ISIS) : celkem 21 titulů, z toho 8 deníků, postupně delimitace titulů po dohodě s Krajskou knihovnou v Pardubicích, Krajskou
knihovnou Vysočiny, Krajskou knihovnou
v Liberci.
Středočeská
vědecká knihovna v Kladně (Rapid): celkem 37 titulů, z toho 12 deníků.
Krajská
vědecká knihovna v Liberci (Rapid, resp. Arev): celkem 11 titulů, z toho 2
deníky.
Vědecká
knihovna v Olomouc (ALEPH): celkem 17 seriálů: 2 deníky - pouze regionální přílohy, 6 týdeníků, nepravá periodika. Delimitace titulů s
MVKOS.
Moravskoslezská
vědecká knihovna v Ostravě (Tinlib, resp. T-Series): celkem 16 titulů, z toho 1
deník, 1 týdeník, 4 čtvrtletníky,
ostatní nepravá periodika a sborníky.
Studijní
a vědecká knihovna v Plzni (KIMS): celkem 22 titulů, z
toho 8 deníků, 8 týdeníků, 6
měsíčníků a další periodika.
Severočeská
vědecká knihovna v Ústí nad Labem
(ISIS, Tinlib): celkem16 titulů, z toho 7 deníků.
Nově
konstituované krajské knihovny - příprava kooperace
Krajská
knihovna Františka Josefa Bartoše ve Zlíně (KP-sys): cca 67 periodik, duplicita s celostátními deníky a časopisy,
do její báze přispívají městské knihovny okresu Zlín, nutná delimitace s titulů
s MZK, VKOL, MVKOS.
Krajská
knihovna Karlovy Vary (LANius): celkem cca 26 titulů, zpracovává články pro LANius.
Krajská
knihovna v Pardubicích (KP-sys): cca 10 titulů,
výběrově vlastivědné a místní zpravodaje.
Krajská
knihovna Vysočiny (Havlíčkův
v Brod, Clavius): údaje z r. 2001 - celkem cca 30 titulů, duplicity s NK, doporučeno
nejdříve zpracovávat tituly týkající
se Havlíčkobrodska, postupně přibrat
další, nutná delimitace s MZK (cca 7 titulů), nedostatečné personální obsazení.
Kooperující
specializované knihovny
Státní technická knihovna (ISIS): celkem 41 odborných titulů
Ústav
zemědělských a potravinářských informací (ISIS) : celkem 24 odborných titulů
Ústav pro
informace ve vzdělávání - Státní vědecká knihovna Komenského (ISIS) : celkem cca 43 titulů
Český
geologický ústav (ISIS): odborná periodika v rámci experimentu
Organizační metodické otázky se řeší kromě Pracovní
skupiny pro analytické zpracování na
pravidelných poradách SDRUK - Sekce pro bibliografii a poradách pracovníků
bibliografických a rešeršních oddělení vědeckých, technických a
specializovaných knihoven v STK.
Důležitým jednáním z hlediska dalšího fungování KOSABI je
11. Porada sekce pro bibliografii SDRUK konaná v dubnu 2001, kde je
konstatována nutnost zmapování současné situace zpracování článků v regionech
pro zachování kontinuity bibliografického zpracování článků v době
přechodu k novému státoprávnímu
upořádání. Důležitým bodem je zmapování zpracování titulů v jednotlivých
regionech a okresech. Některé knihovny poskytují poměrně zevrubné informace nutné
pro koordinaci systému (viz výše).
Bývalé státní vědecké knihovny spolupracují na základě
Smlouvy o sdružení pro Českou národní bibliografii z r. 1998, která je
aktualizována Dodatkem č. 3 v r.
2000 vzhledem k novému státoprávnímu
uspořádání tak, aby byla zachováno bibliografické zpracování článků v
regionech v přechodném období.
Bývalé SVK, dnes krajské a MZK tak zajišťují zpracování podle bývalého státoprávního uspořádání platného do r. 1999, než budou moci čtyři nově konstituované krajské knihovny převzít
zpracování článků na území svého regionu. Přebírání a předávání titulů ke
zpracování v podmínkách nového uspořádání krajů musí být plynulé a koordinováno
tak, aby konvenovalo podmínkám jak technickým, tak personálním v nových
krajských knihovnách . V současné době probíhají některá jednání.
Funkce knihoven jsou definovány v novém knihovním
zákoně, který vychází z principů reformy veřejné správy, který jako
základní prvek pro zajištění regionálních funkcí určuje krajskou knihovnu.
Zákon ze dne 19. června 2001 o
knihovnách a podmínkách provozování veřejných knihovnických a informačních
služeb stanoví úlohu a povinnosti jednotlivých typů knihoven v rámci systému
knihoven ČR. Krajské knihovny spolupracují s NKČR při zpracování národní bibliografie a
souborného katalogu, koordinují plnění regionálních funkcí základních knihoven
v kraji, zajišťují zprostředkování vnějších informačních zdrojů zejména
informací ze státní správy a samosprávy.
Kvantitativní údaje týkající se KOSABI
Počet záznamů v bázi ANL k 19.6. 2002
NKČR - 540 881 záznamů.
Odbor knihovnictví - 7 829 záznamů.
Celkem: 548 710 záznamů.
Regiony:
celkem 97 635.
Specializované knihovny: celkem 43 980.
Celkem v bázi ANL: 690 325 záznamů.
Záznamy NKČR tvoří 79,5 procent báze ANL.
Záznamy regionů tvoří 14,1 procent.
Záznamy specializovaných knihoven
tvoří 6,4 procent.
(Podíl v procentech souhlasím zhruba
s údaji z r.1999).
K 1. 7. má báze ANL zhruba 720 000
záznamů.
Zpracovávané tituly v ANL
NKČR - 212 titulů plus některé sborníky.
Regiony - 217 titulů.
Odborné knihovny - 108 titulů plus
některé sborníky.
Celkem 537 titulů.
Tituly
volně přístupné na WWW a propojované se záznamy ANL (od r. 1998) - 13 titulů (Veřejná správa,Vesmír, Lesnická
práce, Harmonie, Psychiatrie, Učitelské noviny, Jezuité, Národní knihovna, Knihovní
obzor, Collection of Czechoslovak Chemical Communication (abstrakta), Inforum 2000, Ikaros, U nás.
Zpracovávané tituly v bázi ANL FULL (NKČR - Anopress) - zpracování a zpřístupnění českých plných
textů v rámci linky zpracování bibliografických záznamů z plných textů (viz
dále bod 2)
V bázi
ANL FULL zpřístupněno výběrově cca 47 titulů od r. 1997 (doplňovány off-line
nebo v rámci linky zpracování).
V
lince pravidelně zpracováváno 16 titulů
(Bankovnictví,
Ekonom, Euro, Haló noviny, Hospodářské noviny, Kapitál, Lidové noviny, Magazín
Práva, Mladá fronta Dnes, Pátek magazín LN, Právo, Profit, Reflex, Respekt,
Týden, Večerník Praha)
V bázi
ANL FULL k 1.7. 2002 cca 96 500 plných
textů (noviny a
některé časopisy), z toho 1263 plných textů periodika Národní knihovna, na plné
texty propojena báze ANL automaticky generovaným.
V lince
zpracování bibliografických záznamů z plných textů je od 15.1.2001 do 1.7.2002
zpracováno cca 20 000 článků .
2. Kooperační systém článkové bibliografie a
projekty. Projekty týkající se propojení analytických záznamů s plnými texty a
integrace heterogenních dat v NKČR (r.
1999-2004)
2.1 Některé Projekty týkající se
Kooperačního systému článkové
bibliografie realizované spolupracujícími institucemi v KOSABI
V posledních letech vzniká několik projektů,
zabývajících se zpřístupněním analytických záznamů v kooperaci s ostatními
knihovnami, jejich prezentací na Internetu a propojením těchto záznamů s plnými
texty.
Projekt Západočeský ANAL -
Kooperativní zpracování periodické produkce západních Čech (SVK v Plzni a 11 městských knihoven,
řešitel Jaroslava Hanzlíčková, RISK, podaný v r. 1999) se zabývá
odstraněním duplicit při zpracování, metodikou excerpce titulů a zpracování
záznamů v jednotlivých okresech západočeského regionu.
Projekt Zavedení automatizovaného
zpracování článkové bibliografie v systému T-Series (SVK v Ostravě, hlavní řešitel
Alena Hrazdilová, VaV, r. 2000-2001) řeší problematiku bibliografického zpracování článků
v tomto systému.
Velmi významné jsou dva projekty
řešené v Kladně.
Projekt konverze záznamů článkové
bibliografie z databáze CDS/ISIS z let 1992-1999 do knihovního systému Rapid
Library. Druhým projekt se týká
kooperativní tvorby a využívání souborů národních autorit.
2.2
Projekty týkající se propojení analytických záznamů s plnými texty a
integrace heterogenních dat v rámci KOSABI a báze ANL řešené v NKČR
V Národní knihovně se řeší dva
projekty týkající se propojení analytických záznamů s plnými texty a integrace
heterogenních dat v rámci KOSABI a
souborné databáze ANL.
2.2.1 Propojení analytických záznamů s plnými texty a optimalizace
zpřístupnění plných textů
Výzkumný záměr NK Propojení analytických záznamů s plnými
texty a optimalizace zpřístupnění plných textů (VaV, hlavní řešitel Ivana
Anděrová, r. 1999-2003) - je projekt analyticko-koncepční a připravuje půdu pro
praktickou realizaci účelového projektu týkající se KOSABI a souborné databáze
ANL.
Anotace (zadání)
Cílem výzkumného záměru je optimalizace přístupu uživatelů
k plným textům dokumentů domácí provenience (nikoli zahraniční). Základem je propojení analytických záznamů o článcích s plnými texty,
které jsou dostupné na Internetu a/nebo CD-ROM. Okamžitě bude k dispozici
účinný rešerší nástroj – analytické záznamy zpracované v Kooperačním
systému české článkové bibliografie, které jsou součástí České národní
bibliografie. Jejich postupné propojení s plnými texty ústředních i
regionálních periodik výrazně zvýší uživatelský komfort při jejich využití.
V rámci projektu v r. 1999 probíhá v NK výběrové řízení
a na základě výše uvedených faktů je vypracována výzva k podání nabídky pro
společnost Anopress. V rámci projektu je vyvinuta iniciativa k vytvoření Konzorcia
Anopress, která je podepsána mezi SKIP a Anopressem v r. 2000. V rámci
projektu se propojují bibliografické záznamy s plnými texty získanými z
Anopressu v rámci linky zpracování bibliografických záznamů z plných textů
(TTDE), které jsou zároveň importovány do báze ANL FULL a ANL. V rámci
projektu je též bibiograficky popsán titul digitalizovaný v CD Hostivař.
Periodikum Národní knihovna je v Anopressu převedeno
do digitální formy a zpřístupněno na Internetu
v Anopressu a bázi ANL FULL. Kromě toho se vyvíjí samostatná aplikace
pro zpřístupnění periodika v html a pdf. Tato aplikace bude propojena přes www rozhraní s bází ANL FULL.
V rámci
projektu se zkoumají též možnosti
automatické či poloautomatické indexace plných textů a možnosti zabudování
předmětového popisu do topiců. Koncepce má flexibilní charakter vzhledem k
vyvíjející se situaci ve zpřístupňování plných textů na Internetu a očekávaným
aplikacím nových metod zpřístupnění dokumentů v rámci jiných projektů. Pro
správu Kooperačního systému článkové bibliografie v systému ORACLE bylo
upřesněno zadání.
Koncepce
Zdroje plných textů : plné texty volně přístupné na Internetu (elektronické časopisy, elektronická
vydavatelství/nakladatelství/informační agentury – archivy a databáze), plné
texty získané od autora/vydavatele/nakladatele/distributora, automatický sběr dat.
Zpracování bibliografických záznamů a plných textů : tradiční v
integrovaném knihovnickém systému (ALEPH apod.), v lince automatické indexace
bibliografických záznamů z plných textů (extrakce, automatická indexace
doplněna ručně nebo zcela automatická) za současné tvorby URL a metadat ve
formě UNIMARC/MARC 21, DC, XHTML, XML/RDF nebo
pomocí webovského formuláře. Identifikace plných textů: URL, URN,
SICI, perspektivně DOI. Propojení: ruční/automatické, on-line/off-line,
statické/dynamické, uzavřené/otevřené. Vyhledání a zpřístupnění plných textů:
"subjects gateways", témata, předmětové kategorie, OPAC -
bibliografické záznamy (UNIMARC/MARC 21) s URL adresou, pojmové
vyhledávání a fulltextové vyhledávání
(TOPIC) v kombinaci s rejstříky, metatagy DC, jazyky XHTML XML/RDF, protokoly
HTTP, Z 39.50, SFX, internetové
vyhledávače. Uložení plných textů: archivy, databáze – servery
(nakladatelé/vydavatelé, informačních agentury, knihovny). Výstupy:
seznam článků (řazení dle relevance, do skupin - clustering aj.), formáty (citace/DC/abstrakt/plný text, UNIMARC/
XHTML, XML/RDF), tisk. V budoucnu export metadat a plných textů. Uživatelé:
lokální/interní, externí, registrovaní, neregistrovaní, zkušební registrace. Služby:
neplacené, placené v rámci konzorcia
nebo mimo, přes IP, login, heslo nebo volně.
Související projekty realizované v
NKČR
Úzce
navazující a související projekty
Souborná
databáze kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat (programový
projekt VAV, hlavní řešitelka PhDr. I.
Anděrová, 2000-2004, MKČR).
Další související projekty
Registrace,
ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet
(programový projekt VAV, hlavní řešitelka Mgr. L. Celbová, 2000-2001).
Digitální
knihovna - produkce, ochrana a zpřístupnění digitálních dokumentů (výzkumný
záměr VaV, řešitel Mgr. A. Knoll, MKČR, 1999-2003).
Jednotná
informační brána pro hybridní knihovny
(zodpovědný řešitel PhDr. B. Stoklasová, RNDr. Pavel Krbec, Mgr. Marie
Balíková, MKČR).
2.2.2 Projekt Souborná databáze
kooperačního systému článkové bibliografie - optimalizace integrace a správy
heterogenních dat a jeho vliv na KOSABI
Anotace
(zadání)
Náplní projektu je optimalizace
integrace a správy heterogenních dat souborné databáze Kooperačního
systému článkové bibliografie.
Bibliografické záznamy článků, publikovaných v českém periodickém tisku a
zpracovávané spolupracujícími knihovnami, budou postupně propojované s
elektronickou podobou článku a takto prezentované na Internetu. Obě části
souborné databáze - vznikající databáze
plných textů a báze bibliografických záznamů ve formátu UNIMARC - vyžadují permanentní kvalitní SW a HW
podporu. Budování, doplňování, správu a údržbu plnotextové databáze
s možností vyhledávání zajistí informační agentura ANOPRESS (systém
TOPIC). Zároveň půjde o vývoj manažerského systému pro příjem a správu dat
kooperačního systému. Hlavním cílem
projektu je zkvalitnění bibliograficko-informačních služeb.
Plnění
Výsledkem řešení projektu je
poloprovoz linky pro získávání
a zpracování bibliografických záznamů z plných textů (TTDE) s
následným importem záznamů do báze ANL s propojením na plný text v bázi ANL
FULL a paralelním importem plných textů s metadaty UNIMARC a DC do báze ANL FULL a jejich zpřístupnění v
systému TOPIC včetně automaticky generovaných formátů HTML, XHTML, XML v
kvalifikované i nekvalifikované formě.
Velká pozornost je věnována definici
báze ANL FULL v systému TOPIC, zejména vyhledávání (prostý dotaz, formulářový dotaz, topiky, rejstříky). Je nainstalován formulář pro registraci
uživatelů. Plné texty článků deníků a některých časopisů jsou průběžně
stahovány z databáze TamTam (Anopress), zpracovávány v lince zpracování
bibliografických záznamů z plných textů a zpřístupňovány v bázi ANL a ANL FULL.
Báze je také doplňována off-line z textů Anopressu (systematicky od
textů s datem vydání 1997). Je založen portál
pro zpřístupnění volně dostupných textů na Internetu ve struktuře tematické a
regionální s popisem zdrojů. Průběžně jsou také staticky propojovány záznamy a
plné texty z volně dostupných stabilních titulů na Internetu v rámci báze ANL.
V projektu se dále řeší aplikace pro správu a údržbu KOSABI, která
vychází z aplikací vyvinutých v rámci SK CASLIN (přijímání záznamů, konverze, úpravy a kontrola záznamů). Pro
kooperační systém i zpřístupnění plných textů je zakoupena kvalitní HW a SW
platforma.
Související
projekty realizované v NKČR
Úzce
související projekt
Propojení analytických záznamů s plnými a optimalizace
zpřístupnění plných textů (výzkumný
záměr VAV, řešitelka PhDr. I. Anděrová, 1999-2003, MKČR).
Další
související projekty (viz též bod 2.2.1)
Rozšiřování
možností rozvoje Caslin - Souborného katalogu ČR (výzkumný záměr VaV, řešitelka PhDr. G. Krčmářová, 2000-2003).
- současný stav zpřístupňování článků na Internetu a nové
trendy ve zpřístupňování článků, metody a projekty
2.2.2.1.1.1 Současný stav v ČR - některé volně přístupné zdroje na
českém Internetu, digitální knihovny, služby
Některé knihovny vytvářejí soupisy
volných českých zdrojů plných textů na
Internetu. Jinak jsou plné texty organizovány na Internetu do tematicky či jinak utříděných portálů.
Relativně velký rozvoj na Internetu
nastal v nabídce českých novinových a časopiseckých elektronických zdrojů
- jsou vystaveny deníky, týdeníky a časopisy. Vystavené texty jsou
zachyceny s různou hloubkou retrospektivity (aktuální číslo, poslední čísla či
roky), objevují se archivy volně dostupné či pouze registrovaným uživatelům.
Některé zdroje obsahují citaci , abstrakt, objevují se current contents. Někdy
lze vyhledávat podle základních formálních údajů, kombinovat dotazy pomocí
logických operátorů, vyhledávat plnotextově.
Na české Internetu se objevují nakladatelské elektronické zdroje
Vztahy mezi uživateli, knihovnami a vydavateli/nakladateli a knihovnami či
bibliografickými agenturami nejsou dosud jasné z hlediska právního i
obchodního, v budoucnu lze předpokládat v tomto směru vznik nových iniciativ.
Nakladatelství Economia a.s,
nakladatelství ekonomické literatury vystavuje na Internetu plné texty produkce
tohoto nakladatelství. Server IHNED nabízí pokročilé vyhledávání ve zdrojích i
řazení výsledku podle relevance.
Odborná
knihovnická periodika
Některé digitální knihovny a databáze
ASPI (Automatizovaný systém právních
informací). Digitální
knihovna "Český parlament" a " Dokumenty Senátu". Digitální
knihovna v NKČR obsahuje vzácné a ohrožené dokumenty digitalizované v
národních programech Memoriae Mundi Series Bohemica (převážně rukopisy, staré
tisky a perspektivně další dokumenty) a Kramerius (starší noviny a časopisy a
další vzácné dokumenty tištěné na kyselém papíře).
Albertina icome
Albertina icome Praha je česká
soukromá společnost zaměřená na zpřístupnění profesionálních informačních
zdrojů v elektronické formě a jejich využití v praxi. AiP nabízí elektronické tituly předních světových vydavatelství.
Elektronické vydavatelství spolupracuje na vydávání ČNB na CD-ROM.
Newton
I.T.
Elektronická
výstřižková služba, elektronický archív novin a časopisů celostátních a
regionálních. Buduje archívy některých
deníků a časopisů.
Anopress
I.T.
On-line
databanka novin a časopisů celostátních a regionálních, monitoring na zakázku,
vědomostní databáze, archívy zdrojů. Spolupracuje s NKČR v rámci zmiňovaných
projektů.
DC (Dublin Core)
Formát metadat pro popis webovských
informačních zdrojů - formát definovaný na základě mezinárodního konzensu
- obsahuje 15 prvků k identifikaci
zdroje.
XML (eXtensible Markup Language)
Jazyk XML je prostředek sloužící k
zapsání strukturovaného textu , zvláště pak textu určeného k šíření v
prostoru www. XML je formát textový, tzn., že dokument je možno vytvářet,
přenášet a zpracovávat na libovolná data, jakýmkoli počítačovým systémem, jsou vyřešeny jazykové a kódové problémy.
XML odděluje popis struktury dat od jejich
prezentace (pomocí tzv. style sheetů). To umožňuje snadnou konverzi do
jiných formátů, možnost prezentace dat různými způsoby (HTML, postcript,
UNIMARC apod. textový formát). Každý
dokument má definovanou svoji strukturu prostřednictvím tzv. DTD (Document Type
Definition). Tato DTD může být unikátní pro každý dokument, ale může být také
společná pro celou řadu dokumentů. Velký potenciál XML se skrývá v novém
způsobu odkazování (oběma směry, na více dokumentů najednou či dokonce v rámci
hierarchické struktury) pomocí speciálních jazyků XLink, XPointer a XPath.
Totéž lze říci o stylovém jazyku XSL, který doplňuje a nahrazuje tzv. kaskádové
styly (CSS). Oblasti potenciálního využití XML jsou široké.
RDF (Resource Description Framework)
Poskytuje základ pro popis v různých
aplikačních doménách. Jako modelovací jazyk používá entity, atributy, vztahy.
Propojování pomocí URL, PURL, URN
a hypoteticky u nás DOI.
Z39.50 je soustava protokolů sloužících ke
komunikaci mezi heterogenními knihovnickými systémy. Umožňuje vyhledávat,
editovat, upload a download záznamů.
Jednotné informační brány řeší přístup k různým zdrojům z jednotného prostředí. Jejich funkčnost je
podmíněna homogenním nástrojem pro indexaci zejména věcnou. Řešením je
harmonizace řízených slovníků či tezaurů.
Realizované projekty a metody, se kterými souvisí
projekty a zpřístupnění textů v rámci KOSABI
WebArchiv je vytvářen v rámci programového
projektu výzkumu a vývoje
"Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti
Internet". Jeho cílem je připravit podmínky pro zpracování české národní bibliografie elektronických zdrojů,
se zaměřením zejména na zdroje dálkově přístupné.
Programový projekt Ministerstva kultury ČR ”Jednotná
informační brána pro hybridní knihovny” - řeší otázku jednotného uživatelského rozhraní pro hybridní
knihovny. Takovou knihovnou je Metalib. Databáze ANL je jedním ze zdrojů
této knihovny. Na Bázi ANL FULL je učiněn odkaz. Komunikace v Metalib je na
základě protokolu Z39.50 nebo HTTP.
Metoda konspektu jako nástroj popisu fondů má přispět
k realizaci této brány. Základem metody je popis dle věcného třídění na
několika úrovních. První obsahuje 24 tematických skupin, druhá 500
kategorií, které se dále člení na 4 000
témat. Vazba na jednotnou informační bránu: výběr věcného oboru v Metalibu
podle členění tématických skupin.
Propojování - Metalib a SFX. SFX je standard
pro propojení dokumentů a je využíván v Metalib k vytváření vazeb. V Metalib je
statický způsob propojení je nahrazován dynamickým propojováním založeném na
open URL.
Organizace a legislativně právní
záležitosti
Konzorcia
Pro přístup elektronickým zdrojům zejména k plným textům
článků se zakládají konzorcia. Výhody:
získání zdrojů jinak nedostupných, přístupu malým institucím/pracovištím, příznivějších cen na instituci, využití
centrálních finančních zdrojů, levnější provoz (administrativní a
organizačně-technické výhody), spolupráce. Členy některých konzorcií jsou i
české knihovny a instituce.
V ČR mají uživatelé přístup k mnoha
kvalitním zahraničním zdrojům elektronických informací díky programu
MŠCHT "LI - Informační zdroje pro
vědu a výzkum".
V současné době je funkční konzorcium Anopress
vzniklé v r. 2000. V r. 2002 je
podprogram VISK8 - Informační zdroje - linie A zaměřen na zajištění
dostupnosti elektronických informačních zdrojů formou multilicencí z domácí,
české provenience, a to: databáze TamTam
fy Anopress a databáze ČTK . Je logické
do tohoto konzorcia zahrnout i databázi ANL FULL, která vzniká na
základě textů databáze TamTam. V NK probíhají v tomto směru jednání (zatím v
mailové podobě), Anopress proti
zpřístupněním databáze v konzorciu na
zatím omezenou dobu za určitých podmínek v zásadě není. Jednání budou
pokračovat.
Autorsko právní a legislativně právní problematika zpřístupňování elektronických dokumentů - v ČR je
třeba aktualizovat zákon o povinném výtisku seriálových publikací, event.
autorský zákon.
Povinný výtisk elektronických publikací je
předpokladem jejich uchovávání a zpřístupnění. Dále je třeba v budoucnu
uzavírat dohody mezi knihovnami a
příslušnými nakladateli a vydavateli, které se budou týkat jednak
zpřístupnění elektronických dokumentů, jednak spolupráce.
2.2.2.1.1.3 Standardizace,
metodika - UNIMARC, DUBLIN CORE,
HTML, XHTML, XML, propojení záznamů s plnými texty
V lince TTDE se extrahují data
jmenného popisu z plných textů, v lince se automaticky generuje dynamická
URL adresa, SICI. Dále se automaticky generuje URN (do kterého je
zabudováno identifikační číslo plného textu přidělené v Anopressu) a z velké
části pole LKR určené k propojení se zdrojovým dokumentem. Automaticky
generovaný Dublin Core obsahuje 14 z 15 definovaných údajů. Je generován
pro formát HTML, XHTML a XML ve kvalifikované i nekvalifikované formě. Do HTML
je zabudován LINK tag pro
potřeby odkazu na webovský zdroj, v
němž se nachází specifikace daného použitého soboru metadat. Bylo nadefinováno
20 údajů Anl Core vzhledem k
detailnosti popisu a vzhledem k možnostem vyhledávání v současné verzi systému
TOPIC. Struktura automaticky generovaných bibliografických dat respektuje
formát UNIMARC a knihovnická pravidla AACR2 v oblasti jmenného
popisu. V oblasti věcného popisu se používá aktualizovaná verze MDT-MRF.
Verbální věcný popis obsahuje předmětové kategorie, které zasazují
dokument do širších souvislostí v rámci databáze z hlediska obecných témat, jež
by se měla sbližovat s nadefinovanými
tématy systému TOPIC. Předmětové kategorie do jisté míry konvenují
metodě konspektu aplikované pro popis a mapování fondů. Dále se používají předmětová
hesla a velmi omezeně klíčová slova. Automaticky je generován souhrn
článku, automaticky lze také generovat klíčová slova, která však mají v
současném stádiu "počítačovou formu". V budoucnu lze uvažovat i o
částečném automatické generování termínů předmětové indexace. Tyto forma však
vyžaduje intenzivní vývoj řízených slovníků/heslářů či tezaurů a jejich
integraci do "subject gateways". V budoucnu se předpokládá
intenzivnější využívaní vznikajících souborů autorit jmenných i věcných a
zabudování předmětového popisu do vyhledávání pomocí topiců v sytému TOPIC, ve
kterém je zpřístupňována báze ANL FULL.
2.2.2.1.1.4
Architektura systému pro zpřístupňování plných textů. Linka zpracování. Systém TOPIC a pojmové vyhledávání. Báze ANL
FULL v systému TOPIC (v současné verzi Portal One)
Architektura
systému, ve kterém vzniká báze ANL FULL
a částečně báze ANL - datový a funkční model
Báze ANL FULL vzniká v
rámci linky zpracování bibliografických záznamů z plných textů TTDE
získaných z databáze TamTam za
současného generování metadat Dublin Core ve formátech HTML, XHTML, XML v
kvalifikované a nekvalifikované formě. Báze je provozována v systému TOPIC
(pojmově orientovaný vyhledávací systém). Technologie zpracování a
zpřístupnění článků v systému TOPIC
vychází z a navazuje na již vyvinutou technologii firmy Anopress. Záznamy
vznikající v lince jsou současně importovány do báze ANL a jsou propojeny na plné texty obsažené v
bázi ANL FULL.
·
On-line
získávání dokumentů z databáze TamTam přes vstupní filtr pro linku zpracování - aplikace TT Special NK (TTSNK),
textové dokumenty vstupují do linky se strukturovanou hlavičkou, kde jsou
dohodnutými znaky a návěštími označeny příslušné údaje (v budoucnu možná další
úprava vstupních filtrů podle charakteru získávaných dokumentů z jiných
zdrojů).
·
Zpracování
plných textů (extrakce dat z hlavičky dokumentu, doplnění
a generování DC, UNIMARC, výstup v
ANSEL, UNICODE, UNICODE-UTF 8) - aplikace TTDE (TamTam Data Extractor) na lokálních
pracovních stanicích.
·
Konverze,
generování dat URL, SICI, DC v HTML,
XHTML+-, XML+-, indexace, uložení a
vyhledání informací (vyhledávání
pomocí textu dotazu, formulářů, topiců, rejstříků) - aplikační a datový server: Portal One SE - fulltextový vyhledávací
systém, server Dell PoweEdge 6300 (1 GB RAM, 68 GB, Pentium III).
MKINDEX - indexace, generování XML- a XML+, jednorázové aplikace/moduly
(TTEXPORT-TamTamExport, TTXMLGen -TamTam XML generator, TTDT-TamTam Data
Tester, TTDF-TamTam Data filter, TTDC- TamTam Data Convertor, MKDOC.ASP -
propojení bibliografického záznamu s plným textem).
·
Zobrazení
a zpřístupnění informací - Internet Information Server Win 2000 - komunikace v síti, zobrazování dat a metadat v
uživatelských formátech (citace bez/s odkazy, výsledky jednoduché, se souhrnem,
seskupené) a pracovních formátech (klíčová slova, DC v HTML, XHTML+ -, XML+ -),
tisk. Obecné základní informace, nápovědy, autorizace, statistika zobrazených
informací přes Internet aj.
Poznámka:
export dat z
ANL FULL pro uživatele - bude řešen.
Zpracování
v lince zpracování bibliografických
záznamů z plných textů (TTDE) obsažených v bázi TamTam Anopress a propojení
bibliografických záznamů a plných textů
Pracovník oddělení analytického
zpracování NK nejprve vybere a vyhledá příslušné články ke zpracování v
databázi TamTam. Stažení vybraných
článků na počítač příslušného pracovníka
v podobě komprimovaného souboru. Po jeho dekompresi je text článku naimportován
do příslušného adresáře. Po otevření formuláře ke zpracování se objeví v levém
části formuláře pro editaci seznam názvů článků. Po kliknutí na článek se
automaticky objeví extrahované údaje z
hlavičky článku v příslušných rubrikách
formuláře a hlavičkách TTDE.
1.
Rozšířený
formulář je nástroj vyvinutý pro editaci a doplnění extrahovaných dat. Data je
možno upravovat také v hlavičce UNIMARC-A, UNIMARC. Automaticky se generují
údaje v rozsahu
minimálního záznamu stanoveného pro popis článků (kromě notace MDT), tj. údaje
zejména jmenného popisu a kódované údaje. Automaticky se generuje souhrn
článku. Pokud je zvolena příslušná funkce, je možno automaticky generovat
klíčová slova. Další údaje věcného popisu - předmětové kategorie doplněné MDT, hesla se doplňují. Automaticky
se generuje URL, SICI, téměř celé pole LKR (k propojení se zdrojovým dokumentem
- vazba up and down na analytický
záznam - experimentálně zatím vazby zkoušeny u deníku Právo, Magazín Práva,
Reflex, Respekt, Týden).
Formulář má tři strany. První
obsahuje jmenné a věcné údaje, druhá pouze věcné, třetí jmenné a věcné údaje.
2.
UNIMARC-A hlavička je hlavička s
bibliografickými údaji pro importní vstupní soubor záznamů do ALEPHu
(řádkový UNIMARC), do které se automaticky generují tatáž data jako do
formuláře pro editaci a úpravy zanesené do tohoto formuláře. Tato hlavička je
také přístupná pro editaci samostatně. Jde o řádkový UNIMARC.
3.
UNIMARC
hlavička, hlavička pro klasický UNIMARC s týmiž vlastnostmi jako hlavička UNIMARC-A - slouží k eventuelnímu importu pro systémy,
které jsou založeny na UNIMARCU - řádkový UNIMARC. Do hlavičky jsou generované
tytéž údaje jako do výše jmenované hlavičky.
4.
DUBLIN
hlavička s týmiž
vlastnostmi jako předchozí dvě hlavičky sloužící ke generování metadat Dublin
Core - vychází z poslední verze
Dublin Set Elements, z 15 jeho prvků aplikuje 14 (pro jemnější vyhledávání jsou
určeny tzv. prvky Anl Core).
5.
Zobrazovací
hlavička slouží k zobrazení údajů v hlavičce plného textu.
6.
Indexovací
hlavička slouží
k indexaci uložených údajů v databázi
ANL FULL.
Po odrážce různé je možno nastavit
tvar výstupní hlavičky pro UNIMARC-A nebo UNIMARC a spustit ruční
vstup dat, nastavit kód výstupních dat (ANSEL, UNICODE, UTF-8).
Následuje odeslání záznamů pomocí
volby odeslat na dolní liště, import do ALEPHu, import na server full.nkp.cz.
Pro propojení plných textů s
bibliografickými záznamy v systému ALEPH (doplnění URL adres do záznamů)
byl vytvořen skript MKDOC.ASP. Propojení probíhá ne základě dynamicky
generovaného odkazu na dokument. Program vyhledá požadovaný dokument dle
identifikace (identifikační číslo), provede statistiku a kontrolu autorizace a na jejím základě zobrazuje
plný text, abstrakt a citaci dokumentu
v rámci databáze ANL FULL na serveru full.nkp.cz.
Systém TOPIC a pojmové vyhledávání
Systém TOPIC (pojmově orientovaný
vyhledávací systém, concept based retrieval) je systém třetí generace založený na následujících principech: rozklad
pojmu na podpojmy, vážení jednotlivých podpojmů (větví pojmového
stromu), neostré vyhodnocování dotazů.
Dotaz v systému třetí generace
reprezentuje pojem, resp. ideu vyhledávaného tématu. Jádrem dotazu je stromová
hierarchická struktura, která rozkládá hledané téma na podtémata a přiřazuje
jednotlivým částem váhy, které vyjadřují, do jaké míry příslušné téma přispívá
k celkovému určení tématu. Systém dále vypočítá míru relevance vyhledaných
dokumentů. Oproti běžně používaným operátorům TOPIC používá operátor ACCRUE
se specifickými vlastnostmi. Tento operátor sbližuje operátory and a or. Každý
topic obsahuje tedy tři základní charakteristiky - strukturu, váhy a operátory
(viz dále).
Podstata
systému TOPIC
Jednotlivá slova do topicu vkládáme pomocí operátorů a
modifikátorů. Určujeme tím, v jakých vztazích k dalším pro dané téma
typickým výrazům se mají tato slova v plných textech vyskytovat a jaký
mají pro daný dotaz význam, resp. váhu.
K tvorbě topiců se používá editor
a dotaz v něm má strukturu členěné
osnovy nebo stromu. Systém vyhledá
všechny dokumenty, v nichž se v určených souvislostech v textech vyskytují - alespoň některá ze zadaných
slov. Přihlíží i k pádovým koncovkám. Každému nalezenému dokumentu program přiřadí ohodnocení relevance v podobě
čísla a to formou číselného skóre, kdy
vychází jednak z četnosti výskytu zadaných slovních kombinací v textech a
jednak zohledňuje váhy, které jsme přisoudili jednotlivým větvím. Fulltextové
vyhledávání pomocí topiců se vyznačuje úplností, značnou přesností a vysokou
mírou přizpůsobivosti individuálním potřebám uživatelů.
Úplnost
(recall) znamená, že
systém zachytí prakticky všechny dokumenty, které se v té či oné míře
týkají daného tématu. Přesnost (precision) vyhledávání souvisí
s hodnotou skóre: platí, že text, který obsahuje větší počet slovních kombinací typických pro určité
téma, se k tomuto tématu váže.
Soubor
vytvořených topiců tvoří tzv. znalostní bázi. Každý TOPIC má své jméno a
popis.
Určování
důležitosti dokumentů
Zda nějaký dokument dotazu vyhovuje či ne záleží na tom,
jakými operátory jsou jednotlivá slova spojena. U běžných fulltextových
technologií je možné klíčová slova spojovat
operátory and nebo or.
AND
– dokument obsahuje všechna klíčová slova, která požadujeme, tj. přesné
vyhledávání .
OR - dokument obsahuje alespoň jedno klíčové
slovo, tj. úplné vyhledávání (vyhledány
všechny potenciálně možné dokumenty).
Oba operátory lze
kombinovat pomocí operátoru ACCRUE
(zapisuje se jako čárka při vyhledávání) a je založen na principu " čím více různých klíčových slov je nalezeno,
tím je dokument důležitější". Na prvním místě jsou dokumenty obsahující všechna slova, na
dalších dokumenty obsahujíc méně a méně různých klíčových slov. Pro přesné vyhodnocení
důležitosti (relevance) dokumentu se berou v úvahu uvedené váhy slov a
četnost jejich výskytu. Důležitý je operátor Near/nn, který umožňuje
vyhledání jen takových dokumentů, kde je určitá množina slov ve vzdálenosti
definována číslem nn.
U systému
TOPIC odpadá tedy dilema mezi přesností a úplností, řeší je operátor ACCRUE.
Kvantifikace
obsahu dokumentů
Pomocí široké škály operátorů lze stanovit způsob
vyhodnocování důležitosti dokumentů vzhledem k dotazu. Toto číslo se nazývá
relevance a nabývá hodnot 0,001 až 1.00.
Shlukování (clustering) –
funkce, která umožňuje vyhledané dokumenty shlukovat podle možného
společného kontextu. Shlukování je založeno na statistické analýze obsahu
prováděné při jeho indexaci. Pro každý dokument je vybrána řada slov (významový
vektor), která s určitou pravděpodobností vystihuje obsah dokumentu, a na
základě něj se vytváří automatická anotace v podobě nejvýznamnějších vět
z dokumentu (summary).
Báze ANL FULL v systému TOPIC. Jak se
zaregistrovat. Jak vyhledávat. Výsledky vyhledávání a zobrazení, výstupy
Jak se zaregistrovat
Externí uživatelé se mohou zatím zaregistrovat pomocí
formuláře v nabídce Registrace na dobu 7 dnů. Po vyplnění povinných údajů je
těmto uživatelům zasláno e-mailem potvrzení registrace s aktivačním odkazem a
heslem - po odeslání tohoto odkazu je
registrace aktivována a
prostřednictvím přiděleného hesla zajištěn bezplatný zkušební přístup na dobu
sedmi dnů. Rutinní zpřístupňování plných textů bude možné po vyřešení
autorskoprávních, popř. ekonomických otázek souvisejících se zpřístupňováním
plných textů. Roli také bude hrát koncepce a strategie zainteresovaných
subjektů.
Nabídka Přihlášení slouží k autentifikaci
registrovaného uživatele. Ve formuláři pro přihlášení je třeba vyplnit jméno a přidělené
heslo.
Jak vyhledávat. Druhy dotazů v databázi ANL FULL a
systému TOPIC
Báze ANL FULL obsahuje jak bibliografický popis (metadata) v různé míře
podrobnosti podle vývoje systému, tak
plný text, přičemž obě tyto části jsou indexovány a lze z nich
paralelně vyhledávat a docílit tím větší míru relevance výsledku
vyhledávání k položenému dotazu.
Systém umožňuje velmi sofistikované kladení dotazů vyžadující určitou
zkušenost. Na druhé straně je možné položit dotaz velmi jednoduchým způsobem. Systém
umožňuje tři způsoby hledání: vyhledávání (searching) pomocí formulářů a pole
dotaz, pomocí topiců - předem strukturovaných dotazů v rámci rozšířeného
formuláře, prohlížení (browsing) rejstříků.
Formuláře:
základní, rozšířený, rozšířený s tématy (pomocí topiců).
Dotazy: druhy dotazů se liší náročností
formulace a možností ovlivnit výsledek vyhledávání .
Prostý dotaz
Obsahuje slova nebo fráze oddělené čárkami nebo
logickými spojkami, formulace mohou obsahovat různé konvence. Při vyhledávání
se všechna slova skloňují a mají
stejnou váhu.
Formulářový dotaz
Obsahuje kromě možnosti pro zadání hledaného slova nebo
fráze jako u prostého dotazu i pole pro zadání podmínek pro jednotlivé položky
strukturované části textové databáze. Jde o rozšíření prostého dotazu.
Tematický dotaz, resp. topic - definuje jednotlivá témata.
Topic je typ dotazu, na jehož základě se vyhledají
dokumenty, které se týkají určitého tématu, oboru nebo problému.
Jsou rozděleny v bázi do tří úrovní. Lze zatím
vyhledávat podle některých nadefinovaných topiců (označeny šipkou vlevo).
Témata
jsou uspořádána do 7 oblastí, ty se dělí do 20 tematických skupin a skupiny
obsahují zatím 114 detailních témat.
Tematické
oblasti: Ekonomika, obchod, finance;
hospodářství, výroba; humanitní
a společenské vědy;
matematika a přírodní vědy;
lékařství, zdravotnictví, technika;
sport, volný čas.
Rejstříky
V rejstřících je možno listovat a vybrat výraz, podle
kterého chceme vyhledávat. Tyto výrazy jsou hypertextově propojeny
v citacích s metadaty, resp. údaji bibliografického popisu. Podle
rejstříků doporučujeme vyhledávat údaje zejména týkající se předmětu dokumentu
(předmětové kategorie, hesla - věcná a geografická, osoby, korporace, akce,
klíčová slova, dokument/dílo). Rejstřík
se zobrazuje v levém okně, v pravém okně se zobrazují vyhledané
články.
Bylo nadefinováno 17 rejstříků: autoři,
název zdroje, zdroj ročník číslo, datum vydání, předmětové kategorie, předmět,
místo, hesla (věcná a geografická), osoby, korporace, akce, klíčová slova,
dokument/dílo, typ článku, MDT, geografické vymezení, časové vymezení.
Výsledky
vyhledávání, zobrazení výsledků
Způsoby zobrazení seznamu výsledků (názvů vyhledaných
článků)
V záhlaví seznamu výsledků je uveden počet
vyhledaných článků. Počet vyhledaných dokumentů na stránku je dán volbou v
poli Výsl./str. V závislosti na této volbě se potom zobrazuje počet stran
s možností listování.
U jednotlivých
článků zobrazeno vždy, resp. standardně
(zleva): tři formáty pro zobrazení údajů o článku, skóre
relevance, datum vydání, název článku, velikost plného textu: jednoduchý (standardní
zobrazení), se souhrnem
(standardní zobrazení plus souhrn), seskupený (standardní
zobrazení plus články uspořádané do skupin podle shody v klíčových slovech podle
společného kontextu, clustering).
Třídění seznamu výsledků (názvů vyhledaných článků)
Třídění: dle
skóre (relevance), dle názvu,
zdroje, data (vydání), stran, a to sestupně nebo vzestupně.
Zobrazení údajů o článku - formáty zobrazení
Uživatelské formáty
Citace článku, souhrn - bibliografické údaje o článku, resp. metadata s odkazy pro další hledání .
Citace článku, plný text - bibliografické údaje o článků, resp. metadata s
odkazy pro další hledání a plný text článku.
DC/HTML –
Dubline Core Metadata .
Název článku hypertextově aktivní – zobrazení citace a plného textu bez odkazů .
Pracovní formáty
V záhlaví plného textu jsou navíc různé pracovní
formáty - klíčová slova, UNIMARC, Dublin Core – formát pro
zpřístupňování elektronických dokumentů a jeho aplikace, které obsahují
metadata (DC/HTML/META, DC/XHTML kvalifikovaný a nekvalifikovaný,
DC/XML kvalifikovaný a nekvalifikovaný). Jsou určeny pro budoucí
vývoj systému a zpřístupnění plných textů.
Metadata
Ve všech variantách zobrazení je obsažena citace, resp.
biliografické údaje, resp. metadata ( Dublin Core a Anl Core).
Plné texty
s metadaty z báze ANL FULL jsou též přístupné přes bázi ANL a v rámci ní v Jednotné informační
bráně, a to diferencovaně: interní uživatelé NKČR plné texty s metadaty
(přístup přes IP adresy), externí
uživatelé pouze metadata s krátkým souhrnem, po registraci na serveru
full.nkp.cz jsou k dispozici též
plné texty na 7 dnů. Plné texty lze
zatím kopírovat nebo tisknout. Export dat bude řešen.
2.2.2.1.1.5
Periodika na WWW - strukturovaný
portál na serveru full.nkp.cz
Nabídka volně přístupných periodik na Internetu se dále
bude doplňovat, event. jejich uspořádání měnit. Nejsou zde zahrnuta periodika
firemní, inzertní, bulvární, propagující hnutí potlačující lidská práva,
sportovní, zpravodajská (zprávy z tiskových agentur bez dalšího kontextu) aj.
periodika efemérní povahy.
U každého periodika je uveden oficiální název, www adresa, popis obsahu, vydavatel,
tel., fax, e-mail, adresa. V budoucnu bude možno podle těchto údajů vyhledávat.
Nabídka není ještě zdaleka proporcionální, bude postupně ladit.
Takto zpřístupněná volně dostupná
periodika jsou strukturována do přehledné formy portálu na úrovni krajské,
tématické a institucionální.
2.2.2.1.1.6 Management Kooperačního systému článkové bibliografie (aplikace
MNG KOSABI)
Na základě zadání pro řízení a správu
kooperačního systému a za využití již vyvinutých řešení v rámci Souborného
katalogu CASLIN probíhají práce na vývoji aplikace pro KOSABI na serveru ANL
(systém LINUX a ORACLE) Ve stádiu ladění je aplikace pro příjem a automatizované zpracování dat (příjímání
analytických záznamů, integrace
stávajících programů pro konverzi analytických záznamů, globální úpravy
analytických záznamů, vývoj programů na formálně logické kontroly kooperujících
knihoven - test na UNIMARC pro analytické záznamy). Je vyvinut základ
aplikace pro evidenci zpracovávaných titulů a test na duplicitu záznamů
(klíčů) mimo ALEPH.
Aplikace pro správu a údržbu KOSABI -
přehled dílčích funkcí
1. Příjem dat pro systém
Způsoby příjmu dat: ftp, upload,
disketa.
Formáty: Aleph, Aleph 500, UNIMARC
řádkový, UNIMARC ISO 2709, Výměnný formát.
Kódovani: GIZMO, PC Latin 2,
Kamenicky, ISO 8859-2, UTF-8, Ansel, ISO 646.
2. Zpracování přijímaných dat
Přidělení identifikace pro zpracovávanou
dávku ( batch_id ).
Formát a kódování dle názvových
konvencí.
Překódování do UTF-8.
Konverze do UNIMARC ( u formátu,
které to vyžadují).
Převod do interní struktury SQLLCB.
Globální úpravy záznamu - 1. etapa
(chyby v datech, které lze programově
ošetřit, např. tvrdé mezery, tagy ve vazebních polích) .
Test UNIMARC.
Uložení do baze SKA.
Statistika zpracování.
3. Export dat z baze SKA do adresáře
určeného pro ALEPH
Záznamy pro export určeny dle
batch_id
Globální úpravy záznamu - 2.
etapa (oprava specifických
"chyb" v dávkách od jednotlivých
knihoven).
Konverze do kódování Ansel a formátu
ALEPH 500.
Uložení výstupního souboru do
příslušného adresáře pro import do ALEPHu.
Satistika zpracování.
Aplikace pro evidenci zpracovávaných
titulů (nadefinována pole odpovídají SK
CASLIN)
Název: [200a].[200i][200b] :
[200e]
Nakladatelské údaje: [210a] :
[210c]
Zdroj katalogizace:
[801b].[801c]
Sigla vlastnika: [910a].[910a]
Region: [952a].[952a]
Údaje o excerpci:
[980a].[980b].[980c].[980k].[980p].[980r].
Test na duplicitu klíčů
V rámci ALEPHU není test na duplicity
zatím možný. Mimo ALEPH je definováno několik klíčů.
·
zpřístupnění
báze ANL FULL v rámci Jednotné informační brány přes http protokol závisí na
strategii tvůrců Metalibu (předpokládá připojit full.nkp.cz do Metalibu pro
vyhledávání, připojit full.nkp.cz do
SFX)
·
spolupráce
s nakladateli a vydavateli - začlenění linky zpracování do předpokládaného
možného vývoje - předpoklad:
strukturované údaje, resp. údaje Dublin Core v textových formátech, resp. HTML
formátu
Popsaná linka zpracování je použitelná po úpravě vstupním filtrem i na data
existující v jiné databázi, event. v
komunikaci mezi autorem, nakladatelstvím, bibliografickou agenturou,
knihovnou/informační institucí a naopak.
Předpokládá však do jisté úrovně strukturovaný
vstupní text, ze kterého data mohou být extrahována.
V této struktuře mohou být zachyceny
údaje nejen jmenné povahy (autor apod.), ale i povahy věcné (klíčová slova,
abstrakt).Ty je potom možno převést pomocí vstupního filtru do linky k dalšímu
zpracování.
1)
Pro
identifikaci článků ve struktuře textu pro další zpracování v lince jsou
důležité následující údaje z možných 15 prvků DC:
1. Název (Title)
2.
Tvůrce
(Creator)
3.
Zdroj /
Vztah (Source/Relation) - tj. název
zdroje, roč., číslo, datum, strany
4.
Nakladatel
(Publisher)
5.
Předmět
(Subject) - klíčová slova nebo hesla nebo výrazy tezauru
6.
Popis
(Description) ve formě abstraktu
7.
Práva
(Rights)
8.
Identifikátor
(Identifier)
2) Pro konverzi či zápis údajů obsažených
v hlavičce textu dokumentu je možno použít schéma definované na základě
pokynů pro přispěvatele do časopisů (v běžném editoru), je možno použít i
speciálních maker.
Výsledek
konverze:
#NAZ#Název článku#/NAZ#
#ATR#Hlavní autor#/ATR#
#AT2#Další autor#/AT2#
#ZDR#Název zdroje#/ZDR#
#ROC#Ročník#/ROC#
#CIS#Číslo#/CIS#
#DAT#Datum vydání
zdroje#/DAT#
#STR#Počáteční
strana#/STR#
#VYD#Vydavatel#/VYD#
#KEY#klíčové slovo,
klíčové slovo#/KEY#
#SUM#Abstrakt#/SUM#
#COP#Práva#/COP#
#ISN#ISSN#/ISN#
#IDE#Identifikační
číslo#/IDE#
3) Zobrazení
metadat po konverzi do DC v lince zpracování
<META
name="DC.Title" content="Název">
<META
name="DC.Creator.personalName" content="Hlavní autor">
<META
name="DC.Contributor.personalName" content="Další
autor">
<META
name="DC.Source" content="Název zdroje, roč. X , č. X (datum),
s. X">
<META
name="DC.Publisher" content="Vydavatel">
<META
name="DC.Date.issued" scheme="W3C-DTF" content="Datum
vydání">
<META
name="DC.Subject" content="klíčové slovo">
<META
name="DC.Subject" content="klíčové slovo">
<META
name="DC.Description.abstract" content="Abstrakt">
<META
name="DC.Rights" content="Práva">
<META
name="DC.Source" scheme="ISSN" content="ISSN">
<META
name="DC.Identifier"content="Identifikátor">
4) V rámci
linky zpracování se potom údaje mohou dále editovat a následně konvertovat do
HTML podoby a příslušných formátů.
3. Perspektivy Kooperačního systému
článkové bibliografie a jeho další možný vývoj, některé předpoklady a cíle
Organizace spolupráce
·
Postupně reálně
začlenit nově konstituované krajské knihovny v Pardubicích, Karlových Varech,
Havlíčkově Brodě a Zlíně do KOSABI. Přerozdělení některých titulů vzhledem k
novému státoprávnímu uspořádání.
·
Postupně sladit
profil zpracovávaných titulů v KOSABI se Souborným katalogem článků
systému LANius, resp. Clavius.
·
Spolupráce s
institucemi pedagogického a vědeckého zaměření (UK, ČSAV aj.).
·
Spolupráce se
společností Anopress a event. navázání
spolupráce s dalšími nakladateli/vydavateli .
Metody zpracování, standardizace
·
Doladit převod
výstupů z některých systémů do standardního UNIMARCu a báze ANL.
·
Harmonizace popisu
článků v rámci KOSABI se soubory
autorit zejména v oblasti věcného zpracování (předmětová hesla, předmětové
kategorie a metoda konspektu).
·
Konverze UNIMARC -
MARC 21, pravidla pro popis článků vzhledem k tomuto formátu.
·
Postupně
testovat nové metody zpracování
vyvíjené v projektech na KOSABI (linka automatického zpracování
bibliografických záznamů s plných textů a
zpřístupnění plných textů v bázi
ANL FULL): výhoda jednotného a poměrně jednoduchého a rychlého zpracování
importního souboru bibliografických záznamů pro integrované knihovnické systémy
za paralelního zabudování metadat do plných textů a možnosti vyhledávání v
plných textech). Pracovníci v současné době pouze kontrolují extrahované jmenné
údaje z plného textu a doplňují věcné údaje. Předpokládá se, že v budoucnu
dosud doplňované věcné údaje bude možno zabudovat do topiců a tak podle nich
vyhledávat. Metody automatické či poloautomatické indexace věcné jsou ve stádiu
zkoumání. Cíl: pouhý výběr titulů ke zpracování a kontrola.
·
Testovat metody,
popř. navázat na metody získávání a zpracování elektronických plných textů
(projekt Webarchiv) .
·
Postupně přecházet z
tradičního zpracování článků obsažených v určených titulech na zpracování
pomocí nových technologických metod. Přechod však musí být uvážlivý vzhledem k
zachování kontinuity zpracování titulů.
Organizace zpracování článků vzhledem k excerpovaným titulům z hlediska systémového
Do budoucna je možné uvažovat o několika subsystémech
zpracování z hlediska typů titulů:
·
Zpracování sborníků
a nepravých periodik (v rámci integrovaných knihovnických systémů), které zatím
nejsou dostupné na Internetu. Většinu pracovních kapacit přesunout na tuto
činnost.
·
Zpracování deníků a
časopisů v rámci linky zpracování bibliografických záznamů z plných textů. Tato
linka ušetří pracovní kapacity, zpracování je rychlé, kvalitní se spolehlivým napojením na plné texty.
·
Zpracování plných textů volně přístupných na www na
základě automatického sběru dat event. metod vyvíjených v rámci projektu
Webarchiv v návaznosti na metody vyvíjené v projektech týkajících se souborné
databáze ANL a KOSABI při zachování kontinuity zpracování článků.
·
Dodržování zásad
výběru článků.
Organizace zpracování článků z hlediska typů institucí:
Vzájemná kooperace mezi následujícími sítěmi knihoven:
·
NK, krajské
knihovny, základní knihovny.
·
Specializované
knihovny.
·
Vysokoškolské
knihovny.
·
Vědecké instituce.
Současné Výstupy z KOSABI a jejich možné zpřístupnění v
budoucnu
·
Báze ANL a ANAL (Olomouc)
je zpřístupněna v Metalibu jako zdroj, ANL FULL a článková databáze krajské
knihovny v Liberci jako odkaz. Další zpřístupnění článkových databází závisí na strategii Metalibu a příslušných
institucí.
·
Propojení je
realizováno v rámci linky zpracování bibliografických záznamů s plnými texty
zatím v rámci NK, tuto metodu lze aplikovat i v dalších institucích KOSABI na
dohodnutých titulech.
·
Propojení v rámci
Metalibu přes open URL závisí na
strategii v rámci Metalibu.
·
Linky na volně
přístupné plné texty na Internetu jsou součástí ČNB, Řady články v českých
novinách, časopisech a sbornících. Linky na plné texty báze ANL FULL zatím
součásti ČNB nejsou.
Legilativně právní otázky zpřístupnění plných textů
Vyřešení autorsko právních aspektů zpřístupnění plných textů
s příslušnými nakladateli/vydavateli a distributory a dohody s těmito subjekty
za situace, kdy neexistuje v ČR právo povinného výtisku elektronických
dokumentů.
Diferencované zpřístupnění plných textů
Jasné vymezení a ošetření přístupu k plným textům, které
jsou zpřístupňovány volně, přes konzorcia , interním a externím uživavelům
institucí a způsob plateb (paušál, kredity,
apod.)
Personální a finanční zajištění KOSABI
· KOSABI se již tradičně potýká s problémem personálního zajištění činností. Dobrá personální situace je podmínkou převedení systému do nového prostředí a pro aplikaci novým metod. Tyto metody pomohou práci zrychlit a zkvalitnit za menšího počtu pracovníků. Metody je však dobré nejdříve vyvinout a dobře otestovat při současném zachovaní kontinuity zpracování a zpřístupnění. V posledních dvou letech probíhají silné redukce oddělení analytického zpracování. Redukce jsou plánovány na cílový počet 11 pracovníků v r. 2003
·
Vývoj systému je po
finanční stránce zajištěn do roku 2004 díky podpoře MKČR. Je na místě pomalu
uvažovat a návazném projektu.
Závěr
Zpracování českých článků prochází transformací, jde o
inovaci jak po stránce technické i technologické, ale i koncepční, jde o zkvalitnění báze ANL a diferencované plné
zpřístupnění plných textů v bázi ANL FULL. Tyto změny však musí být postupné a
citlivé při zachování toho, na co je třeba navázat, pokud nechceme systém
zlikvidovat. Systém zpracování a zpřístupnění článků je možno transformovat
díky finanční podpoře projektů a do budoucna ošetřit tak, abychom články
zpracovávali moderně. O důležitosti informací uveřejněných v článcích nelze
pochybovat. Nemyslím tím pouze informace odborné a vědecké povahy, na které je
třeba se především zaměřit.
Spolupráce s Anopressem mohla být navázána díky zmíněným
projektům a NK mohla navázat na moderní technologii, která tato firma užívá a
dále rozvíjí. Báze ANL FULL a určité procento báze ANL vzniká díky spolupráci s touto firmou.
Na zpřístupňování českých plných textů mají vliv nejen
vyvíjené technologie, ale i koncepce a strategie zainteresovaných subjektů,
jejich smysl a citlivost pro dobrý odhad, znalost věci, transparentnost řešení a schopnost kompromisů, respekt k domácímu terénu a
světovým trendům.
Na závěr se zmíním o projektu GILS - o službě a nástroji
pro řízení informačních zdrojů
z oblasti státní správy USA , v rámci které kooperují kromě jiných institucí knihovny v jednotlivých státech. Tzv.
lokátorové záznamy odkazují na zdroje, které uchovávají úřady státní a místní správy nebo státní
instituce. Pomocí lokátoru se zjišťují, popisují a zpřístupňují informace o
zdroji.
V rámci systému GILS existuje trojí způsob tvorby
záznamů: klasický způsob (ruční), konverze (převod záznamů z jiných bází
dat), automatizovaný způsob (extrahování
metadat). Posledně jmenovaný způsob spočívá v
automatizovaném vytváření záznamů při prohledávání a indexaci zdrojů
(metadat a samotného textu). Z tohoto
důvodu je nutné, aby se metadata stala součástí www dokumentů. Dosavadní editory pro tvorbu webovských
dokumentů neumožňují vytvářet a
automaticky začlenit prvky metadat,
je nutné formát pro metadata ručně vložit do zdrojového dokumentu.
Předpokládá se, že formuláře nahradí
efektivnější software pro generování metadat. Tento systém by mohl být v
mnoha směrech inspirativní i pro nás ( je založen na kooperaci a
automatizovaném zpracování dat).
Jedním ze základních východisek nového knihovního zákona je,
že veřejné knihovny pracují v celostátně koordinovaném systému. Koncepce státní informační politiky ve vzdělávání (usnesení
vlády ze dne 10. 4. 2000, č. 351) stanoví důležitou úlohu veřejných knihoven při zajištění
bezbariérového přístupu k informacím všech typů v procesu výchovy a vzdělávání. Vybudování České digitální
knihovny je jeden z hlavních úkolů.
Základním cílem státní informační politiky je
vybudovat a rozvíjet informační společnost a tím vytvořit předpoklady zejména pro zlepšení kvality života
jednotlivých občanů, zefektivnění státní správy a samosprávy a zkvalitnění
podpory rozvoje podnikání. Toto je i cílem institucí spolupracujících v KOSABI.
Literatura:
Analytický popis. Praha : Národní knihovna v Praze,
1991. 2 sv. + disketa. ( MAKS)
KOUDELKOVÁ,
L., Nádvorníková, M., Baják, M. Návod pro tvorbu a
využívání báze záznamů dokumentů. Verze
1. Praha : Národní knihovna v Praze,
1991. 71 s. (MAKS)
Stoklasová,
B., Anděrová, I., Kremerová, J.
Specifikace údajů pro bázi záznamů dokumentů. Verze 1. Praha : Národní knihovna v Praze, 1991. nestr. (MAKS)
Anděrová, I. Pravidla zápisu údajů pro
analytický popis. Praha : Národní knihovna v Praze, 1992. 217 s. + příl.
ANDĚROVÁ, Ivana [et al.]. Národní bibliografie -
analytický popis : příručka pro zpracovatele. Praha : Národní knihovna,
1993. 412 s. Revize 1, 1993; Revize 2, 1997.
Bínová, J.Regionální
bibliografická činnost v SVK - možnosti spolupráce s okresními knihovnami. Čtenář, roč. 46, č. 2,1994, s. 45-48.
Nádvorníková, M. Spolupráce na úplnosti národní bibliografie z pohledu regionálních vědeckých
knihoven. Knihovny současnosti '96.1.
vyd. Brno : Sdružení knihoven, 1996, s. 134-139.
Doporučení
pro popis částí dokumentu na základě mezinárodního standardního
bibliografického popisu (ISBD). 1. vyd. Praha: Národní knihovna ČR, 1997. 32 s.
Záznam pro
soubornou databázi : UNIMARC. Fyzicky
nesamostatné části dokumentů. Tištěné monografie a seriály. Pracovní
skupina pro analytické zpracování, Rada pro katalogizační politiku. 1. vyd.
Praha : Národní knihovna České republiky,1999. 45 s. (Standardizace ;
č. 19). Určeno k připomínkám.
Záznam pro
soubornou databázi : Výměnný formát.
Fyzicky nesamostatné části dokumentů. Tištěné monografie a seriály. Pracovní
skupina pro analytické zpracování, Rada pro katalogizační politiku. 1. vyd.
Praha : Národní knihovna České republiky,1999.
39 s. (Standardizace ; č. 20). Určeno k připomínkám.
Anděrová, I.
Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění
plných textů. Souhrnná zpráva za rok ... [online]. Dostupný z: < http://www.nkp.cz/start/knihcin/OAZ/propoj.htm>.
ANDĚROVÁ, I. Souborná databáze Kooperačního systému článkové
bibliografie - optimalizace integrace a správy heterogenních dat. Souhrnná
zpráva za rok … [online]. Dostupný z:
<http://www.nkp.cz/start/knihcin/OAZ/grant.htm>.
ANDĚROVÁ, I. Kooperační sytém článkové bibliografie a
propojení analytických záznamů s plnými texty - východiska a současný stav. Národní
knihovna : knihovnická revue. 2001, roč. 12, č. 1, s. 26-37. Též dostupný
z: <http://full.nkp.cz/nkdb/index.html>.
ANDĚROVÁ, Ivana. Metodika popisu článků ve formátu
UNIMARC [online]. 2001. Dostupný z: <http://www.nkp.cz/start/knihcin/OAZ/Popis/popis1.htm>.
Anděrová, I. Báze ANL FULL v systému TOPIC. Textová verze. Inforum 2002. Dostupný z: <http://www.aip.cz>, <http://full.nkp.cz>, Rubrika Co je
nového ... .
Anděrová, I. Báze ANL FULL v systému TOPIC. Prezentace PPT. Inforum 2002. Dostupný z: <http://full.nkp.cz>, Rubrika Co je
nového .... .
CVRČKOVÁ, R. Služba GILS
jako nástroj pro řízení informačních zdrojů z oblasti řízení státní správy
USA. Národní knihovna : knihovnická revue. 2001, roč. 12, č.2, s. 99-113. Též dostupný z:
<http://full.nkp.cz/nkdb/index.html>.
Seznam
seriálů excerpovaných v oddělení analytického zpracování. Dostupný z:
<http://www.nkp.cz/start/knihcin/OAZ/Seznam_OAZ.htm>.
Státní
vědecké a ostatní knihovny spolupracující v kooperačním systému článkové
bibliografie a excerpční základny
Dostupný z:<
http://www.nkp.cz/start/knihcin/OAZ/kooper_SVK.htm>.
Báze ANL
FULL [online]. Dostupný
z:<http:full.nkp.cz>
Databáze
Anopress
Báze TamTam
[online]. Dostupný z:<http://www.anopress.cz>
31.7.2002
Redakce:
21.9.2002