Kooperační systém článkové bibliografie a báze ANL, ANL FULL
Ivana Anděrová, NKČR,
oddělení analytického zpracování
Úvod
Informace,
které jsou včasné, rychlé, konkrétní přizpůsobené informačním potřebám
koncových uživatelů jsou nezbytné pro
vývoj moderní společnosti. Současná informační věda
hovoří umění informaci či znalost vyhledat a použít (vytěžování médií – media
mining) a umět informaci nebo znalost
organizovat tak, aby byla využitelná dále.
Rozvoj
Internetu, elektronického publikování (jeho výhody a nevýhody), typy
elektronických dokumentů (primárně elektronické, elektronické verze tištěných
dokumentů nebo jejich doplňky) a jejich vlastnosti ovlivňují tradiční metody
získávání (volný přístup k elektronickým dokumentům na Internetu, volný
přístup k elektronické formě/verzi dokumentu v rámci předplatného, přístup
k elektronickému dokumentu zakoupenému od vydavatele, přístup přes
dodavatelskou/distribuční firmu, povinný výtisk), zpracování (automatická
indexace/extrakce, metadata Dublin Core), archivace, vyhledávání a
zpřístupňování dokumentů (XHTML, XML, intuitivní vyhledávání a dialogové
interaktivní systémy). Objevují se pokusy rozšířit či zkvalitnit obsah elektronické publikace pomocí
prostředků, které nabízí Internet. Dochází tak ke kombinaci tradičně
katalogizovaných dat s katalogizací vzdálených zdrojů, s dodáváním metadat od autora,
vydavatele/nakladatele/distributora i dat získaných na základě automatizovaného
sběru. Na druhé straně se mění způsoby informačního chování uživatele při
vyhledávání, ve středu zájmu je komunikace člověk - počítač (human-computer
interaction). Na základě zpětné vazby relevance (relevance feedback) může
uživatel zpřesňovat svůj dotaz a spolupracovat se systémem. Kombinace bibliografických a plnotextových
databází představuje efektivní přístup k plnému textu. Vyhledávání s přidanou hodnotou a
intelektuální indexace věcná zvyšují možnost získání relevantních informací.
Kvalitní zpřístupnění
informací o článcích či statích publikovaných novinách, časopisech,
sbornících aj. periodicky vydávaných dokumentech je důležité pro oblast státní
správy a samosprávy, pro oblast vzdělávání a výzkumu. Nutnost nových modelů zpracování a
zpřístupňování bibliografických informací je evidentní.
1. Současné trendy ve
zpřístupňování článkových informací s ohledem na zpřístupnění informací na
Internetu
Elektronické
dokumenty (ať už jsou to
elektronické mutace tištěných dokumentů nebo existující primárně
v elektronické formě), mezi něž patří i plné texty článků publikovaných v seriálech
- specificky v novinách, časopisech, sbornících z konferencí, v rámci
monografických edic - jsou zpřístupňovány prostřednictvím nakladatelství,
distributorských firem, informačních institucí či služeb a jejich produktů,
dále pak prostřednictvím digitálních knihoven a služeb vznikajících na základě
projektů, konzorcií a licencí. Na Internetu se navíc objevují elektronické
dokumenty, např. časopisy jako doplňky k papírovým formám, které nejsou kopií
tištěných dokumentů, ale doplňují je (obsahují aktuální zpravodajství, články
které nejsou v tištěné formě časopisu, odkazy aj.). Velké vydavatelské
domy vydávají periodika v tištěné formě, k tomu na Internetu také
tyto dokumenty zpřístupňují virtuálně. Je možno vyhledávat současně ve všech
nebo v určité skupině časopisů, přes bibliografické záznamy
s možností objednat či zpřístupnit plný text.
Přístup
k plným textů je zajišťován přes různé formy bibliografií a soupisů, obsahů
časopisů a plnotextových databází. Vyhledávání v plných textech zvyšuje komfort
přístupu uživatelů k informacím. Při zpřístupňování elektronických informací
se stále více prohlubuje spolupráce mezi státním a soukromým sektorem. Elektronické dokumenty jsou zpřístupňovány v
dohodnutých formátech.
Zpřístupnění
elektronických dokumentů závisí do jisté míry na tom, jak a do jaké míry je dokument vnitřně strukturován
(metadata jsou obsažena v samotných zdrojích) nebo zda existuje někde
nějaká „struktura“, která umožní co nejpřesnější identifikaci a nejrychlejší
navigaci k tomuto dokumentu.
Zpřístupnění
relevantních, resp. pertinentních informací uživateli předpokládá jasná
pravidla pro vytváření dokumentů jak na
úrovni sémantické, tak na úrovni strukturální.
Pro
popis webovských informačních zdrojů navržen formát Dublinské jádro (DC)
jako základní soubor údajů pro popis zdrojů (obsahuje 15 prvků
k identifikaci zdroje). Dublin Core může být vytvářen autorem,
vydavatelem, distributorem těchto zdrojů, knihovníkem. Zdá se, že možným
nástrojem na úrovni strukturální je přijatelný fomát či jazyk XHTML, XML
(eXtensible Markup Language,. XML považován v současné době za
nástupce jazyka HTML (prostředek
k zapsání strukturovaného textu, odděluje popis dat od jejich prezentace).
Jeho aplikací je RDF (Resource
Description Framework), který má definovanou standardní DTD (Document Type Definition).
Implementace souboru metadat DC (i MARC) ve struktuře RDF/XML je
předpokladem efektivního vyhledávání a využívání digitálních informací,
tj. efektivní komunikace na www.
Hovoří
se o popisu dokumentu v hierarchii jako manifestace díla (čtyřúrovňový model
manifestace díla FRBR - vztahy mezi dílem, jeho vyjádřením, projevem a
exemplářem). Připravuje se revize
AACR2R vzhledem k tomuto modelu a
struktuře ISBD. Připravuje se přechod z UNIMARCu na MARC 21.
Národní
autority vedou k integraci jmenného a věcného zpracování dokumentů a
jejich význam a aplikace při zpracování elektronických dokumentů je evidentní.
V oblasti
verbálního věcného popisu je
všeobecným trendem harmonizace věcných selekčních prvků pomoci souboru věcných
autorit, harmonizace různých typů heslářů, integrace tradičních pořádacích
systému do procesu vyhledávání v plnotextových databázích, v oblasti
systematické věcné notace konvergence mezi MDT a DDT, propojení verbálního a systematického
selekčního jazyka.
Pozornost
je věnována standardizaci popisu fondů (tzv. metoda konspektu,
v ČR aplikovaná též na popis informačních zdrojů), informačním branám (v ČR např. Jednotná informační
brána), portálům.
Vzhledem
k poměrně nestálé povaze elektronických zdrojů, vzhledem k jejich zpracování i
zpřístupňování je důležitá jejich identifikace - URL (Uniform Resource
Locator), PURL (Persistent URL),
Uniform Resource Name URN (Uniform Resource Name), DOI (Document
Object Identifier), SICI (Serial Item and Contribution Identifier) .
Identifikace informačních zdrojů souvisí
s agendou autorských práv, elektronickým obchodem, s nakladatelskou
praxí.
Propojení
mezi dokumenty může být statické i dynamické, na základě „base URL“ a
open URLҬ
Velká
pozornost se věnuje protokolům pro komunikaci a sdílení dat (např. Z39.50 a
Bath Profile).
Získávání, zpracování a zpřístupňování elektronických dokumentů je
třeba zabezpečit z právního hlediska na základě dohod
s vybranými vydavateli, zákona o povinném výtisku, formulace zásad
licenční politiky vzhledem k vlastníkům, producentům a distributorům
plných textů a bází dat. Harmonizace v oblasti autorského práva vzhledem
k doporučením EU je nutným předpokladem řešení celé problematiky.
2. Zpřístupňování
článků na Internetu a článková
bibliografie v České republice
Zpracování a zpřístupňování článků v České
republice je poměrně rozsáhlé co do zdrojů, které se zpracovávají,
tak co do typů institucí, které tuto činnost provozují.
2.1
Systém zpřístupňování článků na Internetu - některé instituce a projekty, metody, nástroje, které
souvisejí se zpřístupněním plných textů v ČR a zpracováním elektronických
dokumentů
·
Relativně velký rozvoj nastal
v posledních letech v nabídce českých novinových a časopiseckých
elektronických zdrojů (deníky, týdeníky aj. časopisy) s různou hloubkou
retrospektivity a s různou
možností přístupu jak co do formy (current contents, abstrakty, citace
v kombinaci s plnými texty aj.), tak způsobu (volné/placené, s registrací/bez
registrace, v rámci konzorcia aj.). Většina deníků provozuje souběžně s vydáváním klasické
tištěné podoby také zpravodajství na
Internetu.
·
Objevují se nakladatelské elektronické
zdroje (Sagis, Tigis, Muzikus, Portál).
Společnost Economia online umožňuje přístup k elektronické podobě titulů
vydavatelství Economia, a. s., s fulltextovým databázovým vyhledáváním v
systému Oracle. V letech 2001 - 2002 se Economia
online (EOL) stala lídrem na internetovém trhu s placeným obsahem a provozuje
ekonomicko zpravodajský portál iHNed.cz. Některé časopisy vydávané ústavy Akademie věd v ČR jsou vybaveny
plným textem, abstraktem nebo jsou zpřístupňovány v podobě current
contents. Nakladatelství Karolinum
(nakladatelství Univerzity Karlovy) vystavuje zatím current contents vědeckých
časopisů.
·
V České republice existují různé
informační agentury a instituce. Albertina icome Praha soukromá společnost zaměřená na
zpřístupnění profesionálních informačních zdrojů v elektronické formě a jejich
využití v praxi. AiP nabízí elektronické
tituly předních světových vydavatelství. Elektronické vydavatelství
spolupracuje na vydávání ČNB na CD-ROM. V oblasti médií působí dvě velké informační společnosti - Newton IT a Anopress IT. Společnost Newton
IT se zabývá monitoringem tištěných
českých a zahraničních médií, rozhlasových a televizních pořadů, zpřístupňuje elektronický
archív některých novin a časopisů. Mezi informační služby a produkty, které
nabízí Anopress IT patří on-line databanka novin a časopisů celostátních
a regionálních (TamTam), monitoring na zakázku, archívy zdrojů (od .r 1996),
databáze platných právních předpisů (zákony, předpisy, vyhlášky). Společnost
spolupracuje s NKČR v rámci projektu financovaných MKČR. Anopress je výhradním zpracovatelem
elektronické podoby většiny českých regionálních titulů (nakladatelství
Bohemia). Pro zpřístupnění plných textů ve veřejných knihovnách bylo založeno
v r. 2000 konzorcium pro přístup do databanky TamTam. Společnost je
výhradním zástupcem slovenské firmy SLOVAKIA
ONLINE v ČR, která zpracovává
elektronickou podobu slovenských tištěných médii. Kromě mediální části obsahuje
databanka TAMTAM i část vědomostní, v níž jsou k dispozici pro fulltextové
vyhledávání různé encyklopedie, příručky a další knihy referenčního charakteru.
Vyhledávací systém TOPIC, který
Anopress používá k monitoringu a analýze informačních zdrojů, je v
současnosti jediným interaktivním systémem na českém trhu. Anopress zpracovává
zatím cca 35 titulů, které odpovídají excerpční základně Kooperačního systému
článkové bibliografie. V září 2002
poskytlo MKČR dotaci pro multilicenční zpřístupnění databází TamTam a
ČTK v rámci VISK 8 na r. 2002. (Analogicky vyplývá: v budoucnu podobné
zpřístupnění báze ANL FULL a licence resp. multilicence pro přístup do báze
TamTam pro linku zpracování bibliografických záznamů z plných textů).
· Státní technická knihovna buduje Portál STM
- Elektronické informační zdroje STM.
Obsahuje terciální
databázi, A&I Databáze, elektronické informační zdroje na VŠ.
·
V Národní lékařské knihovně se katalogizují elektronická
periodika dostupná v rámci licencí. Některé záznamy elektronických
zahraničních časopisů byly předány do STK
v rámci projektu Portál STM a měly by být zahrnuty do terciální
databáze. Dále by měla být zahrnuta česká elektronická periodika online. Jde o
katalogizaci internetových domácích zdrojů z oblasti lékařství a
zdravotnictví.
·
WebArchiv
je produktem programového projektu
výzkumu a vývoje "Registrace, ochrana a zpřístupnění domácích
elektronických zdrojů v síti Internet". Jeho cílem je připravit podmínky
pro zpracování české národní
bibliografie elektronických zdrojů, se zaměřením zejména na zdroje dálkově
přístupné a zajistit dlouhodobé uchování domácích elektronických zdrojů.Do
češtiny byla přeložena nejnovější verze standardu Dublin Core a proběhla
lokalizace metadatového formuláře převzatého od Helsinské univerzitní knihovny
z projektu Nordic Metadata. V rámci popisu elektronických zdrojů NK se
zatím popisují vybrané servery „národní produkce“ (doména cz). Jednotná
informační brána zahrnuje projekty: Jednotná informační brána pro hybridní
knihovny, Portál STM, Jednotná informační brána
- provoz JIB, zpřístupnění zdrojů, Česko-slovenský virtuální katalog
Caslin. Projekt JIB umožňuje základní prohledávání informačních zdrojů, jejich
tematický výběr, stahování záznamů. Zdroje jsou volně přístupné a licencované. SFX
je standard pro propojení dokumentů a je využíván v Metalib
k vytváření vazeb. Komunikace v Metalib je na základě protokolu Z39.50
nebo HTTP. Báze ANL a ANAL (Olomouc) je zpřístupněna v JIB jako zdroj. Báze ANL
FULL a články krajské knihovny v Liberci zpřístupněny v JIB jako odkaz.
V řešení jsou připojení dalších institucí a zdrojů. Metoda konspektu
jako nástroj popisu fondů má přispět k realizaci této brány. Základem metody
základem je popis dle věcného třídění na několika úrovních. První obsahuje 24
tematických skupin, druhá 500 skupin konspektu,
které se dále člení na 4 000 témat. Konspekt má vazbu na MDT
(konkordance mezi MDT a DDC). V Metalibu je statický způsob propojení nahrazován dynamickým propojováním založeném
na open URL.
·
Aktivity v
oblasti automatizovaného zpracování textu - automatické či poloautomatické
indexace je možno najít již v bývalém
Československu. Parlamentní knihovna
Kanceláře Poslanecké sněmovny Parlamentu ČR (KPS PČR) od r. 2000
indexuje v testovacím provozu sněmovní tisky, od 4. volebního období
(červen 2002) přešla indexace sněmovních tisků do rutinního provozu.
V rámci indexace sněmovních tisků byla implementována automatická indexace
založená na automatické extrakci slov a sousloví z textu dokumentu za
podpory lematizátoru, frekvenční analýzy, rozpoznávání víceslovných výrazů,
negativního slovníku a komparace slov z textu s lexikálními
jednotkami tezauru EUROVOC. Výsledkem je frekvenčně uspořádaný seznam
deskriptorů, který je určen pro další intelektuální zpracování. Moderní
vyhledávací metody se zkoumají v rámci projektu Inteligentní vyhledávání v
dokumentografických informačních systémech (Matematicko fyzikální fakulta
Univerzity Karlovy ve spolupráci s KPS PČR).
2. 2 Vývoj článkové bibliografie v České
republice - r. 1953-2002
·
Článková bibliografie v tradičních
podmínkách - 50.-80. léta (měsíční tištěné sešity, VPK, MDT, rejstříky,
retrospektiva 1945-52).
·
Příprava automatizovaného zpracování
článkové bibliografie - 80. léta (ASNBČ,
Výměnný formát pro bibliografický (dokumentační) a katalogizační záznam, MAKS a
postupně v následujících letech prováděcí projekty pro jednotlivé typy
dokumentů včetně článků).
·
Poslední tištěné číslo - r. 1990, r.
1991 převeden z lístkových záznamů do počítačové formy.
·
Návod pro tvorbu a využívání báze
záznamů dokumentů, specifikace údajů a
pravidla pro analytický popis - r. 1991-1992.
·
Kooperační systém článkové bibliografie
- r. 1992-2002 (r. 1992 - ověřovací
provoz, od r. 1993 plný provoz, báze
ANAL, později ANL, v r. 1997 projekt Zpřístupnění výsledků analytického
zpracování prostřednictvím Internetu (NKČR, RISK) řeší zejména konverzi VF
UNIMARC, koordinace, standardizace a metodika - postupně VF a ISIS, ISBD/CP, AACR2R,
UNIMARC a různé knihovnické SW, vybrané znaky MDT a MDT/MRF, klíčová slova,
předmětová hesla, předmětové kategorie, od r. 2000 zpracování bibliografických záznamů z plných textů v
NKČR a moderní metody zpřístupnění - DC, XHTML, XML v rámci projektů VaV
řešených v NKČR a financovaných MKČR, za spolupráce s firmou Anopress
vzniká plnotextová báze ANL FULL).
·
V rámci Kooperačního systému
článkové bibliografie (KOSABI) spolupracují v současné
době tyto knihovny: Národní knihovna České republiky (NKČR), Moravská
zemská knihovna v Brně (MZK), zatím 8 krajských knihoven – bývalých
státních vědeckých knihoven (perspektivně se počítá se začleněním dalších čtyř
nově konstituovaných krajských knihoven), Státní technická knihovna (STK,)
Státní pedagogická knihovna Komenského - Ústav pro informace ve vzděláváni
(SPKK-ÚIV), Ústav zemědělských a potravinářských informací (ÚZPI). Kooperace
probíhá po linii regionální a oborové. NKČR zpracovává články tzv. celostátních
titulů, regionální knihovny zpracovávají tituly vycházející na území
příslušného regionu, odborné knihovny zpracovávají tituly z hlediska své
odborné gesce. Je možno hovořit o KOSABI v užším (NKČR, MZK, krajské
knihovny) a širším (odborné instituce) slova smyslu. Součástí KOSABI
v širším slova smyslu je také zpracování článků z oblasti lékařství a
zdravotnictví v Národní lékařské knihovně.
·
Kromě KOSABI existuje v ČR fungující
systém na úrovni městských (okresních). knihoven - LANius a jeho produkt SKAT - Souborný katalog článků. Jeho vyšší
verzí je systém Clavius. Systém umožňuje sdílenou katalogizaci. Mezi LANiem a
NK pravděpodobně proběhnou v budoucnu kednání o možné kooperaco týkající
se excerpce titulů a omezení duplicit při zpracování. Export do báze ANL je
v zásadě možný.
3. Produkty ČNB, smluvní a legislativní zajištění národní
bibliografie, organizační zajištění
V ČR existují dva hlavní produkty článkové bibliografie v rámci České
národní bibliografie: báze BMC (vznikající v Národní lékařské knihovně) obsahuje
české a slovenské časopisy z lékařských oborů (od r. 2001 jen česko-slovenské časopisy
vydávané tiskovým střediskem České lékařské společnosti). Kromě knih jsou
všechny dokumenty zpracovány na analytické úrovni. Databáze též zachycuje
bohemika a slovacika. Komplexní databáze
vychází na CD-ROM "Bibliomedica" (vyhledávací SW Tornádo, vydávaná
Národní lékařkou knihovnu ve spolupráci s AIP Beroun). Novinkou databáze
je citační rejstřík, ukazující citovanost autorů v různých zdrojích.
Báze
ANL vzniká v rámci Kooperačního systému článkové bibliografie
(KOSABI). Je vydávána jako řada České
národní bibliografie Články v českých novinách , časopisech a sbornících (vyhledávací SW Tornádo, vydávaná Národní
knihovna České republiky ve spolupráci s AIP
Beroun). Dostupná je též internetová verze. V současné době zhruba třetina
běžného přírůstku metadat resp.
bibliografických záznamů báze ANL tvoří metadata báze ANL FULL, která vznikají
v rámci linky automatické extrakce v NKČR. Báze ANL je propojena s plnými
texty báze ANL FULL. Báze ANL
obsahuje též hypertextová propojení na volně přístupné plné texty na
Internetu.Vydání ANL na CD-ROM resp. DVD
a měsíční aktualizace obsahují zatím pouze propojení na volně přístupné plné
texty.
KOSABI
je právně ošetřen pouze Smlouvou o sdružení pro Českou
národní bibliografii ( z r. 1998) a
Dodatkem č. 3 ( z r. 2001), který zajišťuje pokračování článkové
bibliografie v přechodném období související se změnou státoprávního uspořádání
ČR. Přebírání a předávání titulů ke zpracování od bývalých státních vědeckých
knihoven v podmínkách nového uspořádání krajů musí být plynulé a koordinováno
tak, aby konvenovalo podmínkám jak technickým, tak personálním v nově
konstituovaných krajských bývalých okresních knihovnách. S odbornými
knihovnami spolupracujícími v KOSABI jsou každoročně uzavírány separátní
smlouvy. Zákon ze dne 19. června 2001
o knihovnách a podmínkách provozování veřejných knihovnických a informačních
služeb stanoví úlohu a povinnosti jednotlivých typů knihoven v rámci systému
knihoven ČR. Krajské knihovny spolupracují s NKČR při zpracování národní
bibliografie a souborného katalogu, koordinují plnění regionálních funkcí
základních knihoven v kraji, zajišťují zprostředkování vnějších informačních zdrojů
zejména informací ze státní správy a samosprávy.Specializovaná knihovna je
součástí systému knihoven a spolupracuje s Národní knihovnou při zpracování
národní bibliografie a při zpracování souborného katalogu. Organizační,
metodické a standardizační otázky se
řeší kromě Pracovní skupiny pro
analytické zpracování na pravidelných poradách SDRUK - Sekce pro bibliografii a poradách pracovníků bibliografických a
rešeršních oddělení vědeckých, technických a specializovaných knihoven
v STK.
4. Projekty řešené v Národní knihovně České republiky v současné
době
V současnosti
se v NKČR řeší kromě jiných dva projekty
- výzkumný záměr Propojení
analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů
(VaV, MKČR, 1999-2003), programový projekt Souborná databáze Kooperačního
systému článkové bibliografie - optimalizace integrace a správy heterogenních
dat (VaV, MKČR, 2000-2004) - které se zabývají moderními metodami zpracování a zpřístupňování bibliografických
informací o článcích s vazbou na plné texty.
4.1 Propojení analytických záznamů s plnými texty a optimalizace
zpřístupnění plných textů
Anotace (zadání)
Cílem
výzkumného záměru je optimalizace přístupu uživatelů k plným textům
dokumentů domácí provenience (nikoli zahraniční). Základem je propojení analytických záznamů o článcích s plnými texty, které
jsou dostupné na Internetu a/nebo CD-ROM. Okamžitě bude k dispozici účinný
rešerší nástroj – analytické záznamy zpracované v Kooperačním systému
české článkové bibliografie, které jsou součástí České národní bibliografie.
Jejich postupné propojení s plnými texty ústředních i regionálních
periodik výrazně zvýší uživatelský
komfort při jejich využití.
Plnění
V rámci projektu v r. 1999 proběhlo
v NK výběrové řízení a byla
vypracována výzva k podání nabídky pro společnost Anopress. Během řešení
projektu byla vyvinuta iniciativa k
vytvoření konzorcia Anopress pro přístup do plnotextové databáze TamTam,
která byla podepsána mezi SKIP a Anopressem v r. 2000. Periodikum Národní
knihovna bylo v Anopressu převedeno do digitální formy a zpřístupněno na
Internetu v Anopressu a bázi ANL
FULL. Kromě toho se vyvíjí v NKČR
samostatná aplikace pro zpřístupnění periodika v html a pdf. Tato aplikace bude
propojena přes www rozhraní s bází ANL
FULL.
Projekt
je analyticko koncepční a připravuje půdu pro praktickou realizaci programového
projektu.Koncepce má flexibilní charakter, reflektuje vývoj v oblasti
zpřístupnění plných textů a pohybuje se zhruba v mantinelech uvedených
v bodě 1. V rámci projektu byla vypracována základní koncepce zpracování bibliografických záznamů plných textů v lince automatické
indexace/extrakce (TTDE – TamTam Data
Extractor) a zpřístupnění plných textů v bázi ANL FULL a koncepce týkající se optimalizace integrace a správy heterogenních dat v rámci
KOSABI v systému Oracle (prakticky popsáno v bodu 4.2).
V rámci
záměru byla částečně vypracována Metodika
popisu článků ve formátu UNIMARC, která vycházejí především ze struktury
ISBD (CP) a v příslušných oblastech aplikují AACR2R. Tento trend je patrný
i v současnosti, kdy se harmonizují
AACR2R s ISBD. Dosavadní verzi pravidel bude nutno v budoucnu
ošetřit více vzhledem k ISBD(ER) a revidovanému standardu ISBD pro seriály
International Standard Bibliographic Description for Serial and other Continuing Resources – ISBD(CR). Vzhledem k vlastnostem
elektronických dokumentů vzniká nová kategorie pokračujících zdrojů, která zahrnuje integrující zdroje (aktualizace zdrojů, které nemohou být
samostatné) - publikace na volných listech, webovská sídla aj. a seriály - časopisy, magazíny,
elektronické časopisy, pokračující adresáře, roční zprávy, noviny, monografické
edice. Do kategorie pokračujících zdrojů patří též ukončené pokračující zdroje
vycházející po částech, číslované a periodické, ale jejich trvání je
ohraničeno, dále pak reprinty seriálů a ukončené integrující zdroje. V budoucnu bude třeba reflektovat při
popisu FRBR - Functional
Requirements for Bibliographic Records, což umožní integraci elektronických
dokumentů s tradičními.
Velmi
významná je studie Současný stav a trendy automatické indexace
dokumentů, ze které vyplývá
potvrzení hypotézy a současného trendu v této oblasti “ směřující
k vývoji vyhledávacích metod, které budou za pomoci technologií umělé
inteligence pracovat přímo s plným textem a k automatické indexaci (rozuměj
indexaci přiřazováním - pozn. I.A.) v původním slova smyslu nebude vůbec
docházet; dojde k posunu od systémů založených na externí bázi pojmů či
znalostí (knowledge-based systems)
k systémům založených přímo na zpracování plného textu dokumentů (text-based systems) …Při dostupnosti
plných textů dokumentů se dnes již spíše používá některé z pokročilých
vyhledávacích metod, jejichž vývoj a implementace je obdobně technicky i
finančně náročný jako u automatické indexace, ale v řadě případů přináší
adekvátnější výsledky.“ Vývoj projektu v následujících letech se bude tedy
patrně orientovat spíše na automatickou extrakci a využití inteligentního
vyhledávání systému TOPIC, dále pak
na skloubení pojmového
vyhledávání s intelektuální indexací věcnou a zabudování věcných termínů
přímo do topiků (tj. pojmů, strukturovaných dotazů v rámci systému TOPIC -
viz bod 4.2), než na automatické přiřazování věcných termínů. Analýza automatické indexace potvrdila
nutnost intelektuální indexace věcné, která je stále kvalitnější než
automatické přiřazování termínů. V r. 2002 byla provedena analýza selekční
úplnosti topiků v bázi ANL FULL (která je přibližně 80 %) a byly vyvozeny praktické závěry pro
zkvalitnění funkce topiků (ladění a interaktivní předmětové zpracování a využití topiků). V r. 2002 byla navržena
a částečně vyvinuta internetová verze linky poloautomatické indexace (TTDE -
Tamtam Data Extractor).
4.2 Projekt Souborná databáze Kooperačního systému článkové
bibliografie - optimalizace integrace a správy heterogenních dat a jeho vliv na
KOSABI
Anotace (zadání)
Náplní
projektu je optimalizace integrace a správy heterogenních dat souborné databáze
Kooperačního systému článkové
bibliografie. Bibliografické záznamy článků, publikovaných v českém periodickém
tisku a zpracovávané spolupracujícími knihovnami, budou postupně propojované s
elektronickou podobou článku a takto prezentované na Internetu. Obě části
souborné databáze - vznikající databáze
plných textů a báze bibliografických záznamů ve formátu UNIMARC - vyžadují permanentní kvalitní SW a HW
podporu. Budování, doplňování, správu a údržbu plnotextové databáze
s možností vyhledávání zajistí informační agentura ANOPRESS (systém
TOPIC). Zároveň půjde o vývoj manažerského systému pro příjem a správu dat
kooperačního systému. Hlavním cílem
projektu je zkvalitnění bibliograficko-informačních služeb.
Plnění
Kooperační
systém článkové bibliografie prochází v současnosti transformací
po stránce technologické, standardizační, koncepční i organizační. Hledají se
metody optimalizace propojení analytických bibliografických záznamů
s plnými texty, integrace a správy heterogenních dat za současného plného
provozu KOSABI při zachování objemu zpracovávaných dokumentů s ohledem na
nejnovější trendy v oblasti získávání, zpracovávání a zpřístupňování
elektronických dokumentů.
KOSABI a použité technologie
V krajských
knihovnách v Kladně a Liberci se články popisují v systému RAPID, v MZK v
Brně v ALEPH, v Olomouci též. V Ostravě, v Českých Budějovicích a Ústí nad
Labem v systému T-Series. V Hradci
Králové, ÚZPI, STK, SPKK-ÚIV přetrvává ISIS. V krajské knihovně
v Plzni se články zpracovávají v systému KIMS. V nově konstituovaných
rajských knihovnách v Pardubicích a Zlíně se používá KP-Sys,
v Karlových Varech a Havlíčkově Brodě systém LANIUS, resp. Clavius. Postupně se ladí metodika ukládání v
nových systémech a řeší se otázky převoditelnosti do báze ANL a UNIMARCu.
Tato činnost je poměrně náročná v detailech a je založena na úzké spolupráci s příslušnými knihovnami.
Plnohodnotné předávání záznamů do národní článkové bibliografie u knihoven
vlastnících Tinlib závisí na dotažení konverzního programu Tinlib – UNIMARC (je-li možné). Knihovny
pracující v ALEPHu spolupracují dobře. U knihoven pracujících v KP-sysu je
třeba dopracovat převod do UNIMARCu. Knihovny pracující v Rapidu spolupracují
též bez problémů. Krajská knihovna v Plzni přešla na zpracování v KIMSu a
v r. 2002 záznamy nedodávala. S nově jmenovanými a konstituovanými
krajskými knihovnami v Pardubicích, Havlíčkově Brodě, Zlíně a Karlových
Varech byla navázána dobrá spolupráce. Ladí se převod záznamů do UNIMARCu i
metodika a zvažují možnosti zpracování některých titulů. NKČR používá při
zpracování a zpřístupnění bibliografických záznamů z plných textů
technologie vyvíjené v rámci projektu VaV.
Standardizace
Data
jsou zpracovávána ve nebo konvertována
do formátu UNIMARC, respektují se pravidla popisu AACR2 s respektováním
mezinárodních standardů věcného popisu - MDT-MRF pro oblast systematické
indexace. V oblasti verbální věcné indexace se kombinují klíčová slova,
předmětové kategorie a předmětová hesla. Vyváženost vazby mezi jednotlivými
vrstvami popisu je klíčovým momentem. Většina knihoven vybavuje záznamy
předmětovými kategoriemi, které jsou jednotícím prvkem souborné databáze.
Oddělení analytického zpracování přistupuje k intenzivnějšímu využívání souborů
autorit v NK, korekturám báze ANL a připravuje podklady pro soubory jmenných a věcných autorit.
K záznamům se zatím nepřidělují skupiny konspektu. Záznamy respektují
metodický materiál Záznam pro soubornou databázi : UNIMARC a
Záznam pro soubornou databázi : Výměnný formát. Dle možností je aktualizována pracovní verze příručky pro zpracování článků v UNIMARCu - Metodika
popisu článků ve formátu UNIMARC a vystavena na Internetu s názornými příklady.
Pořadí kategorií, předmětových hesel odpovídá pořadí MDT. MDT vztahující
se k osobám a formě článku se uvádí na konec věcného popisu (osoby,
forma). Kategorie: obecné
zařazení tématiky dokumentu pod obecné hlavní téma (615a) a zpřesnění (615x). Předmětové
heslo: vystihuje hlavní téma dokumentu. Klíčová slova:
variantní selekční termíny k předmětovým heslům uvádíme zatím z důvodů
postupného propojování báze ANL na soubory autorit, v současné době se
eliminují - s postupným provázání věcného popisu na autority i s ohledem ke
zpřístupnění plných textů v bázi ANL
prostřednictvím báze ANL FULL. Ve většině kooperujících institucí
se používá kombinace těchto tří prvků věcného popisu v různé míře. Předmětová
hesla se aplikují pro osoby, korporace,
typ dokumentu, geografické téma. Předmětová hesla tematická (pole 606 UNIMARC)
se užívají zejména v NK, ve většině knihoven se praktikují klíčová slova (pole
610 UNIMARC). Vazba na autority se objevuje ve větší míře v NK a v krajské knihovně v Kladně. Je
třeba důsledněji používat pole 660 Geografický kód. Předmětové kategorie
v rámci ANL (ANL FULL) je nutno důkladně zrevidovat. Domníváme se, že možno je používat paralelně se skupinami
konspektu. Předpokládá se , že je bude
možno zabudovat do topiků v rámci báze ANL FULL spolu s předmětovými hesly (viz dále). V rámci
linky automatické indexace/extrakce se používá 14 prvků Dublin Core a 14 prvků
ANL Core, které jsou zároveň generovány v UNIMARCu formátech HTML, XHTML, XML.. O definici
topiků viz dále.
Excerpční (titulová)
základna
V KOSABI se
popisují periodika ze všech oborů, okrajově se popisuje oblast lékařství a
zdravotnictví.
V
rámci kooperačního systému byla stanovena pravidla pro výběr titulů k popisu (na základě územní gesce - tituly regionální a celostátní provenience a dále
pak na základě odborného zaměření). V rámci KOSABI jsou stanoveny zásady
výběru článků co do úplnosti i co typů.
Zpracovávané
typy titulů a výběr článků z hlediska úplnosti: jsou zpracovávány články a statě české
novinové, časopisecké a periodické sborníkové produkce (sborníky vysokých škol,
uzeí, archivů, materiály z konferencí, ročenky, odborné i polytematické
časopisy, kulturně-politické časopisy a populárně-naučné časopisy).
A: Seriály vydávané
AVČR a vysokými školami v ČR (časopisy, sborníky, ročenky)
B: Seriály (časopisy, sborníky, ročenky) vydávané ostatními institucemi v ČR
C: Noviny (ústřední i regionální) a kulturně-polické časopisy
D: Populárně-naučné časopisy
1=excerpce je
prováděna v úplnosti (100-80% počtu článků)
2=excerpce je
prováděna částečně (80-25% počtu článků)
3=excerpce je prováděna výběrově (25%- počtu článků)
A: 1
B: 1 (sborníky ročenky), 1-2 (odborné časopisy)
C: 2,3
D: 3
Báze ANL
- obsahuje kategorie A-D, báze ANL
FULL zatím kategorie C, z kategorie B periodikum Národní knihovna (též
samostatná aplikace ve formátech HTML, PDF).
Typy
článků: faktograficky přínosné články, články
odborné, články s dokumentární a uměleckou hodnotou, oficiální dokumenty
(projevy, vyhlášení, komuniké, usnesení), zprávy a informace o kulturních,
sportovních, politických, vědeckých aj. akcích (konferencích, seminářích,
festivalech, jednáních, zasedáních, výstavách, divadelních, rozhlasových a
televizních inscenacích, besedách, sportovních soutěžích), souhrnné a hodnotící
články, závažné polemiky, diskuze a komentáře. Dále jsou zachyceny reportáže,
biografické články (životopisné, jubilejní, nekrology, rozhovory, profily
osobností, vzpomínky), literární texty (básně, povídky aj. ještě nepublikované,
nové překlady), fejetony, sloupky, úvodníky (pouze hodnotné), recenze publikací
různého zaměření, gramofonových desek, kompaktních desek, filmů apod. Obě báze
jsou výběrové.
Počet záznamů
k 15.1.2003: ANL přes cca 750 600 bibliografických záznamů, ANL FULL přes cca 100 000 plných textů s metadaty. Počet zpracovávaných titulů: ANL -
cca 212 v NKČR, 217 v regionech, 108 v odborných knihovnách, celkem cca 537
titulů; časové pokrytí - ANL 190/91 -, ANL FULL 1997- . V lince automatické
indexace/extrakce jsou pravidelně zpracovávány a importovány plné texty do ANL FULL a bibliografické záznamy článků
do ANL z 16 titulů, v bázi ANL jsou naopak propojovány záznamy
s plnými texty z 13 zdrojů.
Záznamy
NKČR tvoří 79,5 procent báze ANL.
Záznamy regionů tvoří 14,1 procent. Záznamy specializovaných knihoven
tvoří 6,4 procent.
4.3 Aplikace moderní
technologie zpracování a zpřístupnění bibliografických informací
4.3.1 Architektura systému zpracování zpřístupňování plných textů. Linka
automatické indexace/extrakce a báze ANL FULL v systému TOPIC
Současným výsledkem řešení projektu je
poloprovoz linky pro získávání
a zpracování bibliografických záznamů z plných textů (TTDE) s
následným importem záznamů do báze ANL s propojením na plný text v bázi ANL
FULL a paralelním importem plných textů s metadaty UNIMARC a DC do báze ANL FULL a jejich zpřístupnění v
systému TOPIC včetně automaticky generovaných formátů HTML, XHTML, XML v
kvalifikované i nekvalifikované formě. Velká pozornost je věnována definici
báze ANL FULL v systému TOPIC,
zejména vyhledávání (prostý
dotaz, formulářový dotaz, topiky, rejstříky).
Je nainstalován formulář pro registraci uživatelů. Plné texty
článků deníků a některých časopisů jsou průběžně stahovány z databáze TamTam
(Anopress), zpracovávány v lince zpracování bibliografických záznamů z plných
textů a zpřístupňovány v bázi ANL a ANL FULL. Plné texty s metadaty jsou
zpřístupňovány v několika uživatelských formátech, v několika
formátech lze exportovat metadata a plné texty. Plné texty a metadata jsou
běžně přístupné zatím pouze v NKČR, zkušebně je možné plné texty získat po
registraci a přihlášení pro externí uživatele na 7 dnů. Společnost Anopress
souhlasí se zpřístupněním báze ANL FULL
v rámci konsorcia knihoven pro přístup do báze TamTam v rámci
VISK 8 na podzim roku 2003. Jak bude nutné zpřístupnění báze v rámci konsorcia
ještě v některých případech doladit po stránce smluvní (vydavatelé) ukáže
budoucnost. Není vylučena určitá forma reciprocity. Zpřístupnění externím
uživatelům bude vyžadovat řešení v této oblasti zcela jistě. Na serveru
full.nkp.cz je také funkční portál pro zpřístupnění volně dostupných
textů na Internetu ve struktuře tematické a regionální s popisem zdrojů. V
projektu se dále řeší aplikace pro správu a údržbu KOSABI,
která vychází z aplikací vyvinutých v rámci SK CASLIN (přijímání záznamů, konverze, úpravy a
kontrola záznamů).
Architektura systému zpracování (linka automatické
indexace/extrakce) a zpřístupňování plných textů v systému TOPIC (v
současné době Portal One)
·
On-line získávání dokumentů z databáze TamTam přes vstupní filtr pro linku zpracování - aplikace TT Special NK (TTSNK),
textové dokumenty vstupují do linky se strukturovanou hlavičkou, kde jsou
dohodnutými znaky a návěštími označeny příslušné údaje (v budoucnu možná další
úprava vstupních filtrů podle charakteru získávaných dokumentů z jiných
zdrojů).
·
Zpracování plných textů (extrakce dat z hlavičky dokumentu
do formuláře pro editaci a příslušných formátů, doplnění údajů věcného popisu
katalogizátorem a generování pěti
hlaviček - Dublin Core včetně URL, SICI
v HTML, UNIMARC a UNIMARC-A, zobrazovací a indexovaní hlavička,
výstup v ANSEL, UNICODE, UNICODE-UTF 8) - aplikace TTDE (TamTam Data Extractor)
zatím na lokálních pracovních stanicích. Import metadat/bibliografických
záznamů s URL na plný text do báze ANL (ALEPH) a metadat a plných textů do
báze ANL FULL v HTML (TOPIC - Portal ONE).
·
Konverze a generování dat
XHTML+-, XML+-, indexace, uložení a
vyhledání informací (vyhledávání
pomocí textu dotazu, formulářů, topiců, rejstříků) - aplikační a datový server: Portal One SE - fulltextový vyhledávací
systém, server Dell PoweEdge 6300 (1 GB RAM, 68 GB, Pentium III).
·
Zobrazení a zpřístupnění informací - Internet Information Server Win 2000 - komunikace v síti,
zobrazování dat a metadat v uživatelských formátech (citace bez/s odkazy,
výsledky jednoduché, se souhrnem, seskupené) a pracovních formátech (klíčová
slova, DC v HTML, XHTML+ -, XML+ -), tisk. Obecné základní informace, nápovědy,
autorizace, statistika zobrazených informací přes Internet aj.
·
Export dat v různých formátech
(text, HTML, XML, RTF).
·
Administrace báze (opravy a aktualizace metadat a rejstříků,
portálu volných www periodik), statistiky přístupů .
4.3.2 Systém TOPIC, a pojmové vyhledávání. Báze ANL FULL
v systému TOPIC
TOPIC (pojmově orientovaný vyhledávací systém, concept based
retrieval) je systém
třetí generace založený na následujících
principech: rozklad pojmu na podpojmy, vážení jednotlivých
podpojmů (větví pojmového stromu), neostré vyhodnocování dotazů. Kromě jiného
lze v něm vyhledávat podle tzv. topiků (pojmů), což jsou předem
strukturované dotazy určené k vyhledávání v plných textech.
Dotaz
v systému třetí generace reprezentuje pojem, resp. ideu vyhledávaného tématu. Jádrem
dotazu je stromová hierarchická struktura, která rozkládá hledané téma na
podtémata a přiřazuje jednotlivým částem váhy, které vyjadřují, do jaké míry
příslušné téma přispívá k celkovému určení tématu. Systém dále vypočítá míru
relevance vyhledaných dokumentů. Oproti běžně používaným operátorům TOPIC
používá fuzzy operátor ACCRUE se specifickými vlastnostmi. Tento
operátor sbližuje operátory and a or. Každý topik obsahuje tedy tři základní
charakteristiky - strukturu, váhy a operátory (viz dále).
Fulltextové vyhledávání pomocí
topiců se vyznačuje úplností, značnou přesností a vysokou mírou přizpůsobivosti
individuálním potřebám uživatelů.
Úplnost (recall) znamená, že systém zachytí prakticky všechny dokumenty,
které se v té či oné míře týkají daného tématu. Přesnost (precision) vyhledávání
souvisí s hodnotou skóre: platí, že text, který obsahuje větší počet slovních kombinací typických pro určité téma,
se k tomuto tématu váže.
Soubor vytvořených topiců tvoří tzv. znalostní bázi. Pomocí
široké škály operátorů lze stanovit způsob vyhodnocování důležitosti dokumentů
vzhledem k dotazu. Toto číslo se nazývá relevance a nabývá hodnot 0,001 až
1.00. Dále systém umožňuje shlukovat (clustering) vyhledané dokumenty podle možného společného kontextu. Shlukování
je založeno na statistické analýze obsahu prováděné při jeho indexaci. Pro každý
dokument je vybrána řada slov (významový vektor), která s určitou
pravděpodobností vystihuje obsah dokumentu, a na základě něj se vytváří
automatická anotace v podobě nejvýznamnějších vět z dokumentu (summary).
Báze ANL FULL v
systému TOPIC. Jak se zaregistrovat. Jak vyhledávat. Výsledky vyhledávání a
zobrazení, výstupy
Jak se zaregistrovat
Externí uživatelé se mohou zatím
zaregistrovat pomocí formuláře v nabídce Registrace na dobu 7 dnů. Po vyplnění
jména a hesla ve formuláři přihlášení lze vyhledávat v plných textech.
Jak vyhledávat. Druhy dotazů v databázi ANL
FULL a systému TOPIC
Báze
ANL FULL obsahuje jak bibliografický
popis (metadata) v různé míře podrobnosti podle vývoje systému,
tak plný text, přičemž obě tyto části
jsou indexovány a lze z nich paralelně vyhledávat a docílit tím větší míru
relevance výsledku vyhledávání
k položenému dotazu. Systém umožňuje velmi sofistikované kladení
dotazů vyžadující určitou zkušenost. Na druhé straně je možné položit dotaz
velmi jednoduchým způsobem. Systém umožňuje tři způsoby hledání: vyhledávání
(searching) pomocí formulářů (základní, rozšířený, rozšířený s tématy) a
pole dotaz, pomocí topiců - předem strukturovaných dotazů v rámci rozšířeného
formuláře, prohlížení (browsing) rejstříků.
Prostý dotaz obsahuje
slova nebo fráze oddělené čárkami nebo logickými spojkami, formulace mohou
obsahovat různé konvence. Při vyhledávání se všechna slova skloňují a mají stejnou váhu. Formulářový dotaz obsahuje kromě možnosti pro zadání
hledaného slova nebo fráze jako u prostého dotazu i pole pro zadání podmínek
pro jednotlivé položky strukturované části textové databáze. Jde o rozšíření
prostého dotazu. Tematický dotaz, resp. topic - definuje
jednotlivá témata. Jsou rozdělena do tří úrovní. Témata jsou uspořádána do 8
oblastí, ty se dělí do 25 tematických skupin a skupiny obsahují zatím 114
detailních témat. Je nadefinováno 17
rejstříků.
Výsledky vyhledávání, zobrazení výsledků.Způsoby zobrazení seznamu výsledků (názvů vyhledaných
článků)
V záhlaví seznamu výsledků je uveden počet vyhledaných článků. Počet
vyhledaných dokumentů na stránku je dán volbou v poli Výsl./str.
V závislosti na této volbě se potom zobrazuje počet stran s možností
listování.
U jednotlivých článků zobrazeny vždy, resp. standardně (zleva): tři formáty pro zobrazení údajů o
článku, skóre relevance, datum vydání, název článku, velikost plného textu: jednoduchý
(standardní zobrazení), se souhrnem
(standardní zobrazení plus souhrn), seskupený (standardní
zobrazení plus články uspořádané do skupin podle shody v klíčových slovech podle
společného kontextu, clustering).
Třídění
seznamu výsledků (názvů vyhledaných článků)
Třídění: dle
skóre (relevance), dle názvu,
zdroje, data (vydání), stran, a to sestupně nebo vzestupně.
Zobrazení údajů o článku - formáty zobrazení
Uživatelské formáty
Citace článku, souhrn - bibliografické údaje o článku, resp. metadata s
odkazy pro další hledání.
Citace článku, plný text - bibliografické údaje o článků, resp. metadata s
odkazy pro další hledání a plný text článku.
DC/HTML –
Dubline Core Metadata.
Název článku hypertextově aktivní – zobrazení citace a plného textu bez odkazů .
Pracovní formáty
V záhlaví plného textu jsou navíc různé pracovní
formáty - klíčová slova, UNIMARC, Dublin Core – formát pro
zpřístupňování elektronických dokumentů a jeho aplikace, které obsahují metadata
(DC/HTML/META, DC/XHTML kvalifikovaný a nekvalifikovaný,
DC/XML kvalifikovaný a nekvalifikovaný). Jsou určeny pro budoucí
vývoj systému a zpřístupnění plných textů.
Export a tisk
článků
Plné texty lze exportovat a
ukládat na počítač uživatele v různých formátech (text, HTML, XML, RTF).
4.3.3 Periodika na WWW - strukturovaný portál na serveru full.nkp.cz
Portál
obsahuje volně přístupná periodika na
Internetu a dále se bude doplňovat,
event. jejich uspořádání měnit. Nejsou zde zahrnuta periodika firemní,
inzertní, bulvární, propagující hnutí potlačující lidská práva, sportovní,
zpravodajská (zprávy z tiskových agentur bez dalšího kontextu) aj. periodika
efemérní povahy.Takto zpřístupněná volně dostupná periodika jsou strukturována do
přehledné formy portálu na úrovni krajské, tématické a institucionální.
4.3.4 Management Kooperačního systému článkové
bibliografie (aplikace MNG KOSABI)
Na základě zadání pro řízení a
správu kooperačního systému a za využití již vyvinutých řešení v rámci
Souborného katalogu CASLIN probíhají práce na vývoji aplikace pro KOSABI na
serveru ANL (systém LINUX a ORACLE). Ve stádiu ladění je aplikace pro příjem a automatizované
zpracování dat (příjímání analytických záznamů,
integrace stávajících programů pro konverzi analytických záznamů,
globální úpravy analytických záznamů, vývoj programů na formálně logické
kontroly kooperujících knihoven - test na UNIMARC pro analytické záznamy.
Je vyvinut základ aplikace pro evidenci zpracovávaných titulů a test na
duplicitu záznamů (klíčů) mimo ALEPH. V zásadě funkční je aplikace pro
evidenci excerpční základny KOSABI.
Popsaná
linka zpracování je použitelná po úpravě
vstupním filtrem i na data existující v
jiné databázi, event. v komunikaci mezi autorem, nakladatelstvím, bibliografickou
agenturou, knihovnou/informační institucí a naopak.
Předpokládá však do jisté úrovně strukturovaný
vstupní text, ze kterého data mohou být extrahována.
1)
Pro
identifikaci článků ve struktuře textu pro další zpracování v lince jsou
důležité následující údaje z možných 15 prvků DC:
Název (Title)
Tvůrce (Creator)
Zdroj / Vztah
(Source/Relation) - tj. název zdroje, roč., číslo, datum, strany
Nakladatel (Publisher)
Předmět (Subject) - klíčová slova nebo hesla nebo výrazy
tezauru
Popis (Description) ve formě abstraktu
Práva (Rights)
Identifikátor (Identifier)
2) Pro konverzi či
zápis údajů obsažených v hlavičce textu dokumentu je možno použít schéma
definované na základě pokynů pro přispěvatele do časopisů (v běžném editoru),
je možno použít i speciálních maker.
#NAZ#Název článku#/NAZ#
#ATR#Hlavní autor#/ATR#
#AT2#Další autor#/AT2#
#ZDR#Název zdroje#/ZDR#
#ROC#Ročník#/ROC#
#CIS#Číslo#/CIS#
#DAT#Datum vydání zdroje#/DAT#
#STR#Počáteční strana#/STR#
#VYD#Vydavatel#/VYD#
#KEY#klíčové slovo, klíčové slovo#/KEY#
#SUM#Abstrakt#/SUM#
#COP#Práva#/COP#
#ISN#ISSN#/ISN#
#IDE#Identifikační číslo#/IDE#
3) Zobrazení metadat po konverzi do DC v lince
zpracování
<META name="DC.Title"
content="Název">
<META name="DC.Creator.personalName"
content="Hlavní autor">
<META name="DC.Contributor.personalName"
content="Další autor">
<META name="DC.Source" content="Název
zdroje, roč. X , č. X (datum), s. X">
<META name="DC.Publisher"
content="Vydavatel">
<META name="DC.Date.issued"
scheme="W3C-DTF" content="Datum vydání">
<META name="DC.Subject" content="klíčové
slovo">
<META name="DC.Subject" content="klíčové
slovo">
<META name="DC.Description.abstract"
content="Abstrakt">
<META name="DC.Rights"
content="Práva">
<META name="DC.Source" scheme="ISSN"
content="ISSN">
<META name="DC.Identifier"content="Identifikátor">
4) V rámci linky zpracování se potom údaje mohou dále
editovat a následně konvertovat do HTML podoby a příslušných formátů.
Do budoucna je možné uvažovat
o několika subsystémech zpracování z hlediska typů titulů:
· Zpracování
sborníků a nepravých periodik
· Zpracování
deníků a časopisů v rámci linky automatické indexace/extrakce
· Zpracování plných textů volně přístupných na www na
základě automatického sběru dat
Závěr
Základním
cílem státní informační politiky je vybudovat a rozvíjet informační
společnost a tím vytvořit předpoklady
zejména pro zlepšení kvality života jednotlivých občanů, zefektivnění státní
správy a samosprávy a zkvalitnění podpory rozvoje podnikání, zajištění
bezbariérového přístupu k informacím v procesu výchovy a vzdělávání i
pro vědecko výzkumnou činnost. Toto je i cílem institucí spolupracujících v
KOSABI. Celkem dobře se daří napojení na plné texty publikované v novinách
a některých časopisech díky vhodné situaci v této oblasti. Do budoucna nás
čeká úkol složitější: propojení bibliografických záznamů plnými texty a
zpracování elektronických zdrojů odborné, vědecké potažmo výzkumné povahy české
provenience. Předpokladem je jejich publikování na Internetu a podpora tohoto
publikování jak ze strany státu, tak ze strany jednotlivých subjektů, které
tyto texty vlastní a produkují a transparentní, otevřený přístup všech
zúčastněných. Vždyť se jedná o informace vznikající především ve veřejném
sektoru. Zpřístupnění těchto informací se však neobejde bez spolupráce se
soukromým sektorem. Domnívám se, že knihovny ani např. vysoké školy na to samy
nestačí.
Na závěr bych se ráda
zmínila o některých skutečnostech, odlišnostech a pararelách týkajících se zpracování článků
v České a Slovenské republice. Třeba by mohly přispět k budoucí spolupráci
v oblasti zpřístupnění plných textů:
DROBÍKOVÁ, B. Vývoj, směřování a trendy
katalogizace za poslední čtyři roky: od FRBR až po revizi AACR2R v roce
2002. Národní knihovna : knihovnická
revue. 2002, roč. 13, č.3, s. 153-167. Též dostupný z: <http://full.nkp.cz/nkkr/NKKR.html>.
Management
Kooperačního systému článkové bibliografie - MNG KOSABI. Dostupný z: < http://full.nkp.cz>.
Seznam seriálů excerpovaných v oddělení analytického
zpracování. Dostupný z: <http://www.nkp.cz/start/knihcin/OAZ/Seznam_OAZ.htm>.
Státní vědecké a ostatní knihovny spolupracující v
kooperačním systému článkové bibliografie a excerpční základny. Dostupný z:<
http://www.nkp.cz/start/knihcin/OAZ/kooper_SVK.htm>.
< http://sigma.nkp.cz:4505/F/?func=file&file_name=base-list>
Báze ANL FULL
[online]. Dostupný z:<http://full.nkp.cz>
Báze Anopress
Báze TamTam [online]. Dostupný z:<http://http://www.anopress.cz>