Kooperační systém článkové bibliografie a báze ANL, ANL FULL

Ivana Anděrová, NKČR, oddělení analytického zpracování

Úvod

Informace, které jsou včasné, rychlé, konkrétní přizpůsobené informačním potřebám koncových uživatelů jsou nezbytné pro vývoj moderní společnosti. Současná informační věda hovoří umění informaci či znalost vyhledat a použít (vytěžování médií – media mining) a umět informaci nebo znalost organizovat tak, aby byla využitelná dále.

Rozvoj Internetu, elektronického publikování (jeho výhody a nevýhody), typy elektronických dokumentů (primárně elektronické, elektronické verze tištěných dokumentů nebo jejich doplňky) a jejich vlastnosti ovlivňují tradiční metody získávání (volný přístup k elektronickým dokumentům na Internetu, volný přístup k elektronické formě/verzi dokumentu v rámci předplatného, přístup k elektronickému dokumentu zakoupenému od vydavatele, přístup přes dodavatelskou/distribuční firmu, povinný výtisk), zpracování (automatická indexace/extrakce, metadata Dublin Core), archivace, vyhledávání a zpřístupňování dokumentů (XHTML, XML, intuitivní vyhledávání a dialogové interaktivní systémy). Objevují se pokusy rozšířit či zkvalitnit obsah elektronické publikace pomocí prostředků, které nabízí Internet. Dochází tak ke kombinaci tradičně katalogizovaných dat s katalogizací vzdálených zdrojů, s dodáváním metadat od autora, vydavatele/nakladatele/distributora i dat získaných na základě automatizovaného sběru. Na druhé straně se mění způsoby informačního chování uživatele při vyhledávání, ve středu zájmu je komunikace člověk - počítač (human-computer interaction). Na základě zpětné vazby relevance (relevance feedback) může uživatel zpřesňovat svůj dotaz a spolupracovat se systémem. Kombinace bibliografických a plnotextových databází představuje efektivní přístup k plnému textu. Vyhledávání s přidanou hodnotou a intelektuální indexace věcná zvyšují možnost získání relevantních informací.

Kvalitní zpřístupnění informací o článcích či statích publikovaných novinách, časopisech, sbornících aj. periodicky vydávaných dokumentech je důležité pro oblast státní správy a samosprávy, pro oblast vzdělávání a výzkumu. Nutnost nových modelů zpracování a zpřístupňování bibliografických informací je evidentní.

1. Současné trendy ve zpřístupňování článkových informací s ohledem na zpřístupnění informací na Internetu

Elektronické dokumenty (ať už jsou to elektronické mutace tištěných dokumentů nebo existující primárně v elektronické formě), mezi něž patří i plné texty článků publikovaných v seriálech - specificky v novinách, časopisech, sbornících z konferencí, v rámci monografických edic - jsou zpřístupňovány prostřednictvím nakladatelství, distributorských firem, informačních institucí či služeb a jejich produktů, dále pak prostřednictvím digitálních knihoven a služeb vznikajících na základě projektů, konzorcií a licencí. Na Internetu se navíc objevují elektronické dokumenty, např. časopisy jako doplňky k papírovým formám, které nejsou kopií tištěných dokumentů, ale doplňují je (obsahují aktuální zpravodajství, články které nejsou v tištěné formě časopisu, odkazy aj.). Velké vydavatelské domy vydávají periodika v tištěné formě, k tomu na Internetu také tyto dokumenty zpřístupňují virtuálně. Je možno vyhledávat současně ve všech nebo v určité skupině časopisů, přes bibliografické záznamy s možností objednat či zpřístupnit plný text.

Přístup k plným textů je zajišťován přes různé formy bibliografií a soupisů, obsahů časopisů a plnotextových databází. Vyhledávání v plných textech zvyšuje komfort přístupu uživatelů k informacím. Při zpřístupňování elektronických informací se stále více prohlubuje spolupráce mezi státním a soukromým sektorem. Elektronické dokumenty jsou zpřístupňovány v dohodnutých formátech.

Zpřístupnění elektronických dokumentů závisí do jisté míry na tom, jak a do jaké míry je dokument vnitřně strukturován (metadata jsou obsažena v samotných zdrojích) nebo zda existuje někde nějaká „struktura“, která umožní co nejpřesnější identifikaci a nejrychlejší navigaci k tomuto dokumentu.

Zpřístupnění relevantních, resp. pertinentních informací uživateli předpokládá jasná pravidla pro vytváření dokumentů jak na úrovni sémantické, tak na úrovni strukturální.

Pro popis webovských informačních zdrojů navržen formát Dublinské jádro (DC) jako základní soubor údajů pro popis zdrojů (obsahuje 15 prvků k identifikaci zdroje). Dublin Core může být vytvářen autorem, vydavatelem, distributorem těchto zdrojů, knihovníkem. Zdá se, že možným nástrojem na úrovni strukturální je přijatelný fomát či jazyk XHTML, XML (eXtensible Markup Language,. XML považován v současné době za nástupce jazyka HTML (prostředek k zapsání strukturovaného textu, odděluje popis dat od jejich prezentace). Jeho aplikací je RDF (Resource Description Framework), který má definovanou standardní DTD (Document Type Definition). Implementace souboru metadat DC (i MARC) ve struktuře RDF/XML je předpokladem efektivního vyhledávání a využívání digitálních informací, tj. efektivní komunikace na www.

Hovoří se o popisu dokumentu v hierarchii jako manifestace díla (čtyřúrovňový model manifestace díla FRBR - vztahy mezi dílem, jeho vyjádřením, projevem a exemplářem). Připravuje se revize AACR2R vzhledem k tomuto modelu a struktuře ISBD. Připravuje se přechod z UNIMARCu na MARC 21.

Národní autority vedou k integraci jmenného a věcného zpracování dokumentů a jejich význam a aplikace při zpracování elektronických dokumentů je evidentní.

V oblasti verbálního věcného popisu je všeobecným trendem harmonizace věcných selekčních prvků pomoci souboru věcných autorit, harmonizace různých typů heslářů, integrace tradičních pořádacích systému do procesu vyhledávání v plnotextových databázích, v oblasti systematické věcné notace konvergence mezi MDT a DDT, propojení verbálního a systematického selekčního jazyka.

Pozornost je věnována standardizaci popisu fondů (tzv. metoda konspektu, v ČR aplikovaná též na popis informačních zdrojů), informačním branám (v ČR např. Jednotná informační brána), portálům.

Vzhledem k poměrně nestálé povaze elektronických zdrojů, vzhledem k jejich zpracování i zpřístupňování je důležitá jejich identifikace - URL (Uniform Resource Locator), PURL (Persistent URL), Uniform Resource Name URN (Uniform Resource Name), DOI (Document Object Identifier), SICI (Serial Item and Contribution Identifier) . Identifikace informačních zdrojů souvisí s agendou autorských práv, elektronickým obchodem, s nakladatelskou praxí.

Propojení mezi dokumenty může být statické i dynamické, na základě „base URL“ a open URL“¨

Velká pozornost se věnuje protokolům pro komunikaci a sdílení dat (např. Z39.50 a Bath Profile).

Získávání, zpracování a zpřístupňování elektronických dokumentů je třeba zabezpečit z právního hlediska na základě dohod s vybranými vydavateli, zákona o povinném výtisku, formulace zásad licenční politiky vzhledem k vlastníkům, producentům a distributorům plných textů a bází dat. Harmonizace v oblasti autorského práva vzhledem k doporučením EU je nutným předpokladem řešení celé problematiky.

2. Zpřístupňování článků na Internetu a článková bibliografie v České republice

Zpracování a zpřístupňování článků v České republice je poměrně rozsáhlé co do zdrojů, které se zpracovávají, tak co do typů institucí, které tuto činnost provozují.

2.1 Systém zpřístupňování článků na Internetu - některé instituce a projekty, metody, nástroje, které souvisejí se zpřístupněním plných textů v ČR a zpracováním elektronických dokumentů

· Relativně velký rozvoj nastal v posledních letech v nabídce českých novinových a časopiseckých elektronických zdrojů (deníky, týdeníky aj. časopisy) s různou hloubkou retrospektivity a s různou možností přístupu jak co do formy (current contents, abstrakty, citace v kombinaci s plnými texty aj.), tak způsobu (volné/placené, s registrací/bez registrace, v rámci konzorcia aj.). Většina deníků provozuje souběžně s vydáváním klasické tištěné podoby také zpravodajství na Internetu.

· Objevují se nakladatelské elektronické zdroje (Sagis, Tigis, Muzikus, Portál). Společnost Economia online umožňuje přístup k elektronické podobě titulů vydavatelství Economia, a. s., s fulltextovým databázovým vyhledáváním v systému Oracle. V letech 2001 - 2002 se Economia online (EOL) stala lídrem na internetovém trhu s placeným obsahem a provozuje ekonomicko zpravodajský portál iHNed.cz. Některé časopisy vydávané ústavy Akademie věd v ČR jsou vybaveny plným textem, abstraktem nebo jsou zpřístupňovány v podobě current contents. Nakladatelství Karolinum (nakladatelství Univerzity Karlovy) vystavuje zatím current contents vědeckých časopisů.

· V České republice existují různé informační agentury a instituce. Albertina icome Praha soukromá společnost zaměřená na zpřístupnění profesionálních informačních zdrojů v elektronické formě a jejich využití v praxi. AiP nabízí elektronické tituly předních světových vydavatelství. Elektronické vydavatelství spolupracuje na vydávání ČNB na CD-ROM. V oblasti médií působí dvě velké informační společnosti - Newton IT a Anopress IT. Společnost Newton IT se zabývá monitoringem tištěných českých a zahraničních médií, rozhlasových a televizních pořadů, zpřístupňuje elektronický archív některých novin a časopisů. Mezi informační služby a produkty, které nabízí Anopress IT patří on-line databanka novin a časopisů celostátních a regionálních (TamTam), monitoring na zakázku, archívy zdrojů (od .r 1996), databáze platných právních předpisů (zákony, předpisy, vyhlášky). Společnost spolupracuje s NKČR v rámci projektu financovaných MKČR. Anopress je výhradním zpracovatelem elektronické podoby většiny českých regionálních titulů (nakladatelství Bohemia). Pro zpřístupnění plných textů ve veřejných knihovnách bylo založeno v r. 2000 konzorcium pro přístup do databanky TamTam. Společnost je výhradním zástupcem slovenské firmy SLOVAKIA ONLINE v ČR, která zpracovává elektronickou podobu slovenských tištěných médii. Kromě mediální části obsahuje databanka TAMTAM i část vědomostní, v níž jsou k dispozici pro fulltextové vyhledávání různé encyklopedie, příručky a další knihy referenčního charakteru. Vyhledávací systém TOPIC, který Anopress používá k monitoringu a analýze informačních zdrojů, je v současnosti jediným interaktivním systémem na českém trhu. Anopress zpracovává zatím cca 35 titulů, které odpovídají excerpční základně Kooperačního systému článkové bibliografie. V září 2002 poskytlo MKČR dotaci pro multilicenční zpřístupnění databází TamTam a ČTK v rámci VISK 8 na r. 2002. (Analogicky vyplývá: v budoucnu podobné zpřístupnění báze ANL FULL a licence resp. multilicence pro přístup do báze TamTam pro linku zpracování bibliografických záznamů z plných textů).

· Státní technická knihovna buduje Portál STM - Elektronické informační zdroje STM. Obsahuje terciální databázi, A&I Databáze, elektronické informační zdroje na VŠ.

· V Národní lékařské knihovně se katalogizují elektronická periodika dostupná v rámci licencí. Některé záznamy elektronických zahraničních časopisů byly předány do STK v rámci projektu Portál STM a měly by být zahrnuty do terciální databáze. Dále by měla být zahrnuta česká elektronická periodika online. Jde o katalogizaci internetových domácích zdrojů z oblasti lékařství a zdravotnictví.

· WebArchiv je produktem programového projektu výzkumu a vývoje "Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet". Jeho cílem je připravit podmínky pro zpracování české národní bibliografie elektronických zdrojů, se zaměřením zejména na zdroje dálkově přístupné a zajistit dlouhodobé uchování domácích elektronických zdrojů.Do češtiny byla přeložena nejnovější verze standardu Dublin Core a proběhla lokalizace metadatového formuláře převzatého od Helsinské univerzitní knihovny z projektu Nordic Metadata. V rámci popisu elektronických zdrojů NK se zatím popisují vybrané servery „národní produkce“ (doména cz). Jednotná informační brána zahrnuje projekty: Jednotná informační brána pro hybridní knihovny, Portál STM, Jednotná informační brána - provoz JIB, zpřístupnění zdrojů, Česko-slovenský virtuální katalog Caslin. Projekt JIB umožňuje základní prohledávání informačních zdrojů, jejich tematický výběr, stahování záznamů. Zdroje jsou volně přístupné a licencované. SFX je standard pro propojení dokumentů a je využíván v Metalib k vytváření vazeb. Komunikace v Metalib je na základě protokolu Z39.50 nebo HTTP. Báze ANL a ANAL (Olomouc) je zpřístupněna v JIB jako zdroj. Báze ANL FULL a články krajské knihovny v Liberci zpřístupněny v JIB jako odkaz. V řešení jsou připojení dalších institucí a zdrojů. Metoda konspektu jako nástroj popisu fondů má přispět k realizaci této brány. Základem metody základem je popis dle věcného třídění na několika úrovních. První obsahuje 24 tematických skupin, druhá 500 skupin konspektu, které se dále člení na 4 000 témat. Konspekt má vazbu na MDT (konkordance mezi MDT a DDC). V Metalibu je statický způsob propojení nahrazován dynamickým propojováním založeném na open URL.

· Aktivity v oblasti automatizovaného zpracování textu - automatické či poloautomatické indexace je možno najít již v bývalém Československu. Parlamentní knihovna Kanceláře Poslanecké sněmovny Parlamentu ČR (KPS PČR) od r. 2000 indexuje v testovacím provozu sněmovní tisky, od 4. volebního období (červen 2002) přešla indexace sněmovních tisků do rutinního provozu. V rámci indexace sněmovních tisků byla implementována automatická indexace založená na automatické extrakci slov a sousloví z textu dokumentu za podpory lematizátoru, frekvenční analýzy, rozpoznávání víceslovných výrazů, negativního slovníku a komparace slov z textu s lexikálními jednotkami tezauru EUROVOC. Výsledkem je frekvenčně uspořádaný seznam deskriptorů, který je určen pro další intelektuální zpracování. Moderní vyhledávací metody se zkoumají v rámci projektu Inteligentní vyhledávání v dokumentografických informačních systémech (Matematicko fyzikální fakulta Univerzity Karlovy ve spolupráci s KPS PČR).

2. 2 Vývoj článkové bibliografie v České republice - r. 1953-2002

· Článková bibliografie v tradičních podmínkách - 50.-80. léta (měsíční tištěné sešity, VPK, MDT, rejstříky, retrospektiva 1945-52).

· Příprava automatizovaného zpracování článkové bibliografie - 80. léta (ASNBČ, Výměnný formát pro bibliografický (dokumentační) a katalogizační záznam, MAKS a postupně v následujících letech prováděcí projekty pro jednotlivé typy dokumentů včetně článků).

· Poslední tištěné číslo - r. 1990, r. 1991 převeden z lístkových záznamů do počítačové formy.

· Návod pro tvorbu a využívání báze záznamů dokumentů, specifikace údajů a pravidla pro analytický popis - r. 1991-1992.

· Kooperační systém článkové bibliografie - r. 1992-2002 (r. 1992 - ověřovací provoz, od r. 1993 plný provoz, báze ANAL, později ANL, v r. 1997 projekt Zpřístupnění výsledků analytického zpracování prostřednictvím Internetu (NKČR, RISK) řeší zejména konverzi VF UNIMARC, koordinace, standardizace a metodika - postupně VF a ISIS, ISBD/CP, AACR2R, UNIMARC a různé knihovnické SW, vybrané znaky MDT a MDT/MRF, klíčová slova, předmětová hesla, předmětové kategorie, od r. 2000 zpracování bibliografických záznamů z plných textů v NKČR a moderní metody zpřístupnění - DC, XHTML, XML v rámci projektů VaV řešených v NKČR a financovaných MKČR, za spolupráce s firmou Anopress vzniká plnotextová báze ANL FULL).

· V rámci Kooperačního systému článkové bibliografie (KOSABI) spolupracují v současné době tyto knihovny: Národní knihovna České republiky (NKČR), Moravská zemská knihovna v Brně (MZK), zatím 8 krajských knihoven – bývalých státních vědeckých knihoven (perspektivně se počítá se začleněním dalších čtyř nově konstituovaných krajských knihoven), Státní technická knihovna (STK,) Státní pedagogická knihovna Komenského - Ústav pro informace ve vzděláváni (SPKK-ÚIV), Ústav zemědělských a potravinářských informací (ÚZPI). Kooperace probíhá po linii regionální a oborové. NKČR zpracovává články tzv. celostátních titulů, regionální knihovny zpracovávají tituly vycházející na území příslušného regionu, odborné knihovny zpracovávají tituly z hlediska své odborné gesce. Je možno hovořit o KOSABI v užším (NKČR, MZK, krajské knihovny) a širším (odborné instituce) slova smyslu. Součástí KOSABI v širším slova smyslu je také zpracování článků z oblasti lékařství a zdravotnictví v Národní lékařské knihovně.

· Kromě KOSABI existuje v ČR fungující systém na úrovni městských (okresních). knihoven - LANius a jeho produkt SKAT - Souborný katalog článků. Jeho vyšší verzí je systém Clavius. Systém umožňuje sdílenou katalogizaci. Mezi LANiem a NK pravděpodobně proběhnou v budoucnu kednání o možné kooperaco týkající se excerpce titulů a omezení duplicit při zpracování. Export do báze ANL je v zásadě možný.

3. Produkty ČNB, smluvní a legislativní zajištění národní bibliografie, organizační zajištění

V ČR existují dva hlavní produkty článkové bibliografie v rámci České národní bibliografie: báze BMC (vznikající v Národní lékařské knihovně) obsahuje české a slovenské časopisy z lékařských oborů (od r. 2001 jen česko-slovenské časopisy vydávané tiskovým střediskem České lékařské společnosti). Kromě knih jsou všechny dokumenty zpracovány na analytické úrovni. Databáze též zachycuje bohemika a slovacika. Komplexní databáze vychází na CD-ROM "Bibliomedica" (vyhledávací SW Tornádo, vydávaná Národní lékařkou knihovnu ve spolupráci s AIP Beroun). Novinkou databáze je citační rejstřík, ukazující citovanost autorů v různých zdrojích.

Báze ANL vzniká v rámci Kooperačního systému článkové bibliografie (KOSABI). Je vydávána jako řada České národní bibliografie Články v českých novinách , časopisech a sbornících (vyhledávací SW Tornádo, vydávaná Národní knihovna České republiky ve spolupráci s AIP Beroun). Dostupná je též internetová verze. V současné době zhruba třetina běžného přírůstku metadat resp. bibliografických záznamů báze ANL tvoří metadata báze ANL FULL, která vznikají v rámci linky automatické extrakce v NKČR. Báze ANL je propojena s plnými texty báze ANL FULL. Báze ANL obsahuje též hypertextová propojení na volně přístupné plné texty na Internetu.Vydání ANL na CD-ROM resp. DVD a měsíční aktualizace obsahují zatím pouze propojení na volně přístupné plné texty.

KOSABI je právně ošetřen pouze Smlouvou o sdružení pro Českou národní bibliografii ( z r. 1998) a Dodatkem č. 3 ( z r. 2001), který zajišťuje pokračování článkové bibliografie v přechodném období související se změnou státoprávního uspořádání ČR. Přebírání a předávání titulů ke zpracování od bývalých státních vědeckých knihoven v podmínkách nového uspořádání krajů musí být plynulé a koordinováno tak, aby konvenovalo podmínkám jak technickým, tak personálním v nově konstituovaných krajských bývalých okresních knihovnách. S odbornými knihovnami spolupracujícími v KOSABI jsou každoročně uzavírány separátní smlouvy. Zákon ze dne 19. června 2001 o knihovnách a podmínkách provozování veřejných knihovnických a informačních služeb stanoví úlohu a povinnosti jednotlivých typů knihoven v rámci systému knihoven ČR. Krajské knihovny spolupracují s NKČR při zpracování národní bibliografie a souborného katalogu, koordinují plnění regionálních funkcí základních knihoven v kraji, zajišťují zprostředkování vnějších informačních zdrojů zejména informací ze státní správy a samosprávy.Specializovaná knihovna je součástí systému knihoven a spolupracuje s Národní knihovnou při zpracování národní bibliografie a při zpracování souborného katalogu. Organizační, metodické a standardizační otázky se řeší kromě Pracovní skupiny pro analytické zpracování na pravidelných poradách SDRUK - Sekce pro bibliografii a poradách pracovníků bibliografických a rešeršních oddělení vědeckých, technických a specializovaných knihoven v STK.

4. Projekty řešené v Národní knihovně České republiky v současné době

V současnosti se v NKČR řeší kromě jiných dva projekty - výzkumný záměr Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů (VaV, MKČR, 1999-2003), programový projekt Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat (VaV, MKČR, 2000-2004) - které se zabývají moderními metodami zpracování a zpřístupňování bibliografických informací o článcích s vazbou na plné texty.

4.1 Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů

Anotace (zadání)

Cílem výzkumného záměru je optimalizace přístupu uživatelů k plným textům dokumentů domácí provenience (nikoli zahraniční). Základem je propojení analytických záznamů o článcích s plnými texty, které jsou dostupné na Internetu a/nebo CD-ROM. Okamžitě bude k dispozici účinný rešerší nástroj – analytické záznamy zpracované v Kooperačním systému české článkové bibliografie, které jsou součástí České národní bibliografie. Jejich postupné propojení s plnými texty ústředních i regionálních periodik výrazně zvýší uživatelský komfort při jejich využití.

Plnění

V rámci projektu v r. 1999 proběhlo v NK výběrové řízení a byla vypracována výzva k podání nabídky pro společnost Anopress. Během řešení projektu byla vyvinuta iniciativa k vytvoření konzorcia Anopress pro přístup do plnotextové databáze TamTam, která byla podepsána mezi SKIP a Anopressem v r. 2000. Periodikum Národní knihovna bylo v Anopressu převedeno do digitální formy a zpřístupněno na Internetu v Anopressu a bázi ANL FULL. Kromě toho se vyvíjí v NKČR samostatná aplikace pro zpřístupnění periodika v html a pdf. Tato aplikace bude propojena přes www rozhraní s bází ANL FULL.

Projekt je analyticko koncepční a připravuje půdu pro praktickou realizaci programového projektu.Koncepce má flexibilní charakter, reflektuje vývoj v oblasti zpřístupnění plných textů a pohybuje se zhruba v mantinelech uvedených v bodě 1. V rámci projektu byla vypracována základní koncepce zpracování bibliografických záznamů plných textů v lince automatické indexace/extrakce (TTDE – TamTam Data Extractor) a zpřístupnění plných textů v bázi ANL FULL a koncepce týkající se optimalizace integrace a správy heterogenních dat v rámci KOSABI v systému Oracle (prakticky popsáno v bodu 4.2).

V rámci záměru byla částečně vypracována Metodika popisu článků ve formátu UNIMARC, která vycházejí především ze struktury ISBD (CP) a v příslušných oblastech aplikují AACR2R. Tento trend je patrný i v současnosti, kdy se harmonizují AACR2R s ISBD. Dosavadní verzi pravidel bude nutno v budoucnu ošetřit více vzhledem k ISBD(ER) a revidovanému standardu ISBD pro seriály International Standard Bibliographic Description for Serial and other Continuing Resources – ISBD(CR). Vzhledem k vlastnostem elektronických dokumentů vzniká nová kategorie pokračujících zdrojů, která zahrnuje integrující zdroje (aktualizace zdrojů, které nemohou být samostatné) - publikace na volných listech, webovská sídla aj. a seriály - časopisy, magazíny, elektronické časopisy, pokračující adresáře, roční zprávy, noviny, monografické edice. Do kategorie pokračujících zdrojů patří též ukončené pokračující zdroje vycházející po částech, číslované a periodické, ale jejich trvání je ohraničeno, dále pak reprinty seriálů a ukončené integrující zdroje. V budoucnu bude třeba reflektovat při popisu FRBR - Functional Requirements for Bibliographic Records, což umožní integraci elektronických dokumentů s tradičními.

Velmi významná je studie Současný stav a trendy automatické indexace dokumentů, ze které vyplývá potvrzení hypotézy a současného trendu v této oblasti “ směřující k vývoji vyhledávacích metod, které budou za pomoci technologií umělé inteligence pracovat přímo s plným textem a k automatické indexaci (rozuměj indexaci přiřazováním - pozn. I.A.) v původním slova smyslu nebude vůbec docházet; dojde k posunu od systémů založených na externí bázi pojmů či znalostí (knowledge-based systems) k systémům založených přímo na zpracování plného textu dokumentů (text-based systems) …Při dostupnosti plných textů dokumentů se dnes již spíše používá některé z pokročilých vyhledávacích metod, jejichž vývoj a implementace je obdobně technicky i finančně náročný jako u automatické indexace, ale v řadě případů přináší adekvátnější výsledky.“ Vývoj projektu v následujících letech se bude tedy patrně orientovat spíše na automatickou extrakci a využití inteligentního vyhledávání systému TOPIC, dále pak na skloubení pojmového vyhledávání s intelektuální indexací věcnou a zabudování věcných termínů přímo do topiků (tj. pojmů, strukturovaných dotazů v rámci systému TOPIC - viz bod 4.2), než na automatické přiřazování věcných termínů. Analýza automatické indexace potvrdila nutnost intelektuální indexace věcné, která je stále kvalitnější než automatické přiřazování termínů. V r. 2002 byla provedena analýza selekční úplnosti topiků v bázi ANL FULL (která je přibližně 80 %) a byly vyvozeny praktické závěry pro zkvalitnění funkce topiků (ladění a interaktivní předmětové zpracování a využití topiků). V r. 2002 byla navržena a částečně vyvinuta internetová verze linky poloautomatické indexace (TTDE - Tamtam Data Extractor).

4.2 Projekt Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat a jeho vliv na KOSABI

Anotace (zadání)

Náplní projektu je optimalizace integrace a správy heterogenních dat souborné databáze Kooperačního systému článkové bibliografie. Bibliografické záznamy článků, publikovaných v českém periodickém tisku a zpracovávané spolupracujícími knihovnami, budou postupně propojované s elektronickou podobou článku a takto prezentované na Internetu. Obě části souborné databáze - vznikající databáze plných textů a báze bibliografických záznamů ve formátu UNIMARC - vyžadují permanentní kvalitní SW a HW podporu. Budování, doplňování, správu a údržbu plnotextové databáze s možností vyhledávání zajistí informační agentura ANOPRESS (systém TOPIC). Zároveň půjde o vývoj manažerského systému pro příjem a správu dat kooperačního systému. Hlavním cílem projektu je zkvalitnění bibliograficko-informačních služeb.

Plnění

Kooperační systém článkové bibliografie prochází v současnosti transformací po stránce technologické, standardizační, koncepční i organizační. Hledají se metody optimalizace propojení analytických bibliografických záznamů s plnými texty, integrace a správy heterogenních dat za současného plného provozu KOSABI při zachování objemu zpracovávaných dokumentů s ohledem na nejnovější trendy v oblasti získávání, zpracovávání a zpřístupňování elektronických dokumentů.

KOSABI a použité technologie

V krajských knihovnách v Kladně a Liberci se články popisují v systému RAPID, v MZK v Brně v ALEPH, v Olomouci též. V Ostravě, v Českých Budějovicích a Ústí nad Labem v systému T-Series. V Hradci Králové, ÚZPI, STK, SPKK-ÚIV přetrvává ISIS. V krajské knihovně v Plzni se články zpracovávají v systému KIMS. V nově konstituovaných rajských knihovnách v Pardubicích a Zlíně se používá KP-Sys, v Karlových Varech a Havlíčkově Brodě systém LANIUS, resp. Clavius. Postupně se ladí metodika ukládání v nových systémech a řeší se otázky převoditelnosti do báze ANL a UNIMARCu. Tato činnost je poměrně náročná v detailech a je založena na úzké spolupráci s příslušnými knihovnami. Plnohodnotné předávání záznamů do národní článkové bibliografie u knihoven vlastnících Tinlib závisí na dotažení konverzního programu Tinlib – UNIMARC (je-li možné). Knihovny pracující v ALEPHu spolupracují dobře. U knihoven pracujících v KP-sysu je třeba dopracovat převod do UNIMARCu. Knihovny pracující v Rapidu spolupracují též bez problémů. Krajská knihovna v Plzni přešla na zpracování v KIMSu a v r. 2002 záznamy nedodávala. S nově jmenovanými a konstituovanými krajskými knihovnami v Pardubicích, Havlíčkově Brodě, Zlíně a Karlových Varech byla navázána dobrá spolupráce. Ladí se převod záznamů do UNIMARCu i metodika a zvažují možnosti zpracování některých titulů. NKČR používá při zpracování a zpřístupnění bibliografických záznamů z plných textů technologie vyvíjené v rámci projektu VaV.

Standardizace

Data jsou zpracovávána ve nebo konvertována do formátu UNIMARC, respektují se pravidla popisu AACR2 s respektováním mezinárodních standardů věcného popisu - MDT-MRF pro oblast systematické indexace. V oblasti verbální věcné indexace se kombinují klíčová slova, předmětové kategorie a předmětová hesla. Vyváženost vazby mezi jednotlivými vrstvami popisu je klíčovým momentem. Většina knihoven vybavuje záznamy předmětovými kategoriemi, které jsou jednotícím prvkem souborné databáze. Oddělení analytického zpracování přistupuje k intenzivnějšímu využívání souborů autorit v NK, korekturám báze ANL a připravuje podklady pro soubory jmenných a věcných autorit. K záznamům se zatím nepřidělují skupiny konspektu. Záznamy respektují metodický materiál Záznam pro soubornou databázi : UNIMARC a Záznam pro soubornou databázi : Výměnný formát. Dle možností je aktualizována pracovní verze příručky pro zpracování článků v UNIMARCu - Metodika popisu článků ve formátu UNIMARC a vystavena na Internetu s názornými příklady. Pořadí kategorií, předmětových hesel odpovídá pořadí MDT. MDT vztahující se k osobám a formě článku se uvádí na konec věcného popisu (osoby, forma). Kategorie: obecné zařazení tématiky dokumentu pod obecné hlavní téma (615a) a zpřesnění (615x). Předmětové heslo: vystihuje hlavní téma dokumentu. Klíčová slova: variantní selekční termíny k předmětovým heslům uvádíme zatím z důvodů postupného propojování báze ANL na soubory autorit, v současné době se eliminují - s postupným provázání věcného popisu na autority i s ohledem ke zpřístupnění plných textů v bázi ANL prostřednictvím báze ANL FULL. Ve většině kooperujících institucí se používá kombinace těchto tří prvků věcného popisu v různé míře. Předmětová hesla se aplikují pro osoby, korporace, typ dokumentu, geografické téma. Předmětová hesla tematická (pole 606 UNIMARC) se užívají zejména v NK, ve většině knihoven se praktikují klíčová slova (pole 610 UNIMARC). Vazba na autority se objevuje ve větší míře v NK a v krajské knihovně v Kladně. Je třeba důsledněji používat pole 660 Geografický kód. Předmětové kategorie v rámci ANL (ANL FULL) je nutno důkladně zrevidovat. Domníváme se, že možno je používat paralelně se skupinami konspektu. Předpokládá se , že je bude možno zabudovat do topiků v rámci báze ANL FULL spolu s předmětovými hesly (viz dále). V rámci linky automatické indexace/extrakce se používá 14 prvků Dublin Core a 14 prvků ANL Core, které jsou zároveň generovány v UNIMARCu formátech HTML, XHTML, XML.. O definici topiků viz dále.

Excerpční (titulová) základna

V KOSABI se popisují periodika ze všech oborů, okrajově se popisuje oblast lékařství a zdravotnictví.

V rámci kooperačního systému byla stanovena pravidla pro výběr titulů k popisu (na základě územní gesce - tituly regionální a celostátní provenience a dále pak na základě odborného zaměření). V rámci KOSABI jsou stanoveny zásady výběru článků co do úplnosti i co typů.

Zpracovávané typy titulů a výběr článků z hlediska úplnosti: jsou zpracovávány články a statě české novinové, časopisecké a periodické sborníkové produkce (sborníky vysokých škol, uzeí, archivů, materiály z konferencí, ročenky, odborné i polytematické časopisy, kulturně-politické časopisy a populárně-naučné časopisy).

A: Seriály vydávané AVČR a vysokými školami v ČR (časopisy, sborníky, ročenky)
B: Seriály (časopisy, sborníky, ročenky) vydávané ostatními institucemi v ČR
C: Noviny (ústřední i regionální) a kulturně-polické časopisy
D: Populárně-naučné časopisy

1=excerpce je prováděna v úplnosti (100-80% počtu článků)

2=excerpce je prováděna částečně (80-25% počtu článků)
3=excerpce je prováděna výběrově (25%- počtu článků)

A: 1
B: 1 (sborníky ročenky), 1-2 (odborné časopisy)
C: 2,3
D: 3

Báze ANL - obsahuje kategorie A-D, báze ANL FULL zatím kategorie C, z kategorie B periodikum Národní knihovna (též samostatná aplikace ve formátech HTML, PDF).

Typy článků: faktograficky přínosné články, články odborné, články s dokumentární a uměleckou hodnotou, oficiální dokumenty (projevy, vyhlášení, komuniké, usnesení), zprávy a informace o kulturních, sportovních, politických, vědeckých aj. akcích (konferencích, seminářích, festivalech, jednáních, zasedáních, výstavách, divadelních, rozhlasových a televizních inscenacích, besedách, sportovních soutěžích), souhrnné a hodnotící články, závažné polemiky, diskuze a komentáře. Dále jsou zachyceny reportáže, biografické články (životopisné, jubilejní, nekrology, rozhovory, profily osobností, vzpomínky), literární texty (básně, povídky aj. ještě nepublikované, nové překlady), fejetony, sloupky, úvodníky (pouze hodnotné), recenze publikací různého zaměření, gramofonových desek, kompaktních desek, filmů apod. Obě báze jsou výběrové.

Počet záznamů k 15.1.2003: ANL přes cca 750 600 bibliografických záznamů, ANL FULL přes cca 100 000 plných textů s metadaty. Počet zpracovávaných titulů: ANL - cca 212 v NKČR, 217 v regionech, 108 v odborných knihovnách, celkem cca 537 titulů; časové pokrytí - ANL 190/91 -, ANL FULL 1997- . V lince automatické indexace/extrakce jsou pravidelně zpracovávány a importovány plné texty do ANL FULL a bibliografické záznamy článků do ANL z 16 titulů, v bázi ANL jsou naopak propojovány záznamy s plnými texty z 13 zdrojů.

Záznamy NKČR tvoří 79,5 procent báze ANL. Záznamy regionů tvoří 14,1 procent. Záznamy specializovaných knihoven tvoří 6,4 procent.

4.3 Aplikace moderní technologie zpracování a zpřístupnění bibliografických informací

4.3.1 Architektura systému zpracování zpřístupňování plných textů. Linka automatické indexace/extrakce a báze ANL FULL v systému TOPIC

Současným výsledkem řešení projektu je poloprovoz linky pro získávání a zpracování bibliografických záznamů z plných textů (TTDE) s následným importem záznamů do báze ANL s propojením na plný text v bázi ANL FULL a paralelním importem plných textů s metadaty UNIMARC a DC do báze ANL FULL a jejich zpřístupnění v systému TOPIC včetně automaticky generovaných formátů HTML, XHTML, XML v kvalifikované i nekvalifikované formě. Velká pozornost je věnována definici báze ANL FULL v systému TOPIC, zejména vyhledávání (prostý dotaz, formulářový dotaz, topiky, rejstříky). Je nainstalován formulář pro registraci uživatelů. Plné texty článků deníků a některých časopisů jsou průběžně stahovány z databáze TamTam (Anopress), zpracovávány v lince zpracování bibliografických záznamů z plných textů a zpřístupňovány v bázi ANL a ANL FULL. Plné texty s metadaty jsou zpřístupňovány v několika uživatelských formátech, v několika formátech lze exportovat metadata a plné texty. Plné texty a metadata jsou běžně přístupné zatím pouze v NKČR, zkušebně je možné plné texty získat po registraci a přihlášení pro externí uživatele na 7 dnů. Společnost Anopress souhlasí se zpřístupněním báze ANL FULL v rámci konsorcia knihoven pro přístup do báze TamTam v rámci VISK 8 na podzim roku 2003. Jak bude nutné zpřístupnění báze v rámci konsorcia ještě v některých případech doladit po stránce smluvní (vydavatelé) ukáže budoucnost. Není vylučena určitá forma reciprocity. Zpřístupnění externím uživatelům bude vyžadovat řešení v této oblasti zcela jistě. Na serveru full.nkp.cz je také funkční portál pro zpřístupnění volně dostupných textů na Internetu ve struktuře tematické a regionální s popisem zdrojů. V projektu se dále řeší aplikace pro správu a údržbu KOSABI, která vychází z aplikací vyvinutých v rámci SK CASLIN (přijímání záznamů, konverze, úpravy a kontrola záznamů).

Architektura systému zpracování (linka automatické indexace/extrakce) a zpřístupňování plných textů v systému TOPIC (v současné době Portal One)

· On-line získávání dokumentů z databáze TamTam přes vstupní filtr pro linku zpracování - aplikace TT Special NK (TTSNK), textové dokumenty vstupují do linky se strukturovanou hlavičkou, kde jsou dohodnutými znaky a návěštími označeny příslušné údaje (v budoucnu možná další úprava vstupních filtrů podle charakteru získávaných dokumentů z jiných zdrojů).

· Zpracování plných textů (extrakce dat z hlavičky dokumentu do formuláře pro editaci a příslušných formátů, doplnění údajů věcného popisu katalogizátorem a generování pěti hlaviček - Dublin Core včetně URL, SICI v HTML, UNIMARC a UNIMARC-A, zobrazovací a indexovaní hlavička, výstup v ANSEL, UNICODE, UNICODE-UTF 8) - aplikace TTDE (TamTam Data Extractor) zatím na lokálních pracovních stanicích. Import metadat/bibliografických záznamů s URL na plný text do báze ANL (ALEPH) a metadat a plných textů do báze ANL FULL v HTML (TOPIC - Portal ONE).

· Konverze a generování dat XHTML+-, XML+-, indexace, uložení a vyhledání informací (vyhledávání pomocí textu dotazu, formulářů, topiců, rejstříků) - aplikační a datový server: Portal One SE - fulltextový vyhledávací systém, server Dell PoweEdge 6300 (1 GB RAM, 68 GB, Pentium III).

· Zobrazení a zpřístupnění informací - Internet Information Server Win 2000 - komunikace v síti, zobrazování dat a metadat v uživatelských formátech (citace bez/s odkazy, výsledky jednoduché, se souhrnem, seskupené) a pracovních formátech (klíčová slova, DC v HTML, XHTML+ -, XML+ -), tisk. Obecné základní informace, nápovědy, autorizace, statistika zobrazených informací přes Internet aj.

· Export dat v různých formátech (text, HTML, XML, RTF).

· Administrace báze (opravy a aktualizace metadat a rejstříků, portálu volných www periodik), statistiky přístupů .

4.3.2 Systém TOPIC, a pojmové vyhledávání. Báze ANL FULL v systému TOPIC

TOPIC (pojmově orientovaný vyhledávací systém, concept based retrieval) je systém třetí generace založený na následujících principech: rozklad pojmu na podpojmy, vážení jednotlivých podpojmů (větví pojmového stromu), neostré vyhodnocování dotazů. Kromě jiného lze v něm vyhledávat podle tzv. topiků (pojmů), což jsou předem strukturované dotazy určené k vyhledávání v plných textech.

Dotaz v systému třetí generace reprezentuje pojem, resp. ideu vyhledávaného tématu. Jádrem dotazu je stromová hierarchická struktura, která rozkládá hledané téma na podtémata a přiřazuje jednotlivým částem váhy, které vyjadřují, do jaké míry příslušné téma přispívá k celkovému určení tématu. Systém dále vypočítá míru relevance vyhledaných dokumentů. Oproti běžně používaným operátorům TOPIC používá fuzzy operátor ACCRUE se specifickými vlastnostmi. Tento operátor sbližuje operátory and a or. Každý topik obsahuje tedy tři základní charakteristiky - strukturu, váhy a operátory (viz dále).

Fulltextové vyhledávání pomocí topiců se vyznačuje úplností, značnou přesností a vysokou mírou přizpůsobivosti individuálním potřebám uživatelů.

Úplnost (recall) znamená, že systém zachytí prakticky všechny dokumenty, které se v té či oné míře týkají daného tématu. Přesnost (precision) vyhledávání souvisí s hodnotou skóre: platí, že text, který obsahuje větší počet slovních kombinací typických pro určité téma, se k tomuto tématu váže.

Soubor vytvořených topiců tvoří tzv. znalostní bázi. Pomocí široké škály operátorů lze stanovit způsob vyhodnocování důležitosti dokumentů vzhledem k dotazu. Toto číslo se nazývá relevance a nabývá hodnot 0,001 až 1.00. Dále systém umožňuje shlukovat (clustering) vyhledané dokumenty podle možného společného kontextu. Shlukování je založeno na statistické analýze obsahu prováděné při jeho indexaci. Pro každý dokument je vybrána řada slov (významový vektor), která s určitou pravděpodobností vystihuje obsah dokumentu, a na základě něj se vytváří automatická anotace v podobě nejvýznamnějších vět z dokumentu (summary).

Báze ANL FULL v systému TOPIC. Jak se zaregistrovat. Jak vyhledávat. Výsledky vyhledávání a zobrazení, výstupy

Jak se zaregistrovat

Externí uživatelé se mohou zatím zaregistrovat pomocí formuláře v nabídce Registrace na dobu 7 dnů. Po vyplnění jména a hesla ve formuláři přihlášení lze vyhledávat v plných textech.

Jak vyhledávat. Druhy dotazů v databázi ANL FULL a systému TOPIC

Báze ANL FULL obsahuje jak bibliografický popis (metadata) v různé míře podrobnosti podle vývoje systému, tak plný text, přičemž obě tyto části jsou indexovány a lze z nich paralelně vyhledávat a docílit tím větší míru relevance výsledku vyhledávání k položenému dotazu. Systém umožňuje velmi sofistikované kladení dotazů vyžadující určitou zkušenost. Na druhé straně je možné položit dotaz velmi jednoduchým způsobem. Systém umožňuje tři způsoby hledání: vyhledávání (searching) pomocí formulářů (základní, rozšířený, rozšířený s tématy) a pole dotaz, pomocí topiců - předem strukturovaných dotazů v rámci rozšířeného formuláře, prohlížení (browsing) rejstříků. Prostý dotaz obsahuje slova nebo fráze oddělené čárkami nebo logickými spojkami, formulace mohou obsahovat různé konvence. Při vyhledávání se všechna slova skloňují a mají stejnou váhu. Formulářový dotaz obsahuje kromě možnosti pro zadání hledaného slova nebo fráze jako u prostého dotazu i pole pro zadání podmínek pro jednotlivé položky strukturované části textové databáze. Jde o rozšíření prostého dotazu. Tematický dotaz, resp. topic - definuje jednotlivá témata. Jsou rozdělena do tří úrovní. Témata jsou uspořádána do 8 oblastí, ty se dělí do 25 tematických skupin a skupiny obsahují zatím 114 detailních témat. Je nadefinováno 17 rejstříků.

Výsledky vyhledávání, zobrazení výsledků.Způsoby zobrazení seznamu výsledků (názvů vyhledaných článků)

V záhlaví seznamu výsledků je uveden počet vyhledaných článků. Počet vyhledaných dokumentů na stránku je dán volbou v poli Výsl./str. V závislosti na této volbě se potom zobrazuje počet stran s možností listování.

U jednotlivých článků zobrazeny vždy, resp. standardně (zleva): tři formáty pro zobrazení údajů o článku, skóre relevance, datum vydání, název článku, velikost plného textu: jednoduchý (standardní zobrazení), se souhrnem (standardní zobrazení plus souhrn), seskupený (standardní zobrazení plus články uspořádané do skupin podle shody v klíčových slovech podle společného kontextu, clustering).

Třídění seznamu výsledků (názvů vyhledaných článků)

Třídění: dle skóre (relevance), dle názvu, zdroje, data (vydání), stran, a to sestupně nebo vzestupně.

Zobrazení údajů o článku - formáty zobrazení

Uživatelské formáty

Citace článku, souhrn - bibliografické údaje o článku, resp. metadata s odkazy pro další hledání.

Citace článku, plný text - bibliografické údaje o článků, resp. metadata s odkazy pro další hledání a plný text článku.

DC/HTML – Dubline Core Metadata.

Název článku hypertextově aktivní – zobrazení citace a plného textu bez odkazů .

Pracovní formáty

V záhlaví plného textu jsou navíc různé pracovní formáty - klíčová slova, UNIMARC, Dublin Core – formát pro zpřístupňování elektronických dokumentů a jeho aplikace, které obsahují metadata (DC/HTML/META, DC/XHTML kvalifikovaný a nekvalifikovaný, DC/XML kvalifikovaný a nekvalifikovaný). Jsou určeny pro budoucí vývoj systému a zpřístupnění plných textů.

Export a tisk článků

Plné texty lze exportovat a ukládat na počítač uživatele v různých formátech (text, HTML, XML, RTF).

4.3.3 Periodika na WWW - strukturovaný portál na serveru full.nkp.cz

Portál obsahuje volně přístupná periodika na Internetu a dále se bude doplňovat, event. jejich uspořádání měnit. Nejsou zde zahrnuta periodika firemní, inzertní, bulvární, propagující hnutí potlačující lidská práva, sportovní, zpravodajská (zprávy z tiskových agentur bez dalšího kontextu) aj. periodika efemérní povahy.Takto zpřístupněná volně dostupná periodika jsou strukturována do přehledné formy portálu na úrovni krajské, tématické a institucionální.

4.3.4 Management Kooperačního systému článkové bibliografie (aplikace MNG KOSABI)

Na základě zadání pro řízení a správu kooperačního systému a za využití již vyvinutých řešení v rámci Souborného katalogu CASLIN probíhají práce na vývoji aplikace pro KOSABI na serveru ANL (systém LINUX a ORACLE). Ve stádiu ladění je aplikace pro příjem a automatizované zpracování dat (příjímání analytických záznamů, integrace stávajících programů pro konverzi analytických záznamů, globální úpravy analytických záznamů, vývoj programů na formálně logické kontroly kooperujících knihoven - test na UNIMARC pro analytické záznamy. Je vyvinut základ aplikace pro evidenci zpracovávaných titulů a test na duplicitu záznamů (klíčů) mimo ALEPH. V zásadě funkční je aplikace pro evidenci excerpční základny KOSABI.

5. Perspektivy - další možný vývoj prezentovaného systému, předpoklady, cíl

o Marc 21

o zvážení možnosti a efektivnosti spojení automatické sklizně dat a linky zpracování (návaznost na Webarchiv)

o zabudování řízeného věcného popisu do topiků

o napojení na autority

o zapojení do digitální knihovny

o řešení legislativně právních otázek a otázek plateb (jasné oddělení textů poskytovaných zdarma a za úplatu)

o rozšíření linky zpracování na další instituce a aplikace moderních metod zpracování a zpřístupnění na spolupracující instituce v rámci KOSABI (zpracování pomocí linky TTDE je jednoduché a propojení s plnými texty automatické)

o cíl: automatické či poloautomatické zpracování bibliografických záznamů z plných textů a intelektuální indexace věcná

o usnadnění chodu, administrativy a správy KOSABI

o orientace na další typy seriálových publikací, resp. pokračujících zdrojů po stránce obsahové a formální – předpoklad: dostatečné personální obsazení

o pro uživatele zpřístupnění báze ANL FULL v rámci konzorcia Anopress, resp. celostátní licence (VISK 8)

zpřístupnění báze ANL FULL v rámci Jednotné informační brány přes http protokol závisí na strategii tvůrců Metalibu (předpokládá připojit full.nkp.cz do Metalibu pro vyhledávání, připojit full.nkp.cz do SFX)
spolupráce s nakladateli a vydavateli - začlenění linky zpracování do předpokládaného možného vývoje - předpoklad: strukturované údaje, resp. údaje Dublin Core v textových formátech, resp. HTML formátu

Popsaná linka zpracování je použitelná po úpravě vstupním filtrem i na data existující v jiné databázi, event. v komunikaci mezi autorem, nakladatelstvím, bibliografickou agenturou, knihovnou/informační institucí a naopak.

Předpokládá však do jisté úrovně strukturovaný vstupní text, ze kterého data mohou být extrahována.

1) Pro identifikaci článků ve struktuře textu pro další zpracování v lince jsou důležité následující údaje z možných 15 prvků DC:

Název (Title)

Tvůrce (Creator)

Zdroj / Vztah (Source/Relation) - tj. název zdroje, roč., číslo, datum, strany

Nakladatel (Publisher)

Předmět (Subject) - klíčová slova nebo hesla nebo výrazy tezauru

Popis (Description) ve formě abstraktu

Práva (Rights)

Identifikátor (Identifier)

2) Pro konverzi či zápis údajů obsažených v hlavičce textu dokumentu je možno použít schéma definované na základě pokynů pro přispěvatele do časopisů (v běžném editoru), je možno použít i speciálních maker.

#NAZ#Název článku#/NAZ#

#ATR#Hlavní autor#/ATR#

#AT2#Další autor#/AT2#

#ZDR#Název zdroje#/ZDR#

#ROC#Ročník#/ROC#

#CIS#Číslo#/CIS#

#DAT#Datum vydání zdroje#/DAT#

#STR#Počáteční strana#/STR#

#VYD#Vydavatel#/VYD#

#KEY#klíčové slovo, klíčové slovo#/KEY#

#SUM#Abstrakt#/SUM#

#COP#Práva#/COP#

#ISN#ISSN#/ISN#

#IDE#Identifikační číslo#/IDE#

3) Zobrazení metadat po konverzi do DC v lince zpracování

4) V rámci linky zpracování se potom údaje mohou dále editovat a následně konvertovat do HTML podoby a příslušných formátů.

Do budoucna je možné uvažovat o několika subsystémech zpracování z hlediska typů titulů:

· Zpracování sborníků a nepravých periodik

· Zpracování deníků a časopisů v rámci linky automatické indexace/extrakce

· Zpracování plných textů volně přístupných na www na základě automatického sběru dat

Závěr

Základním cílem státní informační politiky je vybudovat a rozvíjet informační společnost a tím vytvořit předpoklady zejména pro zlepšení kvality života jednotlivých občanů, zefektivnění státní správy a samosprávy a zkvalitnění podpory rozvoje podnikání, zajištění bezbariérového přístupu k informacím v procesu výchovy a vzdělávání i pro vědecko výzkumnou činnost. Toto je i cílem institucí spolupracujících v KOSABI. Celkem dobře se daří napojení na plné texty publikované v novinách a některých časopisech díky vhodné situaci v této oblasti. Do budoucna nás čeká úkol složitější: propojení bibliografických záznamů plnými texty a zpracování elektronických zdrojů odborné, vědecké potažmo výzkumné povahy české provenience. Předpokladem je jejich publikování na Internetu a podpora tohoto publikování jak ze strany státu, tak ze strany jednotlivých subjektů, které tyto texty vlastní a produkují a transparentní, otevřený přístup všech zúčastněných. Vždyť se jedná o informace vznikající především ve veřejném sektoru. Zpřístupnění těchto informací se však neobejde bez spolupráce se soukromým sektorem. Domnívám se, že knihovny ani např. vysoké školy na to samy nestačí.

Na závěr bych se ráda zmínila o některých skutečnostech, odlišnostech a pararelách týkajících se zpracování článků v České a Slovenské republice. Třeba by mohly přispět k budoucí spolupráci v oblasti zpřístupnění plných textů:

Obdobný vývoj zpracování článkové bibliografie v minulosti
ČNB a SNB - stejný SW (Tornádo), součástí SNB Rozpisu článkov – články a statě vybraných periodik, rozpis map, hudebnin a audiovizuálních dokumentů, zahrnuje záznamy od r. 1978. Producentem dat je Slovenská národná knižnica (Martin) a data jsou přebírána z Automatizovaného informačního systému Slovenskej národnej bibliografie (SNB). V české národní bibliografii jsou obsaženy pouze články z novin, časopisů a jiných periodicky vydávaných dokumentech.
Sborný katalog knižnic SR, Souborný katalog ČR, Caslin, ALEPH v obou národních knihovnách. Integrovaný knihovní informační systém LIBRIS používá 120 knihoven různých typů a dokumentačních středisek na Slovensku. BIBLIS je bibliografickou nadstavbou systému LIBRIS. Existuje Súborná databáza regionálnej bibliografie Košice, Rožňava, Trebišov. V Česku existuje KOSABI a v něm různé SW a Lanius, resp. Clavius na úrovni městských knihoven..
Existence Anopressu a fy Slovakia Online a Siac, zabývající se obdobnou agendou, jako Anopress, Anopress má výhradní právo zastoupení firmy Slovakia Online pro ČR.
Na Slovensku platí zákon o periodických, neperiodických publikacích a audiovizuálních dílech, podle kterého jsou vydavatelé povinni poskytovat kopie v elektronické formě Univerzitní knihovně v Bratislavě a Slovenské národní knihovně.V České republice zákon o povinném výtisku neperiodických publikacích lze pravděpodobně aplikovat na neperiodické publikace, v oblasti neperiodických publikací zákon zakotvuje povinnost povinného výtisku pouze u tištěných publikací.

Praktické výsledky projektů prezentované na www. Z úsporných důvodů neuvádím použitou literaturu, která je na níže uvedených adresách. Uvádím pouze nově publikovanou stať, která v této literatuře není

DROBÍKOVÁ, B. Vývoj, směřování a trendy katalogizace za poslední čtyři roky: od FRBR až po revizi AACR2R v roce 2002. Národní knihovna : knihovnická revue. 2002, roč. 13, č.3, s. 153-167. Též dostupný z: <http://full.nkp.cz/nkkr/NKKR.html>.

Management Kooperačního systému článkové bibliografie - MNG KOSABI. Dostupný z: < http://full.nkp.cz>.

Seriály (periodika) a analytický popis (články) v České republice, plné texty.Propojení bibliografických záznamů s plnými texty [online]. Dostupný z: < http://www.nkp.cz/start/knihcin/OAZ/odd_anal_zprac.htm>.

Seznam seriálů excerpovaných v oddělení analytického zpracování. Dostupný z: <http://www.nkp.cz/start/knihcin/OAZ/Seznam_OAZ.htm>.

Státní vědecké a ostatní knihovny spolupracující v kooperačním systému článkové bibliografie a excerpční základny. Dostupný z:< http://www.nkp.cz/start/knihcin/OAZ/kooper_SVK.htm>.

Báze ANL [online]. Dostupný z:

< http://sigma.nkp.cz:4505/F/?func=file&file_name=base-list>

Báze ANL FULL [online]. Dostupný z:<http://full.nkp.cz>

Národní knihovna. Knihovnická revue [online]. Dostupný z: <http://full.nkp.cz/nkkr/NKKR.html>

ČNB [online]. Dostupný z: <http://aip.nkp.cz>

Báze Anopress

Báze TamTam [online]. Dostupný z:<http://http://www.anopress.cz>