Aktuální informace o Kooperačním systému článkové bibliografie
SDRUK , 13. zasedání Sekce pro bibliografii
Hradec Králové, 5.-6.5. 2003

Ivana Anděrová

 

 

Současné trendy ve zpřístupňování plných textů a bibliografických informací o článcích na Internetu -1

 

          Nutnost nových modelů získávání, zpracování a zpřístupňování bibliografických  informací, zároveň nutnost změn v chování uživatele (human computer interaction) s rozvojem elektronického publikování

          Typy elektronických  dokumentů: podle původu - digitalizované, současně tištěné i elektronické, doplňky k tištěným, pouze elektronické; podle obsahu – různá hlediska dělení; způsob a úroveň  vydávání/popisu - monografie, pokračující zdroje (seriály, integrující zdroje - např. webovská sídla), jednotlivé části.

          Získávání - zdroje plných textů : plné texty  přístupné volně nebo přes registraci na Internetu (elektronické časopisy, elektronická vydavatelství /nakladatelství/informační agentury - archivy a databáze), plné texty získané od autora/ vydavatele/nakladatele/distributora, povinný výtisk, automatický sběr dat (harvesting).

          Zpracování bibliografických záznamů a plných textů - způsoby : tradiční v integrovaném knihovnickém systému (ALEPH apod.), v lince automatické indexace bibliografických záznamů z plných textů (spíše extrakce či poloautomatická indexace doplněna ručně než zcela automatická) za současné tvorby URL a metadat ve formě UNIMARC/perspektivně v MARC 21, DC, XHTML, XML/RDF - nástroje pro extrakci, editaci, generování a indexaci dat (www vyhledávač, SW).

 

 

Současné trendy ve zpřístupňování plných textů a bibliografických informací o článcích na Internetu - 2

 

          Metadata : bibliografický záznam (MARC), DC - metadatový formát pro www zdroje s jednoduchou syntaxí a sémantikou, specifikováno 15 prvků , kvalifikované atributem či nekvalifikované.

          Značkovací jazyky: značky určují způsob interpretace textu, značky určují význam (deskripce) a prezentaci (zobrazení) - HTML (kombinace obou typů, nedostatky), XML  (pouze význam) + XSL (zobrazení) + Xlink, XPointer,XPath (odkazy).

          Implementace metadat: MARC, DC a HTML, XHTML, XML/RDF v kvalifikované a nekvalifikované formě.

          XML/RDF: popis systému značek DTD (Document Type Description)  tvoří tzv. RDF (Resource Description Framework) - Rámec pro popis zdrojů v XML, definována syntax a sémantika - odkaz na definici RDF a metadatové schéma, tzv. jmenný prostor, prvek identifikován popisem (jmenným prostorem) a jeho názvem, možnost vkládat vnořené prvky.

          Identifikace plných textů: URL, PURL (databáze, PURL je přiřazeno danému URL), URN, SICI (pro tištěné i elektronické seriály, články), DOI (ochrana autorských práv).

          Propojení: ruční/automatické, on-line/off-line, statické/dynamické, uzavřené/otevřené.

 

Současné trendy ve zpřístupňování plných textů a bibliografických informací o článcích na Internetu - 3

 

          Vyhledání a zpřístupnění plných textů: internetové vyhledávače, protokol HTTP, XML, Z 39.50, SFX; brány a portály;  "subjects gateways", konspekt, předmětové kategorie, témata; OPAC - bibliografické záznamy (UNIMARC/MARC 21) s URL adresou nebo dynamicky, pojmové vyhledávání a fulltextové vyhledávání (TOPIC) v kombinaci s rejstříky, interaktivní využití topiků při vyhledávání a zpětná vazba relevance (relevance feedback); metatagy DC v HTML,  XHTML, XML/RDF.

          Uložení plných textů: archivy, databáze - servery (nakladatelé/vydavatelé, informačních agentury, knihovny).

          Výstupy: seznam článků (řazení dle relevance, do skupin - clustering aj.), formáty (citace/abstrakt/plný text, UNIMARC, DC, HTML, XHTML, XML/RDF). Stahování, export a tisk metadat a plných textů (formát text, RTF, HTML, XML, též UNICODE).

          Uživatelé: lokální/interní, externí, registrovaní, neregistrovaní, zkušební registrace.

 

Současné trendy ve zpřístupňování plných textů a bibliografických informací o článcích na Internetu - 4

 

          Zpřístupnění plných textů z hlediska formy: přes bibliografie a soupisy, obsahy časopisů, plnotextové databáze, digitální knihovny.

          Zpřístupnění plných textů z hlediska institucionálního (zdroje plných textů): autoři,   nakladatelství/vydavatelství, distributorské firmy, knihovny/informační instituce.

          Zpřístupnění plných textů z hlediska organizačního, ekonomického, technického: konzorcia, licence, zdarma, placené (předplatné - fixed-fee, platby za uskutečněné operace - pay-as-you-go), přes IP, login, heslo, volně.

          Standardy: Metodika popisu článků ve formátu UNIMARC - vychází z AACR2R, ISBD /CP; v budoucnu větší harmonizace AACR2R a ISBD, ISBD (ER), ISBD(S) - ISBD (CR), FRBR – Funkční požadavky na bibliografické záznamy (Functional Requirements for Bibliographic Records) - 4 úrovňový model manifestace díla - dílo, exprese, manifestace, jednotka, MARC 21.

 

Článková bibliografie a zpřístupnění plných textů - některé projekty řešené v NKČR

 

          Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat (VaV, MKČR, 2000-2004).

          Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů (VaV, MKČR, 1999-2003).

 

Kooperační systém článkové bibliografie

 

          Kooperační systém článkové bibliografie - „užší“ (NKČR, MZK, krajské knihovny) a  „širší“ (plus oborové, resp. specializované knihovny) -  NKČR, zatím reálně 8 krajských knihoven + kontakty a spolupráce v teoretické rovině se 4 nově konstituovanými krajskými knihovnami, MZK, STK, SPKK-ÚIV, ÚZPI, experiment s Českým geologickým ústavem.

          Součástí „širšího“ kooperačního systému je i Národní lékařská knihovna, záznamy však nejsou součástí báze ANL.

          Kooperace po linii regionální a oborové.

          Smluvní zajištění: Smlouva o sdružení pro Českou národní bibliografii (r. 1998), Dodatek č. 3 (r. 2001) zajišťuje pokračování článkové bibliografie v přechodném období související se změnou státoprávního uspořádání ČR.

          Souborná bibliografická databáze KOSABI - ANL (vychází jako řada ČNB) a lokální databáze spolupracujících institucí, plnotextová báze ANL FULL s metadaty.

          Systém Lanius, resp. Clavius - kooperační systém na úrovni menších knihoven  a jeho produkt SKAT (Souborný katalog článků) - v současné době se řeší spolupráce  s KOSABI.

 

KOSABI a jeho výstupy

 

          Báze ANL a ANAL (Olomouc) zpřístupněna v JIB jako zdroj, KVK Liberec – Katalog článků jako odkaz.

          Báze ANL FULL zpřístupněna v JIB jako odkaz.

          Plné texty báze ANL FULL a přes bázi ANL přístupné v JIB pro externí uživatele zatím na 7 dnů po registraci a přihlášení, pro uživatele NKČR běžně. Export a stahovaní článků v testovací fázi.

          Báze ANL (jejíž část vzniká v lince TTDE) je vydávána jako řada ČNB Články v českých novinách, časopisech a sbornících.

 

4 nové krajské knihovny a KOSABI

 

Krajská knihovny Karlovy Vary (Lanius)

Krajská knihovna Vysočiny (Clavius)

Krajská knihovna v Pardubicích (KP-sys)

Krajská knihovna Františka Bartoše ve Zlíně (KP-sys)

 

Spolupráce s novými knihovnami v rámci KOSABI

 

          Přerozdělení titulů ke zpracování s ohledem na nové státoprávní uspořádání.

          Definice excerpční základny pro KOSABI (Havlíčkův Brod přebírá kompletně excerpci svého kraje, Karlovy Vary, Zlín, Pardubice).

          Ladění struktury záznamu po stránce formální i obsahové.

          V budoucnu nutno smluvně podchytit - doplněk ke Smlouvě o sdružení pro ČNB, zatím experiment.

          Vypracován analytický doporučující materiál týkající se titulové základny KOSABI a Lania, resp. Clavia a formální a obsahové stránky záznamů, práce s autoritami – výchozí materiál k dalším jednání (v Karlových Varech doplnit pole UNIMARC 100, 102, 675).

          Duplicity mezi NK a Laniem - určeny tituly, které je schopna zpracovávat NK, tituly, které by bylo možno přebrat do ANL.

          Duplicity mezi krajskými knihovnami a Laniem, resp. Claviem nejsou velké (Karlovy Vary a Havlíčkův Brod součástí KOSABI)) - záleží na vývoji spolupráce v krajských bibliografických systémech, pro KOSABI zpracovávají nadále krajské knihovny.

          Spolupráce dobrá, pravidelné importy do báze ANL (kromě krajské knihovny v Plzni). Kontrola importů.

          V r. 2002 ladění výstupu z tinlibovských knihoven (Ostrava, České Budějovice, Ústí nad Labem).

          Stále konverze z ISIS knihoven (STK, ÚZPI, SPKK, Hradec Králové) bez problémů.

          Rapid, resp. ARL (Kladno a Liberec)  bez problémů.

          Aleph 500 (Olomouc,  Brno - on-line ukládání do ANL) bez problémů.

 

MANAGEMENT KOSABI

 

          Tvorba, zpřístupnění a využívání databází KOSABI

          MNG ANL, MNG ANL FULL

          Správa a údržba databází ANL a ANL FULL, administrace

          Báze titulů - evidence excerpční základny

 

Excerpční základna KOSABI

 

          Výběr zpracovávaných dokumentů  je orientován na širší odbornou veřejnost:

          A: seriály (časopisy, sborníky, ročenky) vydávané AVČR a vysokými školami v ČR

          B: seriály (časopisy, sborníky, ročenky) vydávané ostatními institucemi v ČR

          C: noviny (ústřední, regionální) a kulturně politické časopisy

          D: populárně naučné časopisy

          Vyloučena periodika místní, závodní a zábavného charakteru, časopisy pro děti event. mládež

 

Úplnost excerpce a kategorie titulů

 

          A: 1 (100-80 %)

          B: 1 (sborníky, ročenky), 1-2 (odborné časopisy) (100-80-25 %)

          C: 2, 3 (80-25, někdy méně) %)

          D: 3 (25 – méně %)

 

Výběr typů článků

 

          Faktograficky přínosné články.

          Články odborné, články s dokumentární a uměleckou  hodnotou.

          Oficiální dokumenty (projevy, vyhlášení, komuniké, usnesení).

          Zprávy a informace o kulturních, sportovních, politických, vědeckých aj. akcích (konferencích, seminářích, festivalech, jednáních, zasedáních, výstavách, divadelních, rozhlasových a televizních inscenacích, besedách, sportovních soutěžích).

          Souhrnné a hodnotící články, závažné polemiky, diskuze a komentáře.

          Reportáže, biografické články (životopisné, jubilejní, nekrology, rozhovory, profily osobností, vzpomínky).

          Literární texty (básně, povídky aj. ještě nepublikované, nové překlady), fejetony, sloupky, úvodníky (pouze hodnotné).

          Recenze publikací různého zaměření, gramofonových desek, kompaktních desek, filmů apod.

 

Profil  ANL a ANL FULL

 

          Výběrové článkové databáze.

          Obory: všechny (lékařství a sport okrajově, technika posílila).

          Typy seriálů: ANL – kategorie A,B,C,D (omezeně); ANL FULL zatím převažuje kategorie C .

          Úplnost excerpce (výběr článků vzhledem k typům seriálů).

          Popis a formáty: ANL a ANL FULL - UNIMARC, AACR2, MDT-MRF, předmětové kategorie, hesla, klíčová slova; ANL FULL  navíc  DC, XHTML, XML.

          ANL/ALEPH (cca 765 000 záznamů, 537 titulů, r. 1991-).

          ANL FULL/linka zpracování bibliografických  záznamů z plných textu/TOPIC (107 000 plných textů s metadaty, 16 titulů, r. 1997-).

          Aplikace pro periodikum Národní knihovna (r. 1999-), do r. 2001 v bázi ANL FULL, v budoucnu společné interface.

 

Management báze ANL

 

          V současné době v řešení aplikace pro příjem a automatizované zpracování dat od kooperujících institucí (konverze, globální úpravy, formálně logické kontorly - test na UNIMARC, test na duplicitu záznamů, aplikace pro evidenci excerpční základny) - dílčí aplikace:

          upload předávání dat od kooperujících institucí do KOSABI;

          import dat na server ANL, export dat do báze ANL- ALEPH);

          kontrola na duplicity vně ALEPHu - klíče;

          báze titulů.

 

Management KOSABI (server ANL)

 

Zatím testováno v NKČR

 

Přístup pro spolupracující instituce přes http://full.nkp.cz

Upload předávání dat do KOSABI – určení formátu dat

Upload předávání dat do KOSABI – určení kódu dat

Konvence

 

Jména vstupních souborů pro jednotlivé dodavatele dat dle názvových konvencí. Rozhodující / důležité je pouze prvních 12 znaků, ostatní jsou doplňující.

 

Struktura: ssssssKK.FFF ssssss sigla KK kódování FFF formát vstup. souboru

aba009kg.vfi.iso

aba012lg.vfi

aba013kg.vfi.iso

cba001lg.uis.mrc

hka001lg.vfi.iso

klg001lg.vfi.uis.iso

lia001lg.uis.iso

ola001uc.dtt

osa001lg.uis.ost

ulg001lg.uis.uis

kvg001lg.uis

hvg001lg.uis

pag001lg.rum

zlg001lg.uis

 

Zkratky pro kódování

*/ UM /* ISO 646 nebo ISO 5426

*/ GI /*  GIZMO

*/ LG /* PC Latin 2 + GIZMO

*/ KG /* kod Kamen + GIZMO

*/ UC /* UNICODE UTF 8

 */ SG /* ISO 8859-2 + GIZMO

*/ KA /* kod Kamen

*/ AN /* ANSEL

 

Formát vstupního souboru

*/ DAT /* export ALEPH 300

*/ RUM /* řádkový UNIMARC

*/ UIS /* UNIMARC ISO 2709

*/ VFO /* vým.formát ISO 2709

*/ VFI /* vým.formát export soubor CDS/ISIS

*/ DTT /* export ALEPH 500 */

 

Analytický popis, autority

 

          UNIMARC, AACR2R, ISBD – sledovat Katalogizační politiku a stránky týkající se KOSABI (především Metodiku popisu článků v UNIMARCu).

          Věcný popis v KOSABI v závislosti na používaném systému - UNIMARC:

          předmětové kategorie (615: konverzí ISIS, Aleph, Rapid);

          předmětová hesla (600, 601, 602, 604, 606 : ISIS -  konverzí 600,.601,602,606, 607 Aleph všechna (Praha, Brno,Olomouc) , Tinlib -  600, 601, 607, Rapid - 600, 601,602, 607);

          klíčová slova (610: konverzí ISIS, Tinlib, Rapid, Aleph – Olomouc, Praha -, často se neužívají)  -  s plněním souborů autorit v bázi AUJ postupně  eliminovat;

          geografické kódy (660),  MDT (675): (konverzí z ISIS, Aleph, Rapid, Tinlib - 675); chronologické vymezení (661) – Aleph (Olomouc).

          Nové krajské knihovny: Lanius - pouze klíčová slova, Clavius – předmětová hesla, KP-sys – částečně předmětová hesla .

 

Věcný popis vázaný na MDT

 

          Pořadí kategoríí, předmětových hesel odpovídá pořadí MDT. MDT vztahující se k osobám a formě článku se uvádí nakonec věcného popisu (osoby, forma). Jednotlivé výrazy se neduplikují.

          Předmětové kategorie: obecné zařazení tématiky dokumentu  pod obecné hlavní téma (615a) a zpřesnění (615x). V budoucnu potřebná redakce a jejich sjednocení v rámci KOSABI (někde užíván starší materiál pro řízená klíčová slova, v NKČR je užívána aktualizace pro řízemé předmětové termíny, často vzniká z praxe, další vývoj v budoucnu – podle situace s ohledem na konspekt).

          Předmětové heslo (600,601,602,604,606): vystihuje hlavní téma dokumentu . V 606x uvádíme pouze vlastnost, atribut k 606a. V 606a se vyhýbat genitivním vazbám kromě odborných termínů. Stručná hesla, vázaná na autority (báze AUT NKČR), podpole zpřesnění v heslech užívat zřídka.

          U článků propojovaných na plné texty šetřit klíčovými slovy.

          Aktualizované vybrané znaky MDT (Katalogizační politika - NKČR, označeny kurzívou).

          V budoucnu budeme patrně aplikovat metodu konspektu – aplikace skupin konspektu.

          V systému TOPIC užívány navíc topiky (předem definovaná témata - obory).

 

Autority – báze AUT

 

          Autority v podobě rejstříků,  slov - báze AUT (NKČR)

          Obecně: používat výraz v 2xx autoritního záznamu = záhlaví.

          Osobní jméno – nepoužívat v 70X , 600 jméno s písmenem o (je to odkaz viz, UNIMARC/Autority, pole 400).

          Korporace, konference – nepoužívat v 71x , 601 název s písmenem o (je to odkaz viz, UNIMARC/Autority, pole 410).

          Téma  nepoužívat v poli 606 výrazy s písmenem o ( znamenají odkaz viz, UNIMARC/Autority pole 450);  používat výrazy s písmenem g (znamenají nadřazený termín BT, odkaz viz též, UNIMARC/Autority pole 550) ; používat výrazy s písmenem h , podřazený termín NT, odkaz viz též, UNIMARC/Autority pole 550); používat výrazy s písmenem z, asociovaný termín RT, odkaz viz též, UNIMARC/Autority pole 550).

          Geografický termín  - nepoužívat v poli 607 výrazy s o ( znamenají odkaz viz, UNIMARC/Autority pole 415); používat výrazy s písmenem  z, asociovaný termín RT (znamenají odkaz viz též, UNIMARC/Autority pole 515); používat výrazy s písmenem h, podřazený termín NT (znamenají odkaz viz též, UNIMARC/Autority pole 515); používat výrazy s g, nadřazený termín BT(znamenají odkaz viz též, UNIMARC/AUTORITY pole 515);

          Formální deskriptor – používat příslušné výrazy.

          MDT - u MDT uvedena slovní vyjádření.

          V katalogizačních záznamech dodržovat interpunkci, která je použita v autoritách .

          Autority lze využívat přes Z39.50 a http.

 

Management ANL FULL

 

          Linka zpracování bibliografických záznamů z plných textů - linka automatické indexace/extrakce ve spolupráci s Anopressem (akvizice plných textů z báze TamTam). Dodržování standardů jako v bázi ANL.

          Báze ANL FULL v systému TOPIC.

          Strukturovaný portál Periodika na WWW.

 

Linka zpracování bibliografických záznamů z plných textů - lokální stanice

 

Vyhledání příslušného zdroje

Označení článků a jejich stáhnutí

Doplnění dat do formuláře – 1. strana ze 3. Po doplnění dat odeslání dat do ANL a ANL FULL

Zobrazení plného textu přes bibliografický záznam ANL

Plnotextová báze ANL FULL. Systém TOPIC – principy

 

          Fulltextový pojmově orientovaný vyhledávací systém, pojmové vyhledávání (concept retrieval) pomocí strukturovaných dotazů (topiků), využívá poznatků z oboru sémiotiky.

          Hodnocení důležitosti, relevance vyhledaných dokumentů vzhledem k dotazu (relevance ranking), váhy.

          Kvantifikace obsahu  dokumentů.

          Shlukování dokumentů podle společného kontextu (clustering)  a možnost  vytváření automatické anotace - sumarizace (summarization).

          Interaktivní vyhledávací systém - hledání dokumentů s podobným obsahem  - volný dotaz (Free Text Query), dotaz příkladem (Query By Example).

 

Topik=dotaz

 

          Dotaz - výraz složený ze slov a frází, který hledáme v dané databázi.

          Topik - je předem definovaný uložený strukturovaný dotaz,  resp. téma, které je tvořeno slovy, frázemi, operátory (významný fuzzy operátor ACCRUE) a modifikátory; obsahuje informace o předmětu hledání.

          Topik  má podobu pojmového stromu, na jeho nižších úrovních (větvích) jsou množiny dalších pojmů, resp. témat, která jsou tvořena dále nedělitelnými klíčovými slovy (listy).

          Pojmový strom tvoří  vyhledávací podmínku  pro dokumenty týkající se určitého tématu.

          Topik je konceptuální popis  znalosti o dané problematice ve formě znalostního stromu.

          Definice topiků tvoří tzv. znalostní bázi.

 

Jak vyhledávat. Druhy dotazů. Třídění a zobrazení výsledků vyhledávání

 

          Čtyři způsoby hledání: pole dotaz, pomocí formulářů, pomocí topiků, resp. témat (předem strukturovaných dotazů), pomocí rejstříků.

          Tři druhy dotazů: prostý dotaz, formulářový dotaz, tematický dotaz.

          Tři druhy formulářů: základní, rozšířený, rozšířený s tématy.

          Seznam výsledků: jednoduchý, se souhrnem, seskupený.

          Třídění seznamu: skóre, výsl./str., vlastní třídění.

          Zobrazení metadat: uživatelské formáty, pracovní formáty.

          Rejstříky - nadefinováno 17 rejstříků.

 

Budoucnost linky?

 

          Začlenění nových krajských knihoven v Pardubicích, Karlových Varech, Havlíčkově Brodě, Zlíně.

          KOSABI a SKAT - koordinace zpracování titulů v budoucnu.

          Spolupráce s dalšími knihovnami a informačními institucemi.

          Spolupráce se společností Anopress, event. navázání  spolupráce s dalšími institucemi (nakladatelé, vydavatelé aj.).

          Zpřístupnění báze ANL FULL v rámci konzorcia zároveň s bází TamTam, podobné konzorcium pro multilicenční přítup pro linku zpracování.

          Projekt Souborná databáze kooperačního systému … končí v r. 2004 – návazný projekt kooperativní?

          Doladit převod z některých systémů do standardního UNIMARCu a báze ANL.

          Harmonizace popisu článků v rámci KOSABI se soubory autorit zejména v oblasti věcného zpracování (předmětová hesla, předmětové kategorie, metoda konspektu).

          Konverze UNIMARC-MARC 21, pravidla pro popis článků vzhledem k tomuto formátu.

          Testovat a event. postupně aplikovat linku zpracování bibliografických záznamů z plných textů  (TTDE, automatická či poloautomatická extrakce a indexace dat) v rámci KOSABI.

          Napojení linky zpracování na autority

          Spolupráce s projektem Webarchiv?

 

MARC 21

 

          Sledovat záležitosti týkající se MARC 21 v Katalogizační politice (Informativní materiály)

          Plán implementace MARC 21.

          V r. 2002 příprava konverzních tabulek Unimarc Marc21 v NKČR.

          Minimální záznam UNIMARC pro soubornou databázi článkové bibliografie (schválená - tj. "zelená" verze)   "Zelená" verze již nebude vydána, postačuje a platí "oranžová" verze.

          Minimální záznam MARC21 pro soubornou databázi článkové bibliografie -  září 2003.

          V současné době se připravuje překlad MARC 21 v NKČR.

 

Katalogizační politika – nutné sledovat

Doporučené adresy

 

Katalogizační politika http://www.nkp.cz/standard/standard1.htm  (schválené materiály,  materiály k připomínkování, informativní materiály – např. Marc 21, vecný popis a autority,  rada pracovní  skupiny)

Báze dotazů  http://katdotaz.nkp.cz.

Báze NKČR včetně báze AUT http://www.nkp.cz - Katalogy a databáze.

Báze ANL FULL, Management KOSABI, projekty  http://full.nkp.cz.

Seriály (periodika) a analytický popis (články) v České republice, plné texty.

Propojení bibliografických záznamů s plnými texty (kooperace,excerpční základna, metodika, projekty) http://www.nkp.cz/start/knihcin/OAZ/odd_anal_zprac.htm