Aktuální
informace o Kooperačním systému článkové bibliografie
SDRUK , 13. zasedání Sekce pro bibliografii
Hradec Králové, 5.-6.5. 2003
Ivana
Anděrová
Současné trendy ve zpřístupňování plných textů a bibliografických informací
o článcích na Internetu -1
•
Nutnost nových modelů získávání, zpracování a
zpřístupňování bibliografických
informací, zároveň nutnost změn v chování uživatele (human computer
interaction) s rozvojem elektronického publikování
•
Typy elektronických dokumentů: podle původu - digitalizované,
současně tištěné i elektronické, doplňky k tištěným, pouze elektronické; podle obsahu – různá hlediska dělení; způsob a úroveň vydávání/popisu - monografie,
pokračující zdroje (seriály, integrující zdroje - např. webovská sídla),
jednotlivé části.
•
Získávání - zdroje plných textů : plné texty přístupné volně nebo
přes registraci na Internetu (elektronické časopisy, elektronická
vydavatelství /nakladatelství/informační agentury - archivy a databáze), plné texty získané od autora/
vydavatele/nakladatele/distributora, povinný výtisk, automatický sběr dat (harvesting).
•
Zpracování bibliografických záznamů a plných textů -
způsoby : tradiční v integrovaném knihovnickém
systému (ALEPH apod.), v lince
automatické indexace bibliografických záznamů z plných textů (spíše extrakce či
poloautomatická indexace doplněna ručně než zcela automatická) za
současné tvorby URL a metadat ve formě UNIMARC/perspektivně v MARC 21, DC,
XHTML, XML/RDF - nástroje pro extrakci, editaci, generování a indexaci dat (www
vyhledávač, SW).
Současné trendy ve zpřístupňování plných textů a bibliografických
informací o článcích na Internetu - 2
•
Metadata : bibliografický záznam (MARC), DC - metadatový formát pro www zdroje s
jednoduchou syntaxí a sémantikou, specifikováno 15 prvků , kvalifikované
atributem či nekvalifikované.
•
Značkovací jazyky: značky určují způsob interpretace textu, značky
určují význam (deskripce) a prezentaci (zobrazení) - HTML (kombinace obou typů, nedostatky), XML (pouze význam) + XSL (zobrazení) + Xlink, XPointer,XPath (odkazy).
•
Implementace metadat: MARC, DC a HTML, XHTML,
XML/RDF v kvalifikované
a nekvalifikované formě.
•
XML/RDF: popis systému značek
DTD (Document Type Description) tvoří tzv. RDF (Resource Description Framework) - Rámec pro popis zdrojů v
XML, definována syntax a sémantika - odkaz na definici RDF a metadatové schéma,
tzv. jmenný prostor, prvek identifikován popisem (jmenným prostorem) a jeho
názvem, možnost vkládat vnořené prvky.
•
Identifikace plných textů: URL, PURL
(databáze, PURL je přiřazeno danému URL), URN, SICI (pro
tištěné i elektronické seriály, články), DOI (ochrana autorských práv).
•
Propojení: ruční/automatické, on-line/off-line, statické/dynamické,
uzavřené/otevřené.
Současné trendy ve zpřístupňování plných textů a bibliografických
informací o článcích na Internetu - 3
•
Vyhledání a zpřístupnění plných textů: internetové
vyhledávače, protokol HTTP, XML, Z 39.50, SFX; brány a portály; "subjects gateways", konspekt, předmětové kategorie, témata; OPAC - bibliografické záznamy (UNIMARC/MARC 21) s URL adresou nebo
dynamicky, pojmové vyhledávání a fulltextové
vyhledávání (TOPIC) v kombinaci s rejstříky, interaktivní využití topiků při vyhledávání a zpětná vazba relevance
(relevance feedback); metatagy
DC v HTML, XHTML, XML/RDF.
•
Uložení plných textů: archivy, databáze - servery (nakladatelé/vydavatelé,
informačních agentury, knihovny).
•
Výstupy: seznam článků
(řazení dle relevance, do skupin - clustering aj.), formáty (citace/abstrakt/plný text, UNIMARC, DC, HTML, XHTML,
XML/RDF). Stahování, export a tisk
metadat a plných textů (formát text, RTF, HTML, XML, též UNICODE).
•
Uživatelé: lokální/interní, externí, registrovaní, neregistrovaní,
zkušební registrace.
Současné trendy ve zpřístupňování plných textů a bibliografických
informací o článcích na Internetu - 4
•
Zpřístupnění plných textů z hlediska formy: přes bibliografie a soupisy, obsahy
časopisů, plnotextové databáze,
digitální knihovny.
•
Zpřístupnění plných textů z hlediska
institucionálního (zdroje plných textů): autoři, nakladatelství/vydavatelství, distributorské
firmy, knihovny/informační instituce.
•
Zpřístupnění plných textů z hlediska organizačního,
ekonomického, technického: konzorcia, licence, zdarma, placené (předplatné - fixed-fee, platby za
uskutečněné operace - pay-as-you-go), přes
IP, login, heslo, volně.
•
Standardy: Metodika popisu článků ve formátu UNIMARC - vychází z AACR2R,
ISBD /CP; v budoucnu větší harmonizace
AACR2R a ISBD, ISBD (ER), ISBD(S) - ISBD (CR), FRBR – Funkční požadavky na
bibliografické záznamy (Functional Requirements for Bibliographic
Records) - 4 úrovňový model manifestace díla - dílo, exprese, manifestace,
jednotka, MARC 21.
Článková bibliografie a zpřístupnění plných textů - některé projekty
řešené v NKČR
•
Souborná
databáze Kooperačního systému článkové bibliografie - optimalizace integrace a
správy heterogenních dat (VaV, MKČR, 2000-2004).
•
Propojení
analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů
(VaV, MKČR, 1999-2003).
Kooperační systém článkové bibliografie
•
Kooperační systém článkové bibliografie - „užší“ (NKČR, MZK, krajské knihovny) a
„širší“ (plus oborové, resp. specializované knihovny)
- NKČR, zatím reálně 8 krajských knihoven
+ kontakty a spolupráce v teoretické rovině se 4 nově konstituovanými krajskými
knihovnami, MZK, STK, SPKK-ÚIV, ÚZPI, experiment s Českým geologickým ústavem.
•
Součástí „širšího“ kooperačního systému je i Národní lékařská knihovna, záznamy však nejsou součástí báze
ANL.
•
Kooperace po linii regionální a oborové.
•
Smluvní zajištění: Smlouva o sdružení pro Českou národní bibliografii
(r. 1998), Dodatek č. 3 (r. 2001) zajišťuje pokračování článkové bibliografie v
přechodném období související se změnou státoprávního uspořádání ČR.
•
Souborná bibliografická databáze KOSABI - ANL (vychází jako řada ČNB) a lokální databáze spolupracujících institucí, plnotextová báze ANL FULL s metadaty.
•
Systém
Lanius, resp. Clavius - kooperační
systém na úrovni menších knihoven a jeho
produkt SKAT (Souborný katalog
článků) - v současné době se řeší spolupráce
s KOSABI.
KOSABI a jeho výstupy
•
Báze
ANL a ANAL (Olomouc)
zpřístupněna v JIB jako zdroj, KVK
Liberec – Katalog článků jako odkaz.
•
Báze
ANL FULL zpřístupněna v JIB jako odkaz.
•
Plné
texty báze ANL FULL a přes bázi ANL
přístupné v JIB pro externí uživatele zatím na 7 dnů po registraci a
přihlášení, pro uživatele NKČR běžně. Export a stahovaní článků v testovací
fázi.
•
Báze
ANL (jejíž část vzniká v lince
TTDE) je vydávána jako řada ČNB Články
v českých novinách, časopisech a sbornících.
4 nové krajské knihovny a KOSABI
Krajská knihovny Karlovy Vary (Lanius)
Krajská knihovna Vysočiny (Clavius)
Krajská knihovna v Pardubicích (KP-sys)
Krajská knihovna Františka Bartoše ve Zlíně (KP-sys)
Spolupráce s novými knihovnami v rámci KOSABI
•
Přerozdělení titulů ke zpracování s ohledem na nové státoprávní
uspořádání.
•
Definice excerpční základny pro KOSABI (Havlíčkův Brod přebírá
kompletně excerpci svého kraje, Karlovy Vary, Zlín, Pardubice).
•
Ladění struktury záznamu po stránce formální i obsahové.
•
V
budoucnu nutno smluvně podchytit
- doplněk ke Smlouvě o sdružení pro ČNB, zatím experiment.
•
Vypracován
analytický doporučující materiál
týkající se titulové základny KOSABI a Lania, resp. Clavia a formální a
obsahové stránky záznamů, práce s autoritami – výchozí materiál k dalším
jednání (v Karlových Varech doplnit pole UNIMARC 100, 102, 675).
•
Duplicity
mezi NK a Laniem - určeny tituly, které je schopna zpracovávat NK, tituly,
které by bylo možno přebrat do ANL.
•
Duplicity
mezi krajskými knihovnami a Laniem, resp. Claviem nejsou velké (Karlovy Vary a
Havlíčkův Brod součástí KOSABI)) - záleží na vývoji spolupráce v krajských
bibliografických systémech, pro KOSABI zpracovávají nadále krajské knihovny.
•
Spolupráce
dobrá, pravidelné importy do
báze ANL (kromě krajské knihovny v Plzni). Kontrola importů.
•
V
r. 2002 ladění výstupu z tinlibovských knihoven (Ostrava, České Budějovice,
Ústí nad Labem).
•
Stále
konverze z ISIS knihoven (STK, ÚZPI, SPKK, Hradec Králové) bez problémů.
•
Rapid,
resp. ARL (Kladno a Liberec) bez
problémů.
•
Aleph
500 (Olomouc, Brno - on-line ukládání do
ANL) bez problémů.
MANAGEMENT KOSABI
•
Tvorba,
zpřístupnění a využívání databází KOSABI
•
MNG ANL,
MNG ANL FULL
•
Správa a
údržba databází ANL a ANL FULL, administrace
•
Báze
titulů - evidence excerpční základny
Excerpční základna KOSABI
•
Výběr
zpracovávaných dokumentů je orientován
na širší odbornou veřejnost:
•
A: seriály (časopisy, sborníky, ročenky) vydávané AVČR a vysokými školami v ČR
•
B: seriály (časopisy, sborníky, ročenky) vydávané ostatními institucemi v ČR
•
C: noviny (ústřední,
regionální) a kulturně politické
časopisy
•
D: populárně naučné časopisy
•
Vyloučena periodika místní, závodní a zábavného charakteru, časopisy
pro děti event. mládež
Úplnost excerpce a kategorie titulů
•
A:
1 (100-80 %)
•
B:
1 (sborníky, ročenky), 1-2 (odborné časopisy) (100-80-25 %)
•
C:
2, 3 (80-25, někdy méně) %)
•
D:
3 (25 – méně %)
Výběr typů článků
•
Faktograficky přínosné články.
•
Články odborné, články s dokumentární a
uměleckou hodnotou.
•
Oficiální dokumenty (projevy, vyhlášení, komuniké, usnesení).
•
Zprávy
a informace o kulturních, sportovních, politických, vědeckých aj. akcích (konferencích, seminářích,
festivalech, jednáních, zasedáních, výstavách, divadelních, rozhlasových a
televizních inscenacích, besedách, sportovních soutěžích).
•
Souhrnné a hodnotící články, závažné polemiky, diskuze a komentáře.
•
Reportáže, biografické články (životopisné, jubilejní, nekrology,
rozhovory, profily osobností, vzpomínky).
•
Literární texty (básně, povídky aj. ještě nepublikované, nové překlady),
fejetony, sloupky, úvodníky (pouze hodnotné).
•
Recenze publikací různého zaměření, gramofonových desek, kompaktních
desek, filmů apod.
Profil ANL a ANL FULL
•
Výběrové článkové databáze.
•
Obory: všechny (lékařství a sport okrajově, technika posílila).
•
Typy seriálů: ANL – kategorie A,B,C,D (omezeně); ANL FULL zatím
převažuje kategorie C .
•
Úplnost excerpce (výběr článků vzhledem k typům seriálů).
•
Popis a formáty: ANL a ANL FULL - UNIMARC, AACR2, MDT-MRF, předmětové
kategorie, hesla, klíčová slova; ANL FULL
navíc DC, XHTML, XML.
•
ANL/ALEPH (cca 765 000 záznamů, 537 titulů, r. 1991-).
•
ANL FULL/linka zpracování bibliografických záznamů z plných textu/TOPIC (107 000 plných textů s metadaty, 16
titulů, r. 1997-).
•
Aplikace
pro periodikum Národní knihovna
(r. 1999-), do r. 2001 v bázi ANL FULL, v budoucnu společné interface.
Management báze ANL
•
V
současné době v řešení aplikace pro
příjem a automatizované zpracování dat od kooperujících institucí
(konverze, globální úpravy, formálně logické kontorly - test na UNIMARC, test
na duplicitu záznamů, aplikace pro evidenci excerpční základny) - dílčí
aplikace:
•
upload předávání dat od kooperujících institucí do
KOSABI;
•
import dat na server ANL, export dat do báze ANL-
ALEPH);
•
kontrola na duplicity vně ALEPHu - klíče;
•
báze titulů.
Management KOSABI (server ANL)
Zatím
testováno v NKČR
Přístup pro spolupracující instituce přes http://full.nkp.cz
Upload předávání dat do KOSABI – určení formátu dat
Upload předávání dat do KOSABI – určení kódu dat
Konvence
Jména vstupních souborů pro
jednotlivé dodavatele dat dle názvových konvencí. Rozhodující / důležité je
pouze prvních 12 znaků, ostatní jsou doplňující.
Struktura: ssssssKK.FFF ssssss
sigla KK kódování FFF formát vstup. souboru
aba009kg.vfi.iso
aba012lg.vfi
aba013kg.vfi.iso
cba001lg.uis.mrc
hka001lg.vfi.iso
klg001lg.vfi.uis.iso
lia001lg.uis.iso
ola001uc.dtt
osa001lg.uis.ost
ulg001lg.uis.uis
kvg001lg.uis
hvg001lg.uis
pag001lg.rum
zlg001lg.uis
Zkratky pro kódování
*/ UM /* ISO 646 nebo ISO 5426
*/ GI /* GIZMO
*/ LG /* PC Latin 2 + GIZMO
*/ KG /* kod Kamen + GIZMO
*/ UC /* UNICODE UTF 8
*/ SG /* ISO 8859-2 + GIZMO
*/ KA /* kod Kamen
*/ AN /* ANSEL
Formát vstupního souboru
*/ DAT /* export ALEPH 300
*/ RUM /* řádkový UNIMARC
*/ UIS /* UNIMARC ISO 2709
*/ VFO /* vým.formát ISO 2709
*/ VFI /* vým.formát export soubor
CDS/ISIS
*/ DTT /* export ALEPH 500 */
Analytický popis, autority
•
UNIMARC,
AACR2R, ISBD – sledovat Katalogizační
politiku a stránky týkající se KOSABI (především Metodiku popisu článků v
UNIMARCu).
•
Věcný popis v KOSABI v závislosti na používaném systému - UNIMARC:
•
předmětové kategorie (615: konverzí ISIS, Aleph, Rapid);
•
předmětová hesla (600, 601, 602, 604, 606 : ISIS - konverzí 600,.601,602,606, 607 Aleph všechna
(Praha, Brno,Olomouc) , Tinlib - 600,
601, 607, Rapid - 600, 601,602, 607);
•
klíčová slova (610: konverzí ISIS, Tinlib, Rapid, Aleph – Olomouc, Praha
-, často se neužívají) - s plněním souborů autorit v bázi AUJ
postupně eliminovat;
•
geografické kódy (660), MDT (675): (konverzí z ISIS, Aleph,
Rapid, Tinlib - 675); chronologické vymezení (661) – Aleph (Olomouc).
•
Nové
krajské knihovny: Lanius - pouze klíčová slova, Clavius – předmětová hesla,
KP-sys – částečně předmětová hesla .
Věcný popis vázaný na MDT
•
Pořadí kategoríí,
předmětových hesel odpovídá pořadí MDT. MDT vztahující se k osobám a formě článku se uvádí nakonec
věcného popisu (osoby, forma). Jednotlivé výrazy se neduplikují.
•
Předmětové kategorie: obecné zařazení tématiky
dokumentu pod obecné hlavní téma (615a)
a zpřesnění (615x). V budoucnu potřebná
redakce a jejich sjednocení v rámci KOSABI (někde užíván starší materiál pro
řízená klíčová slova, v NKČR je užívána aktualizace pro řízemé předmětové
termíny, často vzniká z praxe, další vývoj v budoucnu – podle situace
s ohledem na konspekt).
•
Předmětové heslo
(600,601,602,604,606):
vystihuje hlavní téma dokumentu . V 606x uvádíme pouze vlastnost, atribut k
606a. V 606a se vyhýbat genitivním vazbám kromě odborných termínů. Stručná hesla, vázaná na autority (báze AUT
NKČR), podpole zpřesnění v heslech užívat zřídka.
•
U
článků propojovaných na plné texty šetřit
klíčovými slovy.
•
Aktualizované vybrané znaky MDT (Katalogizační
politika - NKČR,
označeny kurzívou).
•
V
budoucnu budeme patrně aplikovat metodu
konspektu – aplikace skupin konspektu.
•
V systému TOPIC užívány navíc topiky (předem
definovaná témata - obory).
Autority – báze AUT
•
Autority v podobě rejstříků, slov - báze AUT (NKČR)
•
Obecně: používat výraz v 2xx autoritního záznamu =
záhlaví.
•
Osobní jméno – nepoužívat v 70X , 600 jméno s písmenem o (je to odkaz viz, UNIMARC/Autority,
pole 400).
•
Korporace, konference – nepoužívat v 71x , 601 název s písmenem o (je to odkaz viz, UNIMARC/Autority,
pole 410).
•
Téma – nepoužívat v poli 606 výrazy
s písmenem o ( znamenají
odkaz viz, UNIMARC/Autority pole 450);
používat výrazy s písmenem g
(znamenají nadřazený termín BT, odkaz viz též, UNIMARC/Autority pole 550) ;
používat výrazy s písmenem h
, podřazený termín NT, odkaz viz též, UNIMARC/Autority pole 550); používat
výrazy s písmenem z,
asociovaný termín RT, odkaz viz též, UNIMARC/Autority pole 550).
•
Geografický termín
- nepoužívat
v poli 607 výrazy s o (
znamenají odkaz viz, UNIMARC/Autority pole 415); používat výrazy
s písmenem z, asociovaný termín RT (znamenají odkaz viz též, UNIMARC/Autority
pole 515); používat výrazy s písmenem h, podřazený termín NT (znamenají odkaz viz též, UNIMARC/Autority
pole 515); používat výrazy s g, nadřazený
termín BT(znamenají odkaz viz též, UNIMARC/AUTORITY pole 515);
•
Formální deskriptor – používat příslušné výrazy.
•
MDT - u MDT uvedena slovní vyjádření.
•
V katalogizačních
záznamech dodržovat interpunkci, která je použita v autoritách .
•
Autority
lze využívat přes Z39.50 a http.
Management ANL FULL
•
Linka
zpracování bibliografických záznamů z plných textů - linka automatické
indexace/extrakce ve spolupráci s Anopressem (akvizice plných textů z báze
TamTam). Dodržování standardů jako v bázi ANL.
•
Báze
ANL FULL v systému TOPIC.
•
Strukturovaný
portál Periodika na WWW.
Linka zpracování bibliografických záznamů z plných textů - lokální
stanice
Vyhledání příslušného zdroje
Označení článků a jejich stáhnutí
Doplnění dat do formuláře – 1. strana ze 3. Po doplnění dat odeslání dat
do ANL a ANL FULL
Zobrazení plného textu přes bibliografický záznam ANL
Plnotextová báze ANL FULL. Systém TOPIC – principy
•
Fulltextový pojmově orientovaný vyhledávací systém,
pojmové vyhledávání (concept retrieval) pomocí strukturovaných dotazů (topiků),
využívá poznatků z oboru sémiotiky.
•
Hodnocení důležitosti, relevance vyhledaných
dokumentů vzhledem k dotazu (relevance ranking), váhy.
•
Kvantifikace obsahu
dokumentů.
•
Shlukování dokumentů podle společného kontextu
(clustering) a možnost vytváření automatické anotace - sumarizace
(summarization).
•
Interaktivní vyhledávací systém - hledání dokumentů
s podobným obsahem - volný dotaz (Free
Text Query), dotaz příkladem (Query By Example).
Topik=dotaz
•
Dotaz - výraz složený ze slov a frází, který hledáme v dané
databázi.
•
Topik - je předem definovaný uložený strukturovaný dotaz, resp.
téma, které je tvořeno slovy, frázemi, operátory (významný fuzzy operátor ACCRUE) a modifikátory; obsahuje
informace o předmětu hledání.
•
Topik má podobu pojmového stromu, na jeho nižších úrovních (větvích) jsou množiny dalších
pojmů, resp. témat, která jsou tvořena dále nedělitelnými klíčovými slovy
(listy).
•
Pojmový
strom tvoří vyhledávací podmínku pro dokumenty týkající se určitého tématu.
•
Topik
je konceptuální popis znalosti o dané
problematice ve formě znalostního stromu.
•
Definice topiků tvoří tzv. znalostní bázi.
Jak vyhledávat. Druhy dotazů. Třídění a zobrazení výsledků vyhledávání
•
Čtyři
způsoby hledání: pole dotaz, pomocí formulářů, pomocí topiků,
resp. témat (předem strukturovaných dotazů), pomocí rejstříků.
•
Tři
druhy dotazů: prostý dotaz,
formulářový dotaz, tematický dotaz.
•
Tři
druhy formulářů: základní,
rozšířený, rozšířený s tématy.
•
Seznam výsledků: jednoduchý, se souhrnem, seskupený.
•
Třídění seznamu: skóre, výsl./str., vlastní třídění.
•
Zobrazení metadat: uživatelské formáty, pracovní formáty.
•
Rejstříky - nadefinováno 17 rejstříků.
Budoucnost linky?
•
Začlenění nových krajských knihoven v Pardubicích, Karlových Varech,
Havlíčkově Brodě, Zlíně.
•
KOSABI a SKAT - koordinace zpracování titulů v budoucnu.
•
Spolupráce
s dalšími knihovnami a
informačními institucemi.
•
Spolupráce
se společností Anopress, event. navázání
spolupráce s dalšími institucemi (nakladatelé, vydavatelé aj.).
•
Zpřístupnění báze ANL FULL v rámci konzorcia zároveň
s bází TamTam, podobné konzorcium pro multilicenční přítup pro linku
zpracování.
•
Projekt Souborná databáze kooperačního systému …
končí v r. 2004 – návazný projekt kooperativní?
•
Doladit převod z
některých systémů do standardního UNIMARCu
a báze ANL.
•
Harmonizace popisu článků v rámci KOSABI se soubory autorit zejména v oblasti věcného zpracování
(předmětová hesla, předmětové kategorie, metoda konspektu).
•
Konverze
UNIMARC-MARC 21, pravidla pro
popis článků vzhledem k tomuto formátu.
•
Testovat a event. postupně aplikovat linku
zpracování bibliografických záznamů z plných textů
(TTDE, automatická či poloautomatická extrakce a indexace dat) v rámci KOSABI.
•
Napojení linky zpracování na autority
•
Spolupráce s projektem Webarchiv?
MARC 21
•
Sledovat
záležitosti týkající se MARC 21 v Katalogizační politice (Informativní
materiály)
•
Plán
implementace MARC 21.
•
V
r. 2002 příprava konverzních tabulek Unimarc Marc21 v NKČR.
•
Minimální záznam UNIMARC pro soubornou databázi
článkové bibliografie (schválená - tj. "zelená" verze)
"Zelená" verze již nebude vydána, postačuje a platí
"oranžová" verze.
•
Minimální záznam MARC21 pro soubornou databázi
článkové bibliografie - září 2003.
•
V současné době se připravuje překlad MARC 21
v NKČR.
Katalogizační politika – nutné sledovat
Doporučené adresy
Katalogizační
politika http://www.nkp.cz/standard/standard1.htm
(schválené materiály, materiály k
připomínkování, informativní materiály – např. Marc 21, vecný popis a
autority, rada pracovní skupiny)
Báze NKČR
včetně báze AUT http://www.nkp.cz - Katalogy a databáze.
Báze ANL
FULL, Management KOSABI, projekty http://full.nkp.cz.
Seriály
(periodika) a analytický popis (články) v České republice, plné texty.