Server anl.nkp.cz, aplikace pro management Kooperačního systému článkové bibliografie 

- stav v r.  2004-2005, ... aktualizace 

 

Materiál byl zpracován na Základě projektu Souborná databáze kooperačního

systému článkové bibliografie - optimalizace integrace a správy heterogenních

dat (2000-2004, MKČR).

 

V r. 2005 se aplikace doplnila o sumární statistiky zobrazované na dynamicky

generovanýchj html stránkách. V r. 2004 vyvinutý přístup do aplikace přes upload dat

pro více uživatelů musel být (vzhledem k nedostatku licencí a zvyšujícímu se

počtu uživatelů) přizpůsoben pro jednoho uživatele. Jejich diferenciace probíhá uvnitř aplikace.

 

V r. 2006 přešla aplikace na SW volně dostupný na Internetu - opět možný diferencovaný přístup jedinečný pro každou knihovnu – viz též bod 5.

 

I. Stav  v r. 2004 a 2005

Aplikace se skládá z několika částí.

Na serveru anl.nkp.cz jsou na serveru anl.nkp.cz  k tomuto účelu odkazy:

 

Báze Titulů – zobrazení (stará verze - t. 2004)  

Báze Titulů – zobrazení (nová verze, experiment, ladí se a je postupně plněna - r. 2007)

Báze Titulů – statistiky (nová verze, experiment, ladí se - r. 2007)

Upload předávání dat do kooperačního systému - nápověda

Upload předávání dat do kooperačního systému. Registrace

Import – statistiky. Registrace

Upload/import dat – statistiky volně přístupné

Export – statistiky volně přístupné

KOSABI Admin. Registrace pouze Admin.

 

 

1. Aplikace pro zobrazení a evidenci zpracovávaných titulů v kooperačním systému

- Báze titulů (pracovní databáze)

 

(Použitý SW a programové prostředky: Oracle DB, PL/SQL, SQLJ, JDeveloper, Pro*C/C++ v r. 2004) 

 

Báze Titulů – zobrazení (stará verze - t. 2004)

 

V aplikaci jsou podchyceny instituce (a těmito institucemi  zpracovávané periodicky vydávané tituly),  které v současné době přispívají rutinně do báze ANL.

 

Nejsou zatím zachyceny tituly institucí, se kterými testujeme a ladíme provoz nebo které zatím přispívají v malých dávkách: ZLG001, PAG001, HBG001, KVG001 a postupně další (jakmile budou přispívat rutinně, budou zaevidovány v Bázi titulů);

dále nejsou zachyceny některé seriály s řídkou periodicitou a sborníky, které jsou uvedeny v samostatném seznamu u jednotlivých institucí.

 

Kompletní seznam titulů je uveden na  http://full.nkp.cz/nkdb/docs/tituly_napoveda.htm .

 

 

 

1.1 Aplikace pro zobrazení setřídění titulů dle různých hledisek

(nadefinována dle unimarcových  polí určených pro evidenci excerpční základny v bázi seriálů v UNIMARCu, která byla časem zrušena).

 

Tituly lze třídit podle zpracovávající instituce,  podle toho, zda jsou vybrané články titulů zpřístupňovány plnotextově, podle kategorie titulu. Pro jednotlivé tituly je definován krátký záznam dle polí UNIMARCu.

 

Formát SHORT pro bázi titulů

Název (200a)

Označení části (200h)

Název části (200i)

Obsahuje plný text (300a)

Dostupnost plného textu (310a)

Zdroj katalogizace - zpracovatelská instituce (801b)

Excerpce pro ANL (980a)

Excerpce pro vlastní potřeby (980b)

Kategorie titulu (980k)

 

Báze titulů – volně přístupné statistiky

K bázi titulů jsou k dispozici statistiky.

 

1. 2 Aplikace pro aktualizaci Báze titulů (pracovní báze)

Tituly lze vyhledávat podle instituce i abecedně, aktualizovat, zakládat nové záznamy a mazat staré. Jednotlivé záznamy se editují ve stromové struktuře.

 

1.3. Aplikace Báze titulů není aktuální, v současné době přechází na experimentální provoz, který je založen na volně dostupném SW.

 

Báze Titulů – zobrazení (nová verze, experiment, ladí se a je postupně plněna - r. 2007)

Báze Titulů – statistiky (nová verze, experiment, ladí se - r. 2007)

 

Pokud bude aplikace v budoucnu zprovozněna, budě možná editace.

 

 

2. Aplikace pro příjem a zpracování dat  v bázi SKA, export dat,  import do báze ANL

(použitý SW a programové prostředky:ORACLE DB, PL/SQL, Pro*C/C++, SQLJ, Jdeveloper v r. 2004) 
 

Upload předávání dat do kooperačního systému - nápověda

Upload předávání dat do kooperačního systému. Registrace  (jméno, heslo)

Import – statistiky. Registrace   (jméno, heslo, statistiky uploadů pro každou knihovnu

celkem i jednotlivé dávky detailně)

Upload/import dat – statistiky volně přístupné  (přehled počtu uploadů )

Export – statistiky volně přístupné  (přehled exportů do adresáře k opravám  a pro import do Alepnu)

 

Import do báze ANL/ALEPH (aplikace vyvinutá v NKČR)

 

Evidence proběhlých importů do báze ANL/Aleph jednotlivých knihoven (vede administrátor sám)

 
 

2.1 Upload předávání dat do kooperačního  systému. Registrace

Uload je možný v zásadě dvěma způsoby:

a)                         pod jedním uživatelských jménem a heslem pro všechny knihovny

b)                         pod jedinečným jménem a heslem pro každou knihovnu

 

Do října 2005 v provozu varianta b).

Od října 2005 do října 2006 v provozu varianta a) (nedostatek licencí).

Od října 2006 v provozu varianta b)

 

Po připojení se automaticky nastaví knihovnou nečastěji používaná kombinace formátu a kódu pro uploadovaná data. Pro upload je vypracována poměrně detailní nápověda. Uživatel jednoduše odešle soubor ze svého počítače.

 

2.2 Příjem dat pro systém a pomocnou bázi SKA, ze které se dále exportují záznamy pro import do Alepnu

 

Přípustné kódy a formáty v r. 2004:

 

*/ UM /* ISO 646 nebo ISO 5426

*/ GI /*  GIZMO

*/ LG /* PC Latin 2 + GIZMO

*/ KG /* kód Kamen. + GIZMO

*/ UC /* UNICODE UTF 8

*/ SG /* ISO 8859-2 + GIZMO

*/ KA /* kód Kamen.

*/ AN /* ANSEL

*/ WN/* Windows 1250

 

*/ DAT /* export ALEPH 300

*/ RUM /* řádkový UNIMARC

*/ UIS /* UNIMARC ISO 2709

*/ VFO /* vým.formát ISO 2709

*/ VFI /* vým.formát export soubor CDS/ISIS

*/ DTT /* export ALEPH 500

*/ CLA/* formát Clavius

*/ M21/* MARC21

 

Přípustné kódy a formáty v r. 2006:

 

 

Stávající  formáty dat

 

UNIMARC - exportní soubor ALEPH 300

at

Řádkový UNIMARC

rum

UNIMARC ISO 2709

uis

KPWIN

kpw

VF 2709 (VFO)

vfo

VF, CDS/ISIS

vfi

UNIMARC - exportní soubor ALEPH 500

dtt

Formát Clavius

cla

MARC21 – exportní soubor ALEPH 500

mal

MARC 21 – ISO 2709 

mis

 

 

 

 

Stávající kódy

                                          

Veškerá diakritika po mocí GIZMO

gi

ISO 646 nebo ISO 5426

um

PC Latin 2 + GIZMO

lg

Kód kamenických + GIZMO

kg

UNICODE UTF8

uc

ISO-8859-2 + GIZMO

sg

Kód Kamenických

ka

ANSEL

an

WINDOWS 1250

wg

 

 Aktualizace 2008

 

Přípustné kódy a formáty v r. 2008:

 

 

 

 

 

 

 

 

 

 

 

 

 

„Vážení“ záznamů

V současné době probíhá analýza záznamů, na základě které se stanoví nové váhy (kvalitativní ohodnocení) na základě obsahu záznamu z hlediska minimálního záznamu, jmenného a věcného popisu

      

Konvence značení souborů: uživatelé nemusí užívat předepsanou složitou konvenci

(viz Minimální záznamy), je třeba však dodržet délku názvu souboru do 5 pozic.

Aplikace sama soubory přejmenuje. Knihovny přispívají jednou do měsíce (uzus, který

lze změnit dle  potřeby).

 

V r. 2007/2008 stanoveny váhy na základě věcného popisu

 

Protože záznamy většinou splňují podmínky minimálního záznamu, byly záznamy odlišeny na základě kvality věcného popisu.

 

VAH 12 - pouze minimální záznam

VAH 14 - klíčová slova, předmětová hesla ne dle národních autorit ani jiných odborných heslářů

VAH 16 - klíčová slova, předmětová hesla částečně dle národních autorit

VAH 18 - klíčová slova, předmětová hesla dle národních autorit, event. anglické ekvivalenty, event. oborové hesláře, event. resumé česky, anglicky

VAH 20 - jako VAH 18 plus předmětová hesla dle oborových heslářů a jejich ekvivalenty

 

Váhy u jednotlivých institucí je třeba zrevidovat.

 

 

 

2.3 Zpracování vstupních  dat
 
Překódování do UTF-8
Konverze  formátu VFI a VFO
Konverze u formátu Clavius
Nahrazení znaku pro "tvrdé mezery" znakem SPACE
Úprava Sigla ( malá->velká písmena, vynecháni mezer)
Úprava Label
Úprava indikátorů (písmeno O/o -> num 0, písmeno l -> num 1)
Test UNIMARC 
Test  MARC 21 (v r. 2005, 2006)
Test na kritické chyby crerr  ( definice testu viz dále )
Přidělení váhy záznamu
Uložení dat do báze ANL/SKA
Výsledky zpracování uloženy do tabulky pro statistiky
 
Aktualizace v r. 2008
 
2.3.1  Statistiky záznamů a  chyb pro jednotlivé knihovny   bod  2.10
 
2.4 Export dat

Export  provádí pouze správce kooperačního systému.

Export se provádí do dvou adresářů.
Pro různé potřeby do určeného adresáře (např. opravy).
Pro následný import do Alephu do určeného adresáře.

 

2.5 Názvová konvence exportních souborů

V názvech souborů je zohledněno datum a zda se jedná o UNIMARC nebo MARC.

 

2.6 Úpravy dat při exportu

Na výstupu dochází ještě k vytváření polí ZAZ, ZAR, FMT, LBL a k úpravě nebo potlačení

některých polí, generování pomocného pole pro datum zdrojového dokumentu 461/463$9,

odstranění zpětných lomítek u knihoven T-Series/Tinlib

 

Plánováno: ošetření data v poli 100 u knihoven s T-Series/Tinlib, ošetření znaků vyloučených z řazení

.

 

2.7 Test na kritické chyby

Testuje přítomnost povinných polí.

 

2.8 Oprava záznamů

Podle výpisu u jednotlivých dávek lze záznamy opravit ještě před exportem do adresáře pro

Import do ALEPHu v příslušném editoru a po opravě znovu vyexportovat do adresáře pro ALEPH.

 

2.8 Odeslání mailu pro spuštění importu do Alepnu

Před importem do Alepnu probíhá  konverze z UNIMARcu do M21.

O provedeném importu je zaslána správci mailem hláška.

 
2.9. O proběhlých uploadech/importech a exportech do adresářů, importu do ALEPHU jsou
 k dispozici jak statistiky detailní u jednotlivých dávek (po registraci), tak statistiky sumární:
 

Import – statistiky. Registrace   (jméno, heslo, statistiky uploadů pro každou knihovnu

celkem i jednotlivé dávky detailně)

Upload/import dat – statistiky volně přístupné  (přehled počtu záznamů od r. 2000-,

též pro každý aktuální rok)

Export – statistiky volně přístupné  (přehled počtu záznamů pro každý aktuální rok)

 pro jednotlivé knihovny )

Import do báze ANL/ALEPH (aplikace vyvinutá v NKČR, statistiky zasílané za základě mailu,

celkový počet v jednotlivých importech k určitému datu)

Evidence proběhlých importů u jednotlivých knihoven (vede administrátor sám)

 

3. Test na kontrolu platnosti URL adres – přístupný pouze pro administrátora

 
Test URL adres se provádí vně ALEPHu na datech s URL adresami.
 
3.1. Start testu (spuštění testu)
3.2. Statistika testu (kódy podle validity testované adresy a zobrazení adres pro určitý kód označující chybu)
3.3. Přehled aktualizace URL adres (zobrazení přehledu počtu nových a aktualizovaných adres)

3.4. Přehled záznamů (zobrazení počtu záznamů/adres celkem, které jsou k dispozici pro test)

 

Test se provádí na zadání administrátora. Testuje se na základě aktuálního souboru záznamů z báze ANL obsahujících pole 856.

Možné kombinace testu: testovat adresy vyjma báze ANL FULL nebo adresy ANL FULL, testovat ok adresy nebo testovat ERR adresy.

Na základě testu vznikají podrobné statistiky s výpisem chyb.

 

4. Administrace

Přístup pouze pro administrátora:

Test url adres (viz bod 3)

Export files – adresář k různým potřebám

Export files  - adresář souborů určených pro import do ANL/ALEPH

Klíče (každý záznam v pomocné bázi ANL/SKA má klíč, podle kterého lze zjistit duplicitu záznamu – vzhledem k rozdělení zpracovávaných titulů se neužívá, nezabudováno do upgradu 2006)

Dokumentace (na serveru anl.nkp.cz je k jednotlivým aplikacím k dispozici dokumentace).

 

5. HW a SW

PC Pentium III, 700 MhZ,  operační systém Linux SuSE 7.3, verze Oracle 9.2 v r. 2005 a částečně v r. 2006.

 

Současný SW (konec r. 2006):

operační systém CentOS 4.3 ( Red Hat )
Oracle 10.2 Express Edition
Web server: apache-tomcat-5.5.17

Sun Java System Application Server

Aplikace jsou řešeny: Java, C, NetBeans IDE 5.0


6. Smluvní zajištění systému článkové bibliografie

Smlouva o sdružení pro Českou národní bibliografii (r. 1998, státní vědecké knihovny, MZK, NKČR), Dodatek č. 3 (r. 2001) zajišťuje pokračování článkové bibliografie v přechodném období související se změnou státoprávního uspořádání ČR.

Se specializovanými knihovnami vždy separátní smlouvy na rok (poslední v r. 2004).

Dosud neuzavřeny smlouvy s novými krajskými knihovnami.

V r. 2005  se připravuje  nová smlouva o ČNB.

 

 

II. Perspektivy

Je třeba vyladit chybové hlášky v UNIMARCu a MARCu 21 (z 95 % jsou hotovy).

 

Aplikace několikanásobně zrychlila předávání dat do databáze ANL/ALEPH v době, kdy existuje několik systému, kódování a formátů (MARC 21, UNIMARC, VF) a umožnila fungování kooperačního systému za této situace.  Kooperační systém je plném provozu  od r. 1993.

 

V roce 2006 probíhají přípravy na přechod některých knihoven na M21 (zatím Pardubice, Zlín, České Budějovice, Hradec Králové). V M21 jsou již NKČR, krajské knihovny v Plzni a Olomouci, z odborných knihoven ÚZPI. Ladí se chybové hlášky. 

 

V roce 2007 některé knihovny nově v  M21 (Pardubice, Zlín, České Budějovice, Hradec Králové).  Ladí se chybové hlášky, navázána spolupráce např. s MU, AVČR, kontakty s UK.

V roce 2007 přechod krajských knihoven na M21 - České Budějovice, Hradec Králové aj.  

 

V roce 2008 přechod krajských knihoven v Kladně, Zlíně a Liberci na M21, aktualizace formátů a kódů pro upload, zobrazení uploadovaných záznamů pro jednotlivé uživatele a propojení z hlášek o chybách na jednotlivé záznamy, ke spolupráci přistoupil Archeologický ústav AVČR, test Knihovna Kroměříž

 

V roce 2009 přechod krajské knihovny v Ostravě na M21, konzultace týkající se konverze dat Historického ústavu AVČR (ISIS), návrh aktualizace aplikace "klíče" pro porovnávání duplicitních záznamů v kooperačním systému; přerušen import dat Divadelního ústavu - přechod na M21.

 

V roce 2010 zprovozněna aplikace  "klíče" pro porovnávání duplicit, server anl. nkp.cz a aplikace pro upload záznamů převedeny do jednotného

serverového prostředí NKČR (Vmware vSphere 4).

 

Stav v r. 2011 - bude zveřejněn

 

O Kooperačním systému článkové bibliografie též 

http://full.nkp.cz/nkdb/docs/mngkochar.htm

  

 

Anděrová, 2005

Aktualizace:

Říjen 2006  - část  I.,  bod  1.3 a 2.1, část II.

Listopad 2006

Listopad 2007

Duben 2009

Květen 2010

Březen 2011