Souborná databáze kooperAčního systému Článkové Bibliografie - optimalizace integrace a správy  heterogenních dat  (souhrnná informace)

 

Charakteristika projektu

 

Realizační projekt

Projekt VaV, programový projekt

Hlavní řešitelka: PhDr. Ivana Anděrová

Zdroj financí: MKČR

Doba trvání: r. 2000-2004

 

Anotace (zadání)

 

Náplní projektu je optimalizace integrace a správy heterogenních dat souborné databáze Kooperačního systému  článkové bibliografie. Bibliografické záznamy článků, publikovaných v českém periodickém tisku a zpracovávané spolupracujícími knihovnami, budou postupně propojované s elektronickou podobou článku a takto prezentované na Internetu. Obě části souborné databáze -  vznikající databáze plných textů a báze bibliografických záznamů ve formátu UNIMARC  - vyžadují permanentní kvalitní SW a HW podporu. Budování, doplňování, správu a údržbu plnotextové databáze s možností vyhledávání zajistí informační agentura ANOPRESS (systém TOPIC). Zároveň půjde o vývoj manažerského systému pro příjem a správu dat kooperačního systému. Hlavním  cílem projektu je zkvalitnění bibliograficko-informačních služeb.

 

Čerpání

 

           

Rok

Suma

Investice

Neinvestice

(z toho mzdy, materiál, licence, údržba)

Vklad odd. analytického zpracování NKČR

Vklad Anopress

2004

   915 000

 

915 000 (z toho mzdy 10 000)

200 000

120 000

2003

   915 000

 

915 000 (z toho mzdy 91 000)

200 000

120 000

2002

1 245 000

   230 000

1 015 000 (z toho mzdy 91 000)

200 000

120 000

2001

1 056 000

     41 000

 

1 015 0000 (z toho mzdy 91 000)

200 000

120 000

2000

2 320 000

1 295 000

1 025 000 (z toho materiál 48 000, licence 36 000, mzdy 91 000)

456 000

120 000

 

Úzce související projekt

 

Propojení analytických záznamů s plnými a optimalizace zpřístupnění plných textů

(výzkumný záměr VAV,  řešitelka  PhDr. I. Anděrová,  1999-2003, MKČR)

Související projekty

·         Jednotná informační brána

·         Souborný katalog ČR

·         Digitální knihovna

     

Funkce v projektu

Jméno

Činnost

Poznámka

Hlavní řešitelka (management projektu)

PhDr. Ivana Anděrová

Podklady pro programové aplikace pro bázi ANL FULL plus layout serveru ANL FULL (linka poloautomatické indexace - pracovní list, Dublin Core definice databáze ANL FULL - formáty, aplikace XHTML, XML, formuláře pro vyhledávání, rejstříky) a pro management kooperačního systému (MNG KOSABI), testování aplikací, metodická činnost, částečně správa databáze ANL, ANL FULL a portálu Periodika na WWW, koncepce, organizace a administrativa projektu

 Z toho z velké části vklad  hlavní řešitelky

do projektu

Spoluřešitel -  hlavní programátor projektu (TOPIC, ANL FULL)

Ing. Ivo Mattern

Provoz serveru full.nkp.cz a upgrade, systém Topic  - instalace a zprovoznění,  jednotlivé aplikace v systému TOPIC, portál Periodika na WWW (layout www stránek, definice databáze,  Dublin Core a jeho aplikace v   HTML, UNIMARCu,  XHTML, XML, formáty zobrazení,  vyhledávání, formuláře, rejstříky, topiky, aplikace pro registraci uživatelů), provoz   a údržba serveru a báze ANL FULL (zpřístupnění plných textů deníků a časopisů včetně periodika Národní knihovna, stahování a export článků v různých podobách  formátech text, RDF, HTML, XML a  UNICODE, administrace báze a portálu), aplikace linky poloautomatické indexace (linka zpracování bibliografických záznamů z plných textů) - získávání plných textů, pracovní formulář pro editaci, úpravy hlaviček, generování DC a UNIMARCu, převod výstupních dat do Ansel a UNICODE,  indexace)  

Server Dell, Topic (VIS), NT

Spoluřešitel  -spolupracující instituce

Anopress, s.r.o.

Nákup plných textů k off-line propojení,  provoz a údržba serveru full.nkp.cz, převod periodika Národní knihovna do html v bázi ANL FULL a na CD, linka poloautomatické indexace (získávání plných textů on line)

 

Dílčí úkol

PhDr. Josef Kučera

Definice topiků

 

Spoluřešitel - programátor MNG KOSABI

Ing. Jan Koktan

Instalace a zprovoznění systému Linux a Oracle, aplikace pro správu a údržbu Kooperačního systému článkové bibliografie (import /export, kontroly a zpracování dat, aplikace pro bázi titulů)

PC - PIII,  Linux,

Oracle

Spolupracující instituce

Tovek, s.r.o.

Rešerše internetových zdrojů pro portál a podklady pro aplikaci

 

Dílčí úkoly

Pracovníci NKČR a zejména pak oddělení analytického zpracování NKČR

Pracovnící NKČR: práce související se zpracováním a zpřístupněním článků.

Pracovníci oddělení analytického zpracování NKČR: ukládání záznamů v lince poloautomatické indexace a kontroly,  propojování záznamů s volně dostupnými plnými texty na www, korektury ANL

Z toho z části vklad pracovníků oddělení do projektu plus

a conto grantu redukce oddělení zatím o 5 úvazků od r. 2000

Dílčí úkol

Mgr. Denisa Molitorisová  (oddělení analytického zpracování NKČR)

Technická redakce www stránek kooperačního systému a oddělení analytického zpracování, zpráv o projektech aj. příležitostné práce související s projekty

Z toho z části vklad do projektu

Dílčí úkol

Mgr. Josef Schwarz

Analýza topiků a praktická doporučení pro jejich zkvalitnění v rámci materiálu Selekční účinnost topiků v databázi ANL FULL (komparativní analýza výsledků vyhledávání na základě předmětových hesel a topiků); studie Současný stav a trendy automatické indexace dokumentů (tato studie financována  z projektu Propojení analytických záznamů s plnými texty)

 

 

 

Publikované dokumenty

 

1. ANDĚROVÁ, Ivana. Současný stav a perspektivy kooperačního systému článkové bibliografie. Národní knihovna : knihovnická revue. 1995, roč. 6, č. 1, s. 39-42.
Též dostupný z: http://full.nkp.cz/  (báze ANL FULL)

2. Záznam pro soubornou databázi  : UNIMARC. Fyzicky nesamostatné části dokumentů. Tištěné monografie a seriály. Pracovní skupina pro analytické zpracování, Rada pro katalogizační politiku. 1. vyd. Praha : Národní knihovna České republiky,1999.   45 s.  (Standardizace ; č. 19). Určeno k připomínkám. Dostupný též z:  http://www.nkp.cz/pages/page.php3?page=fond_anal_unim_opr.htm


3. ANDĚROVÁ, Ivana. Programový projekt MK ČR "Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat". Ikaros [online]. 2000, č. 10 [cit. 2000-12-01].
Dostupný z:
http://www.ikaros.cz/Clanek.asp?ID=200301003.

4. ANDĚROVÁ Ivana: Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů.
Souhrnná informace [online].
Dostupný z:
http://www.nkp.cz/pages/page.php3?page=oazp_granty.htm

5. ANDĚROVÁ, Ivana. Kooperační sytém článkové bibliografie a propojení analytických záznamů s plnými texty - východiska a současný stav. Národní knihovna : knihovnická revue. 2001, roč. 12, č. 1, s. 26-37. Dostupný z: http://full.nkp.cz/nkkr/NKKR0101/0101026.html  

6. ANDĚROVÁ, Ivana. Metodika popisu článků ve formátu UNIMARC [online]. 2001.
Dostupný z:
http://www.nkp.cz/pages/page.php3?page=oazp_metodika.htm


7. ANDĚROVÁ, I. Báze ANL FULL v systému TOPIC. Textová verze. Inforum 2002.
Dostupný z: URL:
http://www.inforum.cz/inforum2002/prednaska26.htm ; http://full.nkp.cz, Rubrika Co je nového... .

8. ANDĚROVÁ
, I. Báze ANL FULL v systému TOPIC. Prezentace PPT. Inforum 2002.
Dostupný z: URL: http://full.nkp.cz, Rubrika Co je nového... .

9. ANDĚROVÁ
, I. Kooperační systém článkové bibliografie - KOSABI. (Vývoj a současný stav metodiky zpracování, zpřístupnění, organizace kooperace, perspektivy). Knihovny současnosti 2002. Sborník z 10. konference, konané ve dnech 24.-26. září 2002 v Seči u Chrudimi. 2002, s. 223-255.
Dostupný z: URL: http://full.nkp.cz, Rubrika Co je nového... .

10
. ANDĚROVÁ, I. Kooperační systém článkové bibliografie - KOSABI. (Vývoj a současný stav metodiky zpracování, zpřístupnění, organizace kooperace, perspektivy). Prezentace PPT na konferenci Knihovny současnosti 2002, Seč 24.-26.9.2002
Dostupný z: URL: http://full.nkp.cz, Rubrika Co je nového... .

11
. SCHWARZ, J.: Současný stav a trendy automatické indexace dokumentů. Přehledová studie. Verze 2.0.2002.
Dostupný z: URL: http://full.nkp.cz/nkdb/docs/studie/MAIobsah.html, Rubrika Co je nového... .

12
. SCHWARZ, J.: Selekční účinnost topiků v databázi ANL FULL. Komparativní analýza výsledků vyhledávání na základě předmětových hesel a topiků. Verze 1.0.2002. Zatím interní pracovní materiál.

13. ANDĚROVÁ, I. Aktuální informace o Kooperačním systému článkové bibliografie
SDRUK , 13. zasedání Sekce pro bibliografii. Hradec Králové, 5.-6.5. 2003. Dostupný z:
<  http://full.nkp.cz >, Rubrika Co je nového … .

 

14. ANDĚROVÁ, I. Problematika novin a World Library and Information Congress : 69th IFLA General Conference and Council. Media - Information - Culture . Ikaros [online]. 2003, č. 11 [cit. 2003-11-01].
Dostupný z: 
http://www.ikaros.cz/Clanek.asp?ID=200311005, http://full.nkp.cz, Rubrika Co je nového... .

15. ANDĚROVÁ, I.. Kooperační systém článkové bibliografie a báze ANL, ANL FULL. Infos 2003: zborník z 32. medzinárodného informatického sympózia, ktoré se konalo v dňoch 7.-10 apríla 2003 v Starej Lesnej. Sest. Alojz Androvič, Judita Kopáčiková. Bratislava, Centrum VTISR 2003. S. 149-161.

 

Plnění

Záměr úzce souvisí s výzkumným záměrem Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů, který je svým charakterem koncepční a částečně realizační.

 

R.2004

·         Výsledkem řešení projektu v r. 2004 je rutinní aplikace pro získávání  a automatickou extrakci/indexaci bibliografických záznamů z plných textů (Windows TTDE) pro lokální pracovní stanice a následné vytvoření  importního souboru záznamů pro databázi bibliografických záznamů ANL (UNIMARC) a databázi plných textů ANL FULL v NK s implementací metadat DC a UNIMARC v plných textech včetně automaticky generovaných formátů HTML, XHTML, XML v kvalifikované i nekvalifikované formě.  Automaticky se generuje URL.

·         Koncem r. 2004 – ověřovací provoz  internetové aplikace pro získávání a automatickou extrakci/indexaci bibliografických záznamů z plných textů (WWW TTDE - rozšířená o vstupní formáty HTML z libovolné URL adresy s možností ukládat metadata do báze ANL FULL (ANL) i bez uložení plných textů, dále s možností propojení na rejstříky báze ANL FULL s možností propojení linky se soubory autorit, s konverzí dat do M21 (vyžaduje drobné ladění), v této lince je zakomponován i modul pro opravy rejstříků a metadat v plných textech báze ANL FULL). Jsou zachovány základní funkce Windows linky, výstup možný v UNIMARCu, M21.

·         V r. 2004 je v rutinním provozu aplikace pro administraci databáze ANL FULL (statistiky,  evidence uživatelů) a aplikace pro stahování a export metadat a plných textů (formát text, rdf, html, UNICODE, XML) – pouze vybraní uživatelé jako test (problematika autorských práv).

·         V lince zpracování bibliografických záznamů z plných textů (TTDE) bylo zpracováno a následně naimportováno do báze ANL a ANL FULL cca 13 000 metadat (bibliografických záznamů) a plných textů (přístup na plně texty ke zpracování v lince hrazen poslední 3 měsíce z projektu VaV Budování vzájemně kompatibilních informačních systémů … .). 

·         V r. 2004 je udržován portál pro zpřístupnění volně dostupných textů na Internetu ve struktuře tematické a regionální s popisem zdrojů.

·         V r. 2004 je v rutinním provozu Aplikace pro management Kooperačního systému článkové bibliografie – aplikace pro upload, zpracování, kontroly a export dat kooperujících institucí do ALEPHU, aplikace pro evidence excerpční základny, aplikace pro kontroly URL adres a duplicitu záznamů.

·         V roce 2004 byla průběžně aktualizována souborná  databáze kooperačního systému ANL a vydáván CD-ROM s Českou národní bibliografií. 

·         V r. byl 2004 byly připraveny podmínky pro reálný vstup nově konstituovaných krajských knihoven a Národního filmového archivu do kooperace.

 

 

Souborná databáze kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat. Závěrečná zpráva za rok 2000-2004 [pro MKČR]

R. 2003

 

·         Výsledkem řešení projektu v r. 2003 je rutinní aplikace pro získávání  a automatickou extrakci/indexaci bibliografických záznamů z plných textů (TTDE) a následné vytvoření  importního souboru záznamů pro databázi bibliografických záznamů ANL a databázi plných textů ANL FULL v NK s implementací metadat DC v plných textech včetně automaticky generovaných formátů HTML, XHTML, XML v kvalifikované i nekvalifikované formě – aplikace pro lokální stanice v NKČR.  Automaticky se generuje URL.

·         V r. 2003 byla  částečně realizována internetová aplikace pro získávání a utomatickou extrakci/indexaci bibliografických záznamů z plných textů (WWW TTDE) rozšířená o vstupní formáty HTML z libovolné URL adresy s možností ukládat metadata do báze ANL FULL (ANL) i bez uložení plných textů, dále s možností propojení na rejstříky báze ANL FULL s možností propojení linky se soubory autorit. V této lince je zakomponován i modul pro opravy rejstříků a metadat v plných textech báze ANL FULL (částečně hrazeno z též projektu Propojení analytických záznamů).

·         V r. 2003 je v rutinním provozu aplikace pro administraci databáze ANL FULL (statistiky,  evidence uživatelů) a aplikace pro stahování a export metadat a plných textů (formát text, rdf, html, UNICODE, XML) – pouze vybraní uživatelé (problematika autorských práv).

·         V lince zpracování bibliografických záznamů z plných textů (TTDE) bylo zpracováno a následně naimportováno do báze ANL a ANL FULL cca 13 000 metadat (bibliografických záznamů) a plných textů.  V r. 2003 je udržován portál pro zpřístupnění volně dostupných textů na Internetu ve struktuře tematické a regionální s popisem zdrojů.

·         V roce 2003 byla průběžně aktualizována souborná  databáze kooperačního systému ANL a vydáván CD-ROM s Českou národní bibliografií.  Je dále laděna aplikace pro management kooperačního systému. V r. byl 2003 navázán pracovní kontakt se 4 nově vzniklými krajskými knihovnami (export/import v UNIMARCu,  excerpční základna).

 

Souborná databáze kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat. Souhrnná zpráva za rok 2003 [pro MKČR]

R. 2002

 

·         Výsledkem řešení projektu v r. 2002 je  poloprovoz linky pro získávání  a automatickou indexaci bibliografických záznamů z plných textů a následné vytvoření  importního souboru záznamů pro databázi bibliografických záznamů ANL a databázi plných textů ANL FULL v NK s implementací UNIMARCu, metadat DC v plných textech včetně automaticky generovaných formátů HTML, XHTML, XML v kvalifikované i nekvalifikované formě.

·         V r. 2002 byla navržena nová architektura a layout serveru FULL NKP, poloprovozně byla ověřena aplikace pro registraci a  přihlášení uživatelů, byla vytvořena aplikace pro administraci báze ANL FULL a portálu Periodika na WWW (opravy, statistiky, evidence),byla implementována a ověřena funkce pro stahování a export záznamů v několika formátech: text, RTF, HTML, XML , též v UNICODE.

·         rámci linky poloautomatické indexace (linky zpracování bibliografických záznamů z plných textů) bylo v roce 2002 zpracováno přes 13 000 záznamů z 15 titulů, tj. 13 000 bibliografických záznamů pro bázi ANL a stejný počet plných textů s metadaty pro bázi ANL FULL. Tituly volně přístupné (15 titulů) na WWW byly pravidelně propojovány se záznamy ANL v rámci projektu Propojení analytických záznamů s plnými texty. V roce 2002 byl aktualizován portál, zejména jeho oborová část.

·         V r. 2002 byly průběžně laděny vstupní soubory z některých systémů kooperujících institucí do KOSABI a báze ANL (T-Series, KP-Sys aj.) a byl navázán kontakt s nově konstituovanými krajskými knihovnami, mezi některými knihovnami proběhla jednání o spolupráci při zpracování titulů.

·         Další výsledkem řešení v r. 2002 je částečně poloprovozní aplikace pro  pro správu a údržbu Kooperačního systému článkové bibliografie (MNG KOSABI) a vytvoření jednotného interface pro tuto aplikaci. Aplikace se zatím testuje a ladí. Byla vytvořena báze titulů, kterou lze třídit podle názvů, zpracovávajících institucí a podle toho, zda tituly obsahují zpracované články s plným textem.

·         Současným trendem je vývoj vyhledávacích metod, které budou za pomoci technologií umělé inteligence pracovat přímo s plným textem a k automatické indexaci v původním slova smyslu nebude vůbec docházet. Analýza automatické indexace potvrdila  nutnost intelektuální indexace věcné, která je stále kvalitnější než automatické přiřazování termínů.

·         V r. 2002 byla provedena analýza selekční úplnosti topiků v bázi ANL FULL, která je přibližně 80 %  a byly vyvozeny praktické závěry pro zkvalitnění funkce topiků (ladění a interaktivní využití topiků).

·         V r. 2002 byla navržena a částečně vyvinuta  internetová verze linky poloautomatické indexace (TTDE – Tamtam Data Extraktor).

·         Byla provedena důkladná analýza zpracování článků v zahraničí (metody, organizace) a ověření, že podobné a srovnatelné metody se vyvíjejí v rámci tohoto projektu a  výsledky projektu byly prezentovány na konferenci Inforum 2002 a Knihovny současnosti 2002.

·         V r. 2002 byl proveden upgrade a update  serveru FULL.NKP.CZ  -  instalace Win 2000 serveru, instalace MS IIS 5,  byl implementován Portal One SE - Topic verze 3.7, byly zprovozněny www stránek v novém prostředí, byl aplikován  XMLHTTP a ASP skript, byly provedeny  úpravy propojení do ALEPHu). V r. 2002 byl proveden upgrade  serveru ANL (operační systém Linux SuSE 7.3  Oracle 9.2). Byly zakoupeny 2 upgrady PC, 1 PC, laptop, tiskárna, UPS, scanner a další SW vybavení.

·         Báze ANL FULL byla zpřístupněna v JIB jako odkaz, báze ANL byla zpřístupněna pro vyhledávání včetně propojení na  plný text v bázi ANL FULL ( dostupný pro interní uživatele NK, pro externí volně dostupná pouze metadata, plné texty na 7 dnů po registraci). V roce 2002 byla průběžně aktualizována souborná  databáze kooperačního systému ANL  a vydáván CD-ROM s Českou národní bibliografií.

 

Souborná databáze kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat. Souhrnná zpráva za rok 2002 [pro MKČR]

 

R. 2001

 

·         Výsledkem řešení projektu v r. 2001 je  experimentální provoz linky pro získávání  a automatickou indexaci bibliografických záznamů z plných textů a následné vytvoření  importního souboru záznamů pro databázi bibliografických záznamů ANL a databázi plných textů ANL FULL v NK s implementací UNIMARCu, metadat DC v plných textech včetně automaticky generovaných formátů HTML, XHTML, XML v kvalifikované i nekvalifikované formě.

·         V r. 2001 byla navržena nová architektura a layout serveru FULL.NKP, pozornost byla věnována definici báze ANL FULL, zejména vyhledávání  (prostý dotaz, formulářový dotaz, topiky, rejstříky), byl instalován formulář pro registraci a přihlášení uživatelů.

·         Plné texty článků byly  v rámci Konzorcia Anopress průběžně stahovány  a připraveny k  propojení off-line s bibliografickými záznamy v 1. pololetí tohoto roku (cca 3231 textů).

·         Plnotextová databáze byla dále průběžně doplňována články z deníků  časopisů vydanými v r. 1997 a 1998 (cca 24 426 článků). Celkem bylo off-line propojeno cca 51 000 záznamů s plnými texty, které byly zakoupeny  v letech 1999-2001. Od května  2001 jsou zpracovávány záznamy z deníků a některých časopisů v rámci linky automatické indexace (cca 4749 článků).

·         Průběžně byly staticky propojovány záznamy a plné texty z volně dostupných stabilních titulů na Internetu (cca 1400 článků).  Byl  založen portál pro zpřístupnění volně dostupných textů na Internetu ve struktuře tematické a regionální s popisem zdrojů.

·         V roce 2001 byla průběžně aktualizována souborná  databáze kooperačního systému ANL  a vydáván CD-ROM s Českou národní bibliografií.

·         Další výsledkem řešení v r. 2001 je experimentální aplikace pro správu a údržbu Kooperačního systému článkové bibliografie (MNG KOSABI), která  je zatím  přístupná pouze v NKČR pro účely ladění.

 

Souborná databaze kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat. Souhrnná zpráva za rok 2001 [pro MKČR].

 

 

R. 2000

 

·         Výsledkem řešení projektu  je  návrh  realizace modulární  programové aplikace pro získávání , zpracování,  indexaci  a zpřístupňování plných textů (url, metadata a definice tří typů formulářů pro plnotextové vyhledávání podle pokročilosti) za současné automatické indexace bibliografických záznamů z plných textů ve formátu UNIMARC a DUBLIN CORE.

·         V rámci linky automatické indexace tak vznikne  importní souboru záznamů pro databázi bibliografických záznamů ANL  a databázi plných textů ANL FULL  v NK s implementací metadat v plných textech včetně automaticky generované URL adresy a SICI.

·         Byl vytvořen skript pro propojení plných textů a bibliografických záznamů v bázi ANL v systému  ALEPH.

·         Pro vyhledávání v  plných textech je určen systém založený na pojmovém vyhledávání - TOPIC. Do tohoto systému jsou zatím vloženy hrubé definice  topiků.

·         Plné texty článků byly  v rámci konzorcia Anopress  průběžně stahovány, připravovány k dynamickému propojení a následně propojeny  s bibliografickými záznamy v 2. pololetí tohoto roku (cca 7528 propojení).

·         Plnotextová databáze byla dále průběžně doplňována články z deníků  časopisů vydanými v r. 2000 a 1998 (cca 17930 plných textů).

·         Průběžně byly staticky propojovány záznamy a plné texty z oblasti knihovnictví  aj. oborů.

·         V roce 2000 byla pravidelně aktualizována souborná  databáze kooperačního systému ANL a vydáván CD-ROM s Českou národní bibliografií.

·         Další výsledkem řešení v r. 2000 je návrh programové aplikace pro správu a údržbu Kooperačního systému článkové bibliografie (MNG KOSABI), který vychází z aplikací vyvinutých v rámci SK CASLIN  (přijímání záznamů, konverze, úpravy a kontrola záznamů).

·         Pro celý systém  byla zakoupena kvalitní HW a SW platforma (server Dell, TOPIC- VIS, NT, PC- PIII, Oracle). Projekt byl ošetřen smluvně.

 

Souborná databaze kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat. Souhrnná zpráva za rok 2000 [pro MKČR].

 

1.5.2005 Anděrová

 

Aktualizace: 11. červenec 2006