Realizační projekt
Projekt VaV, programový projekt
Hlavní řešitelka: PhDr.
Zdroj financí: MKČR
Doba trvání:
r. 2000-2004
Anotace (zadání)
Náplní
projektu je optimalizace integrace a správy heterogenních dat souborné databáze
Kooperačního systému
článkové bibliografie. Bibliografické záznamy článků,
publikovaných v českém periodickém tisku a zpracovávané spolupracujícími
knihovnami, budou postupně propojované s elektronickou podobou článku a takto
prezentované na Internetu. Obě části souborné databáze
- vznikající
databáze plných textů a báze bibliografických záznamů ve formátu UNIMARC - vyžadují permanentní kvalitní SW a HW
podporu. Budování, doplňování, správu a údržbu
plnotextové databáze s možností vyhledávání zajistí informační agentura
ANOPRESS (systém TOPIC). Zároveň půjde o vývoj manažerského
systému pro příjem a správu dat kooperačního systému. Hlavním cílem projektu je zkvalitnění bibliograficko-informačních
služeb.
Čerpání
Rok |
Suma |
Investice |
Neinvestice (z toho mzdy, materiál, licence, údržba) |
Vklad odd. analytického zpracování NKČR |
Vklad
Anopress |
2004 |
915 000 |
|
915 000
(z toho mzdy 10 000) |
200 000 |
120 000 |
2003 |
915 000 |
|
915 000
(z toho mzdy 91 000) |
200 000 |
120 000 |
2002 |
1 245
000 |
230 000 |
1 015 000
(z toho mzdy 91 000) |
200 000 |
120 000 |
2001 |
1 056 000 |
41 000 |
1 015
0000 (z toho mzdy 91 000) |
200 000 |
120 000 |
2000 |
2 320 000 |
1 295 000 |
1 025 000 (z toho materiál 48 000, licence
36 000, mzdy 91 000) |
456 000 |
120 000 |
Úzce související projekt
Propojení analytických
záznamů s plnými a optimalizace zpřístupnění plných textů
(výzkumný záměr VAV, řešitelka PhDr. I. Anděrová, 1999-2003, MKČR)
Funkce
v projektu |
Jméno |
Činnost |
Poznámka |
Hlavní
řešitelka (management projektu) |
PhDr. |
Podklady
pro programové aplikace pro bázi ANL FULL plus layout serveru ANL FULL (linka
poloautomatické indexace - pracovní list, Dublin
Core definice databáze ANL FULL - formáty, aplikace XHTML, XML, formuláře pro
vyhledávání, rejstříky) a pro management kooperačního systému (MNG KOSABI),
testování aplikací, metodická činnost, částečně správa databáze ANL, ANL FULL
a portálu Periodika na WWW, koncepce, organizace a administrativa projektu |
Z toho z velké části vklad hlavní řešitelky do
projektu |
Spoluřešitel - hlavní programátor projektu (TOPIC, ANL FULL) |
Ing. Ivo
Mattern |
Provoz
serveru full.nkp.cz a upgrade, systém Topic
- instalace a zprovoznění, jednotlivé aplikace v systému TOPIC,
portál Periodika na WWW (layout www stránek, definice databáze, Dublin Core a jeho aplikace v HTML, UNIMARCu, XHTML, XML, formáty zobrazení, vyhledávání, formuláře, rejstříky, topiky,
aplikace pro registraci uživatelů), provoz
a údržba serveru a báze ANL FULL (zpřístupnění plných textů deníků a
časopisů včetně periodika Národní knihovna, stahování a export článků
v různých podobách formátech
text, RDF, HTML, XML a UNICODE,
administrace báze a portálu), aplikace linky poloautomatické indexace (linka
zpracování bibliografických záznamů z plných textů) - získávání plných
textů, pracovní formulář pro editaci, úpravy hlaviček, generování DC a
UNIMARCu, převod výstupních dat do Ansel a UNICODE, indexace)
|
Server Dell, Topic ( |
Spoluřešitel
-spolupracující instituce |
Anopress,
s.r.o. |
Nákup
plných textů k off-line propojení, provoz a údržba serveru full.nkp.cz,
převod periodika Národní knihovna do html v bázi ANL FULL a na CD, linka
poloautomatické indexace (získávání plných textů on line) |
|
Dílčí
úkol |
PhDr.
Josef Kučera |
Definice
topiků |
|
Spoluřešitel - programátor MNG KOSABI |
Ing. Jan
Koktan |
Instalace
a zprovoznění systému Linux a Oracle, aplikace pro správu a údržbu
Kooperačního systému článkové bibliografie (import /export, kontroly a
zpracování dat, aplikace pro bázi titulů) |
PC - PIII, Linux, Oracle |
Spolupracující
instituce |
Tovek,
s.r.o. |
Rešerše internetových zdrojů pro portál a podklady
pro aplikaci |
|
Dílčí
úkoly |
Pracovníci
NKČR a zejména pak oddělení analytického zpracování NKČR |
Pracovnící
NKČR: práce související se zpracováním a zpřístupněním článků. Pracovníci
oddělení analytického zpracování NKČR: ukládání záznamů v lince
poloautomatické indexace a kontroly, propojování záznamů s volně
dostupnými plnými texty na www, korektury ANL |
Z toho z
části vklad pracovníků oddělení do projektu plus a conto grantu redukce oddělení zatím o 5 úvazků od
r. 2000 |
Dílčí
úkol |
Mgr. |
Technická
redakce www stránek kooperačního systému a oddělení analytického zpracování,
zpráv o projektech aj. příležitostné práce související s projekty |
Z toho z části vklad do projektu |
Dílčí
úkol |
Mgr.
Josef Schwarz |
Analýza
topiků a praktická doporučení pro jejich zkvalitnění v rámci materiálu
Selekční účinnost topiků v databázi ANL FULL (komparativní analýza
výsledků vyhledávání na základě předmětových hesel a topiků); studie Současný
stav a trendy automatické indexace dokumentů (tato studie financována z projektu Propojení
analytických záznamů s plnými texty) |
|
Publikované dokumenty
1.
ANDĚROVÁ,
Též dostupný z: http://full.nkp.cz/ (báze ANL FULL)
2.
Záznam pro soubornou databázi
: UNIMARC. Fyzicky nesamostatné části
dokumentů. Tištěné monografie a seriály. Pracovní skupina pro analytické
zpracování, Rada pro katalogizační politiku. 1. vyd.
Praha : Národní knihovna České republiky,1999. 45 s. (Standardizace ; č.
19). Určeno k připomínkám. Dostupný též z:
http://www.nkp.cz/pages/page.php3?page=fond_anal_unim_opr.htm
3. ANDĚROVÁ, Ivana. Programový projekt MK ČR "Souborná databáze
Kooperačního systému článkové bibliografie - optimalizace integrace a správy
heterogenních dat". Ikaros [online]. 2000, č. 10 [cit. 2000-12-01].
Dostupný z: http://www.ikaros.cz/Clanek.asp?ID=200301003.
4. ANDĚROVÁ Ivana: Propojení analytických záznamů s plnými texty a optimalizace
zpřístupnění plných textů. Souhrnná
informace [online].
Dostupný z: http://www.nkp.cz/pages/page.php3?page=oazp_granty.htm
5. ANDĚROVÁ,
6. ANDĚROVÁ,
Dostupný z: http://www.nkp.cz/pages/page.php3?page=oazp_metodika.htm
7. ANDĚROVÁ, I. Báze ANL FULL v systému TOPIC. Textová verze. Inforum 2002.
Dostupný z: URL: http://www.inforum.cz/inforum2002/prednaska26.htm
; http://full.nkp.cz, Rubrika Co je nového... .
8. ANDĚROVÁ,
I. Báze ANL FULL v systému TOPIC. Prezentace PPT. Inforum 2002.
Dostupný z: URL: http://full.nkp.cz, Rubrika
Co je nového... .
9. ANDĚROVÁ, I.
Dostupný z: URL: http://full.nkp.cz, Rubrika
Co je nového... .
10. ANDĚROVÁ, I.
Dostupný z: URL: http://full.nkp.cz, Rubrika
Co je nového... .
11. SCHWARZ, J.: Současný stav a trendy automatické indexace dokumentů.
Přehledová studie. Verze 2.0.2002.
Dostupný z: URL: http://full.nkp.cz/nkdb/docs/studie/MAIobsah.html,
Rubrika Co je nového... .
12. SCHWARZ, J.: Selekční účinnost topiků v databázi ANL FULL. Komparativní
analýza výsledků vyhledávání na základě předmětových hesel a topiků. Verze
1.0.2002. Zatím interní pracovní materiál.
13. ANDĚROVÁ, I. Aktuální informace o Kooperačním systému článkové
bibliografie
SDRUK , 13. zasedání Sekce pro bibliografii. Hradec Králové, 5.-6.5. 2003. Dostupný z: < http://full.nkp.cz
>, Rubrika Co je nového … .
14. ANDĚROVÁ, I. Problematika novin a World Library
and Information Congress : 69th IFLA General
Conference and Council. Media - Information - Culture .
Ikaros [online]. 2003, č. 11 [cit.
2003-11-01].
Dostupný z: http://www.ikaros.cz/Clanek.asp?ID=200311005, http://full.nkp.cz, Rubrika Co je nového... .
15. ANDĚROVÁ, I..
Plnění
·
Výsledkem řešení projektu v r. 2004 je
rutinní aplikace pro získávání a
automatickou extrakci/indexaci bibliografických záznamů z plných textů (Windows
TTDE) pro lokální pracovní stanice a následné vytvoření importního souboru záznamů pro databázi
bibliografických záznamů ANL (UNIMARC) a databázi plných textů ANL
FULL v NK s
implementací metadat DC a UNIMARC v plných textech včetně automaticky
generovaných formátů HTML, XHTML, XML v kvalifikované i nekvalifikované
formě. Automaticky se generuje URL.
·
Koncem r. 2004 – ověřovací provoz internetové aplikace pro získávání a
automatickou extrakci/indexaci bibliografických záznamů z plných textů
(WWW TTDE - rozšířená o vstupní formáty HTML z libovolné URL adresy
s možností ukládat metadata do báze ANL FULL (ANL) i bez uložení plných
textů, dále s možností propojení na rejstříky báze ANL FULL s možností
propojení linky se soubory autorit, s konverzí dat do M21 (vyžaduje drobné
ladění), v této lince je zakomponován i modul pro opravy rejstříků a
metadat v plných textech báze ANL FULL). Jsou zachovány základní funkce
Windows linky, výstup možný v UNIMARCu, M21.
·
V r. 2004 je v rutinním
provozu aplikace pro administraci
databáze ANL FULL (statistiky, evidence uživatelů) a aplikace pro stahování a export metadat a
plných textů (formát text, rdf, html, UNICODE, XML) – pouze vybraní
uživatelé jako test (problematika autorských práv).
·
V lince zpracování bibliografických záznamů z plných textů
(TTDE) bylo zpracováno a následně
naimportováno do báze ANL a ANL FULL cca 13 000 metadat
(bibliografických záznamů) a plných textů (přístup na plně texty ke zpracování
v lince hrazen poslední 3 měsíce z projektu VaV Budování vzájemně
kompatibilních informačních systémů … .).
·
V r. 2004 je udržován portál pro zpřístupnění volně dostupných
textů na Internetu ve struktuře tematické a regionální
s popisem zdrojů.
·
V r. 2004 je v rutinním provozu
Aplikace pro management Kooperačního systému článkové bibliografie – aplikace
pro upload, zpracování, kontroly a export dat kooperujících institucí do
ALEPHU, aplikace pro evidence excerpční základny, aplikace pro kontroly URL
adres a duplicitu záznamů.
·
V roce 2004 byla průběžně
aktualizována souborná
databáze kooperačního systému ANL a vydáván CD-ROM
s Českou národní bibliografií.
·
V r. byl
2004 byly připraveny podmínky pro reálný vstup nově
konstituovaných krajských knihoven a Národního filmového archivu do kooperace.
·
Výsledkem řešení projektu v r. 2003 je
rutinní aplikace pro získávání a
automatickou extrakci/indexaci bibliografických záznamů z plných textů (TTDE)
a následné vytvoření importního souboru
záznamů pro databázi bibliografických záznamů ANL a databázi plných textů ANL
FULL v NK s
implementací metadat DC v plných textech včetně automaticky generovaných
formátů HTML, XHTML, XML v kvalifikované i nekvalifikované formě – aplikace pro
lokální stanice v NKČR. Automaticky se
generuje URL.
·
V r. 2003 byla částečně realizována internetová aplikace
pro získávání a utomatickou extrakci/indexaci bibliografických záznamů
z plných textů (WWW TTDE) rozšířená o vstupní formáty HTML
z libovolné URL adresy s možností ukládat metadata do báze ANL FULL
(ANL) i bez uložení plných textů, dále s možností propojení na rejstříky
báze ANL FULL s možností propojení linky se soubory autorit. V této lince
je zakomponován i modul pro opravy rejstříků a metadat v plných textech
báze ANL FULL (částečně hrazeno z též projektu Propojení analytických
záznamů).
·
V r. 2003 je v rutinním
provozu aplikace pro administraci
databáze ANL FULL (statistiky, evidence uživatelů) a aplikace pro stahování a export metadat a
plných textů (formát text, rdf, html, UNICODE, XML) – pouze vybraní uživatelé
(problematika autorských práv).
·
V lince zpracování bibliografických záznamů z plných textů
(TTDE) bylo zpracováno a následně
naimportováno do báze ANL a ANL FULL cca 13 000
metadat (bibliografických záznamů) a plných textů. V r. 2003 je udržován portál pro
zpřístupnění volně dostupných textů na Internetu ve
struktuře tematické a regionální s popisem zdrojů.
·
V roce 2003 byla průběžně
aktualizována souborná
databáze kooperačního systému ANL a vydáván CD-ROM
s Českou národní bibliografií. Je
dále laděna aplikace pro management kooperačního systému. V r. byl 2003
navázán pracovní kontakt se 4 nově vzniklými krajskými knihovnami
(export/import v UNIMARCu,
excerpční základna).
·
Výsledkem
řešení projektu v r. 2002 je poloprovoz linky pro
získávání a automatickou indexaci bibliografických
záznamů z plných textů a následné vytvoření
importního souboru záznamů pro databázi bibliografických záznamů ANL
a databázi plných textů ANL FULL v NK s implementací
UNIMARCu, metadat DC v plných textech včetně automaticky generovaných formátů
HTML, XHTML, XML v kvalifikované i nekvalifikované formě.
·
V r. 2002 byla navržena nová
architektura a layout serveru FULL NKP, poloprovozně byla ověřena aplikace pro
registraci a přihlášení uživatelů, byla vytvořena aplikace pro
administraci báze ANL FULL a portálu Periodika na WWW (opravy, statistiky,
evidence),byla implementována a ověřena funkce pro stahování a export záznamů v
několika formátech: text, RTF, HTML, XML , též v
UNICODE.
·
V rámci linky poloautomatické indexace
(linky zpracování bibliografických záznamů z plných textů) bylo
v roce 2002 zpracováno přes 13 000 záznamů z 15 titulů,
tj. 13 000 bibliografických záznamů pro bázi ANL a stejný počet plných
textů s metadaty pro bázi ANL FULL. Tituly volně přístupné (15 titulů) na
WWW byly pravidelně propojovány se záznamy ANL v rámci projektu Propojení
analytických záznamů s plnými texty. V roce 2002
byl aktualizován portál, zejména jeho oborová část.
·
V r. 2002 byly průběžně laděny
vstupní soubory z některých systémů kooperujících institucí do KOSABI a
báze ANL (T-Series, KP-Sys aj.) a byl navázán kontakt s nově
konstituovanými krajskými knihovnami, mezi některými knihovnami proběhla
jednání o spolupráci při zpracování titulů.
·
Další výsledkem řešení v r. 2002 je
částečně poloprovozní aplikace pro pro správu a údržbu Kooperačního
systému článkové bibliografie (MNG KOSABI) a vytvoření
jednotného interface pro tuto aplikaci. Aplikace se zatím testuje a ladí. Byla
vytvořena báze titulů, kterou lze třídit podle názvů, zpracovávajících
institucí a podle toho, zda tituly obsahují zpracované články s plným
textem.
·
Současným trendem je vývoj
vyhledávacích metod, které budou za pomoci technologií umělé inteligence
pracovat přímo s plným textem a k automatické indexaci
v původním slova smyslu nebude vůbec docházet. Analýza automatické
indexace potvrdila
nutnost intelektuální indexace věcné, která je stále kvalitnější
než automatické přiřazování termínů.
·
V r.
2002 byla provedena analýza selekční úplnosti topiků v bázi ANL FULL,
která je přibližně 80 %
a byly vyvozeny praktické závěry pro zkvalitnění funkce topiků
(ladění a interaktivní využití topiků).
·
V r. 2002 byla navržena a částečně vyvinuta internetová verze linky
poloautomatické indexace (TTDE – Tamtam Data Extraktor).
·
Byla provedena důkladná analýza zpracování článků v zahraničí
(metody, organizace) a ověření, že podobné a srovnatelné metody se vyvíjejí
v rámci tohoto projektu a výsledky projektu byly prezentovány na
konferenci Inforum
·
V r.
2002 byl proveden upgrade a update
serveru FULL.NKP.CZ
- instalace Win 2000
serveru, instalace MS IIS 5, byl
implementován Portal One SE - Topic verze 3.7, byly zprovozněny www stránek
v novém prostředí, byl aplikován
XMLHTTP a ASP skript, byly provedeny
úpravy propojení do ALEPHu). V r. 2002 byl proveden upgrade serveru ANL (operační systém Linux SuSE 7.3 Oracle 9.2). Byly zakoupeny 2 upgrady PC, 1
PC, laptop, tiskárna, UPS, scanner a další SW vybavení.
·
Báze ANL FULL byla zpřístupněna
v JIB jako odkaz, báze ANL byla zpřístupněna pro vyhledávání včetně
propojení na plný
text v bázi ANL FULL ( dostupný pro interní uživatele NK, pro externí
volně dostupná pouze metadata, plné texty na 7 dnů po registraci). V roce 2002 byla průběžně aktualizována souborná databáze kooperačního systému ANL a
vydáván CD-ROM s Českou národní
bibliografií.
·
Výsledkem
řešení projektu v r. 2001 je experimentální provoz linky pro
získávání a automatickou indexaci
bibliografických záznamů z plných textů a následné vytvoření importního souboru záznamů pro databázi
bibliografických záznamů ANL a databázi
plných textů ANL FULL v NK s implementací UNIMARCu,
metadat DC v plných textech včetně automaticky generovaných formátů HTML,
XHTML, XML v kvalifikované i nekvalifikované formě.
·
V r. 2001 byla navržena nová
architektura a layout serveru FULL.NKP, pozornost byla věnována definici
báze ANL FULL, zejména vyhledávání (prostý dotaz, formulářový dotaz,
topiky, rejstříky), byl
instalován formulář pro registraci a přihlášení uživatelů.
·
Plné texty článků byly v rámci Konzorcia Anopress průběžně
stahovány a připraveny k propojení off-line s bibliografickými záznamy
v 1. pololetí tohoto roku (cca 3231 textů).
·
Plnotextová
databáze byla dále průběžně doplňována články z deníků časopisů vydanými v r.
·
Průběžně byly staticky
propojovány záznamy a plné texty z volně dostupných stabilních titulů na Internetu (cca 1400 článků). Byl založen portál pro zpřístupnění
volně dostupných textů na Internetu ve struktuře tematické a regionální s
popisem zdrojů.
·
V roce 2001 byla průběžně
aktualizována souborná
databáze kooperačního systému ANL a vydáván CD-ROM s Českou národní
bibliografií.
·
Další výsledkem řešení v r. 2001 je experimentální
aplikace pro správu a údržbu Kooperačního systému článkové bibliografie (MNG
KOSABI), která je
zatím přístupná pouze v NKČR pro účely
ladění.
R. 2000
·
Výsledkem
řešení projektu je návrh
realizace modulární programové
aplikace pro získávání ,
zpracování, indexaci a zpřístupňování plných textů (url,
metadata a definice tří typů formulářů pro plnotextové vyhledávání podle
pokročilosti) za současné automatické indexace bibliografických záznamů z
plných textů ve formátu UNIMARC a DUBLIN CORE.
·
V
rámci linky automatické indexace tak vznikne importní souboru záznamů pro databázi
bibliografických záznamů ANL a databázi plných textů ANL FULL v NK s implementací metadat v
plných textech včetně automaticky generované
URL adresy a SICI.
·
Byl
vytvořen skript pro propojení plných textů a bibliografických záznamů v bázi
ANL v systému ALEPH.
·
Pro vyhledávání v plných textech je určen systém založený na pojmovém
vyhledávání - TOPIC. Do tohoto systému jsou zatím
vloženy hrubé definice
topiků.
·
Plné texty
článků byly v rámci
konzorcia Anopress průběžně
stahovány, připravovány k dynamickému propojení a následně propojeny s bibliografickými záznamy v 2. pololetí
tohoto roku (cca 7528 propojení).
·
Plnotextová databáze byla dále průběžně doplňována články z deníků časopisů vydanými v r.
·
Průběžně
byly staticky propojovány záznamy a plné texty z oblasti knihovnictví aj. oborů.
·
V roce
2000 byla pravidelně aktualizována souborná databáze kooperačního systému ANL
a vydáván CD-ROM s Českou národní bibliografií.
·
Další
výsledkem řešení v r. 2000 je návrh programové aplikace pro správu a údržbu
Kooperačního systému článkové bibliografie (MNG KOSABI), který vychází z
aplikací vyvinutých v rámci SK CASLIN
(přijímání záznamů, konverze, úpravy a kontrola záznamů).
·
Pro celý systém byla zakoupena kvalitní HW a SW
platforma (server Dell, TOPIC-
1.5.2005 Anděrová
Aktualizace: 11. červenec 2006