PROPOJENÍ ANALYTICKÝCH ZÁZNAMŮ S PLNÝMI TEXTY A OPTIMALIZACE ZPŘÍSTUPNĚNÍ PLNÝCH TEXTŮ (souhrnná informace)

Charakteristika projektu

Projekt VaV, výzkumný záměr (koncepční a částečně realizační)
Řešitelka: PhDr.
Ivana Anděrová
Zdroj financí: MKČR
Doba trvání: r. 1999-2003

Anotace (původní zadání - r. 1999)

Cílem výzkumného záměru je optimalizace přístupu uživatelů k plným textům dokumentů domácí i zahraniční provenience. Základem je propojení analytických záznamů o článcích s plnými texty, které jsou dostupné na Internetu a/nebo CD-ROM. Okamžitě bude k dispozici účinný rešerší nástroj - analytické záznamy zpracované v Kooperačním systému české článkové bibliografie, které jsou součástí České národní bibliografie. Jejich postupné propojení s plnými texty ústředních i regionálních periodik výrazně zvýší uživatelský komfort při jejich využití. Náplní záměru je i zpřístupnění plných textů zahraničních dokumentů v elektronické podobě. Zpřístupnění zahraničních zdrojů v NK výrazně rozšíří nabídku pro uživatele a umožní integraci dosud málo využívaných elektronických zdrojů do běžných služeb českých knihoven.

Korekce zadání (r. 1999)

Záměr se bude orientovat na zpřístupnění především českých plných textů.

 

Závěrečná zpráva o řešení projektu

Čerpání

 

Rok

Suma

Investice

Neinvestice
(z toho licence, mzdy, materiál, údržba)

2003

1 053000

530 000

523 000

(z toho cestovné 58 000, mzdy 70 000)

2002

957 000

500 000

457 000
(z toho materiál 30 000, údržba 20 000, mzdy 70 000)

2001

957 000

200 000

757 000
(z toho licence 60 000, mzdy 70 000)

2000

244 000

0

244 000

1999

229 000

0

229 000

Suma

3 440 000

1 230 000

2 210 000

 

Úzce navazující a související projekt

 

Související projekty

·         Jednotná informační brána

·         Souborný katalog ČR

·        Digitální knihovna

Aktuální personální zabezpečení projektu

Funkce v projektu 

Jméno  

Činnost 

Poznámka 

Řešitel (management projektu) 

PhDr. Ivana Anděrová  

Koncepce (systém a dílčí úkoly související se zpřístupněním článků), výchozí analýzy, organizace, podklady pro programové aplikace, administrativa 

 

Spoluřešitel - hlavní programátor projektu (TOPIC, ANL FULL) 

Ing. Ivo Mattern  

Systém Topic a jednotlivé aplikace v systému TOPIC, zpřístupnění plných textů deníků a časopisů včetně periodika Národní knihovna v bázi ANL FULL, aplikace portál -volná WWW periodika, aplikace linky automatické indexace  - lokální a  internetová verze

 

Spolupracující instituce 

Anopress, s.r.o. 

Data, monitoring, konzorcium ( se SKIP), topiky, zpřístupnění periodika Národní knihovna v bázi Anopress  

 

Dílčí úkol 

PhDr. Josef Kučera 

Definice topiků  

 

Spoluřešitel - programátor MNG KOSABI 

Ing. Jan Koktan 

Aplikace pro správu a údržbu Kooperačního systému článkové bibliografie  

 

Spolupracující instituce 

Tovek, s.r.o. 

Technická podpora, licence Topic 

 

Dílčí úkoly  

Pracovníci NKČR a zejména pak oddělení analytického zpracování NKČR 

Pracovníci NKČR: činnosti související se zpracováním a zpřístupněním článků vč. programu na off-line propojení.Pracovníci oddělení analytického upracování NKČR: ukládání záznamů v lince automatické indexace  

 

Dílčí úkol 

Daniel Kindl (NKČR) 

Aplikace pro vystavení a zpřístupnění periodika Národní knihovna v pdf a html 

 

Dílčí úkol 

Mgr. Josef Schwarz

Analýza topiků a praktická doporučení pro jejich zkvalitnění v rámci materiálu Selekční účinnost topiků v databázi ANL FULL (komparativní analýza výsledků vyhledávání na základě předmětových hesel a topiků) - též financováno v rámci projektu Souborná databáze Kooperačního systému ...; studie Současný stav a trendy automatické indexace dokumentů

 

Dílčí úkol 

Cosmotron, s.r.o.

Z 39.50 Toolkit klient pro propojení linky se soubory národních autorit

 

 

Publikované dokumenty

1. ANDĚROVÁ, Ivana. Současný stav a perspektivy kooperačního systému článkové bibliografie. Národní knihovna : knihovnická revue. 1995, roč. 6, č. 1, s. 39-42.
Též dostupný z: http://full.nkp.cz/  (báze ANL FULL)

2. Záznam pro soubornou databázi  : UNIMARC. Fyzicky nesamostatné části dokumentů. Tištěné monografie a seriály. Pracovní skupina pro analytické zpracování, Rada pro katalogizační politiku. 1. vyd. Praha : Národní knihovna České republiky,1999.   45 s.  (Standardizace ; č. 19). Určeno k připomínkám. Dostupný též z:

http://www.nkp.cz/pages/page.php3?page=fond_anal_unim_opr.htm


3
. ANDĚROVÁ, Ivana. Programový projekt MK ČR "Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat". Ikaros [online]. 2000, č. 10 [cit. 2000-12-01].
Dostupný z: http://www.ikaros.cz/Clanek.asp?ID=200301003.

4. ANDĚROVÁ,
Ivana.Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat. Souhrnná zpráva za rok ... [online].
Dostupný z: http://www.nkp.cz/pages/page.php3?page=oazp_granty.htm

5. ANDĚROVÁ, Ivana. Kooperační sytém článkové bibliografie a propojení analytických záznamů s plnými texty - východiska a současný stav. Národní knihovna : knihovnická revue. 2001, roč. 12, č. 1, s. 26-37.
Dostupný z: http://full.nkp.cz/nkkr/NKKR0101/0101026.html  

6. ANDĚROVÁ,
Ivana. Metodika popisu článků ve formátu UNIMARC [online]. 2001.
Dostupný z:
http://www.nkp.cz/pages/page.php3?page=oazp_metodika.htm

 

7. ANDĚROVÁ, I. Báze ANL FULL v systému TOPIC. Textová verze. Inforum 2002.
Dostupný z: URL:
http://www.inforum.cz/inforum2002/prednaska26.htm ; http://full.nkp.cz, Rubrika Co je nového... .

8. ANDĚROVÁ, I. Báze ANL FULL v systému TOPIC.
Prezentace PPT. Inforum 2002.
Dostupný z: URL: http://full.nkp.cz, Rubrika Co je nového... .

9. ANDĚROVÁ, I. Kooperační systém článkové bibliografie - KOSABI. (Vývoj a současný stav metodiky zpracování, zpřístupnění, organizace kooperace, perspektivy). Knihovny současnosti 2002. Sborník z 10. konference, konané ve dnech 24.-26. září 2002 v Seči u Chrudimi. 2002, s. 223-255.
Dostupný z: URL: http://full.nkp.cz, Rubrika Co je nového... .

10. ANDĚROVÁ, I. Kooperační systém článkové bibliografie - KOSABI. (Vývoj a současný stav metodiky zpracování, zpřístupnění, organizace kooperace, perspektivy). Prezentace PPT na konferenci Knihovny současnosti 2002, Seč 24.-26.9.2002
Dostupný z: URL: http://full.nkp.cz, Rubrika Co je nového... .

11. SCHWARZ, J.: Současný stav a trendy automatické indexace dokumentů. Přehledová studie. Verze 2.0.2002.
Dostupný z: URL: http://full.nkp.cz/nkdb/docs/studie/MAIobsah.html, Rubrika Co je nového... .

12. SCHWARZ, J.: Selekční účinnost topiků v databázi ANL FULL. Komparativní analýza výsledků vyhledávání na základě předmětových hesel a topiků. Verze 1.0.2002. Zatím interní pracovní materiál.

13. ANDĚROVÁ, I. Aktuální informace o Kooperačním systému článkové bibliografie
SDRUK , 13. zasedání Sekce pro bibliografii. Hradec Králové, 5.-6.5. 2003. Dostupný z:
<  http://full.nkp.cz >, Rubrika Co je nového … .

14. ANDĚROVÁ, I. Problematika novin a World Library and Information Congress : 69th IFLA General Conference and Council. Media - Information - Culture . Ikaros [online]. 2003, č. 11 [cit. 2003-11-01].
Dostupný z:  http://www.ikaros.cz/Clanek.asp?ID=200311005, http://full.nkp.cz, Rubrika Co je nového... .

15. ANDĚROVÁ, I.. Kooperační systém článkové bibliografie a báze ANL, ANL FULL. Infos 2003: zborník z 32. medzinárodného informatického sympózia, ktoré se konalo v dňoch 7.-10 apríla 2003 v Starej Lesnej. Sest. Alojz Androvič, Judita Kopáčiková. Bratislava, Centrum VTISR 2003. S. 149-161.

Praktické výsledky grantu

ANL FULL - Plnotextové vyhledávání v článcích z tisku. Topic system (poloprovoz) [online].
Dostupný z: http://full.nkp.cz.

Periodika na WWW.[Portál - struktura podle regionu a oborů]
Dostupný z: URL: http://full.nkp.cz

Plné texty v českých novinách a časopisech (ANL FULL, ANL, Anopress, WWW) – statistika 1 a  linky, graf 1, statistika 2 a linky, graf 2.
Dostupný z: URL: http://full.nkp.cz

Management Kooperačního systému článkové bibliografie (MNG KOSABI)
Dostupný z: URL: http://full.nkp.cz

Báze ANL [online]. Dostupný z: http://http://sigma.nkp.cz:4505/ALEPH/2AJSQ4JPRCF4YQ1CV1E3JJA94CQ6JM3GKRGVL7SNGYAJK8A4YB-00498/file/start-0.

Národní knihovna. Knihovnická revue [online]. Dostupný z: http://full.nkp.cz/nkkr/NKKR.html

PLNĚNÍ

Záměr souvisí s programovým projektem Souborná databáze kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat, který je svým charakterem realizační. Koncepce má flexibilní charakter vzhledem k vyvíjející se situaci ve zpřístupňování plných textů na Internetu a očekávaným aplikacím nových metod zpřístupnění dokumentů v rámci jiných projektů.

R. 2003

V r. 2003 pokračovaly práce na vývoji některých komponent internetové verze linky pro poloautomatické zpracování bibliografických záznamů z plných textů -  TTDE (TamTam Data Extraktor), která  umožní napojení na rejstříky báze ANL FULL a na soubory národních autorit při zpracování plných textů.

V roce 2003 probíhaly dále práce na zpřístupnění periodika Národní knihovna na Internetu (formát pdf, html, rejstříky, current content).Dále byly upřesněny a definovány nové topiky v rámci báze ANL FULL. Na analýzu selekční úplnosti topiků při vyhledávání provedenou v r. 2002 navazala další analýza s doporučením pro zvýšení úplnosti vyhledávání topiků. Byla zakoupena roční internetová licence a technická podpora pro systém TOPIC – Portal ONE. Byly staticky propojeny bibiografické záznamy báze ANL s volně dostupnými plnými texty na WWW. Na přelomu roku 2003/2004 byly započaty práce na konverzi UMIMARC M21 (též projekt Souborná databáze).

 

Praktické výsledky:

  • Zprovoznění komponenty Z 39.50 toolkit klienta pro aplikaci v v asp skriptech a částečná realizace interface pro propojení linky se soubory autorit.
  • Vystavení periodika Národní knihovna - č. 4/2002, 1,2/2003, rejstříky, current content 1/99 - 1/2003.
  • Upřesnění a definice nových topiků (geografie, doprava aj.).
  • Zakoupení roční internetové licence pro TOPIC a technické podpory.
  • Korektury báze ANL a kontroly záznamů zpracovaných v lince poloautomatické indexace (TTDE TamTam Data Extractor).
  • Propojení bibliografických záznamů báze ANL s volně dostupnými plnými texty na WWW (cca 2200 záznamů).
  • Prezenace výsledků projektu na  Infos 2003, zasedání SDRUK, účast na zasedání  IFLA 2003.

R. 2002

V roce 2002 byly řešeny koncepční otázky týkající se zejména procesu zpracování a zpřístupnění plných textů v Kooperačním systému článkové bibliografie (KOSABI) s ohledem na současné trendy v oblasti automatické indexace dokumentů. Z analýzy vyplývá orientace spíše na automatickou extrakci dat s využitím možností inteligentního vyhledávání systému TOPIC (ve kterém je provozována báze ANL FULL) a jeho interaktivních vlastností. Intelektuální indexace věcná dosahuje lepších výsledků než automatizované přiřazování věcných termínů. V budoucnu není vyloučena její částečná automatizovaná podpora. Linku zpracování bibliografických záznamů z plných textů, resp. linku automatické indexace/extrakce (TTDE - TamTam Data Extractor), ve které se zpracovávají záznamy pro bibliografickou bázi ANL a metadata a plné texty pro plnotextovou databázi ANL FULL, je třeba napojit na soubory národních autorit. Byly zahájeny práce na vývoji internetové verze linky TTDE, která má umožnit napojení na soubory národních autorit při zpracování plných textů a rozšíření zpracování na některé spolupracující instituce. V roce 2002 probíhaly dále práce na zpřístupnění periodika Národní knihovna na Internetu (formát pdf, html, rejstříky) a byl navržen heslář pro toto periodikum za účelem tvorby metadat .

Dále byly upřesněny a definovány nové topiky v rámci báze ANL FULL. Byla zakoupena roční internetová licence a technická podpora pro systém TOPIC. Byly staticky propojeny bibiografické záznamy báze ANL s volně dostupnými plnými texty na WWW. Pro management KOSABI bylo upřesněno zadání pro export záznamů kooperujících institucí z báze SKK (systém Oracle) do báze ANL (ALEPH) a navrženo interface.

Praktické výsledky:

  • Vystavení periodika Národní knihovna - r. 2002 ve formátu pdf, html. Rejstříky. Navržení hesláře pro periodikum.
  • Upřesnění a definice nových topiků (geografie , historie, literatura, umění, oblast zdravotnictví - též v rámci projektu Souborná databáze Kooperačního systému článkové bibliografie ...).
  • Zakoupení roční internetové licence pro TOPIC a technické podpory, upgrade PC.
  • Korektury báze ANL a kontroly záznamů zpracovaných v lince poloautomatické indexace (TTDE TamTam Data Extractor).
  • Propojení bibliografických záznamů báze ANL s volně dostupnými plnými texty na WWW (1060 záznamů).
  • Pro správu Kooperačního systému článkové bibliografie bylo upřesněno zadání pro export záznamů z báze SKK (systém Oracle).
  • Byla vypracována studie Současný stav a trendy automatické indexace dokumentů
  • Prezenace výsledků projektu na konferenci Inforum 2002 a Knihovny současnosti 2002 (též v rámci projektu Souborná databáze Kooperačního systému článkové bibliografie ...).

R. 2001

V roce 2001 byla dále doplněna základní koncepce, strategie a metody zpřístupňování plných textů české provenience - báze ANL FULL a jejich propojení s bibliografickými záznamy - báze ANL vznikajícími v rámci Kooperačního systému článkové bibliografie (KOSABI).

  • Zdroje plných textů : plné texty volně přístupné na Internetu (elektronické časopisy, elektronická vydavatelství /nakladatelství/informační agentury - archivy a databáze), plné texty získané od autora/ vydavatele/nakladatele/distributora.
  • Zpracování bibliografických záznamů a plných textů : tradiční v integrovaném knihovnickém systému (ALEPH apod.), v lince automatické indexace bibliografických záznamů z plných textů (extrakce, automatická indexace doplněna ručně nebo zcela automatická) za současné tvorby URL a metadat ve formě UNIMARC/MARC 21, DC, XHTML, XML/RDF nebo pomocí webovského formuláře.
  • Identifikace plných textů: URL, URN, SICI, perspektivně DOI.
  • Propojení: ruční/automatické, on-line/off-line, statické/dynamické, uzavřené/otevřené.
  • Vyhledání a zpřístupnění plných textů: "subjects gateways", témata, předmětové kategorie, OPAC - bibliografické záznamy (UNIMARC/MARC 21) s URL adresou, pojmové vyhledávání a fulltextové vyhledávání (TOPIC) v kombinaci s rejstříky, metatagy DC, jazyky XHTML XML/RDF, protokoly HTTP, Z 39.50, SFX, internetové vyhledávače.
  • Uložení plných textů: archivy, databáze - servery (nakladatelé/vydavatelé, informačních agentury, knihovny).
  • Výstupy: seznam článků (řazení dle relevance, do skupin - clustering aj.), formáty (citace/DC/abstrakt/plný text, UNIMARC/ XHTML, XML/RDF), tisk. V budoucnu export metadat a plných textů.
  • Uživatelé: lokální/interní, externí, registrovaní, neregistrovaní, zkušební registrace.
  • Služby : neplacené, placené v rámci konzorcia nebo mimo, přes IP, login, heslo nebo volně.

Praktické výsledky:

  • Vystavení periodika Národní knihovna - r. 1999-2001 ve formátu pdf, html.
  • Upřesnění a definice nových topiků.
  • Aplikace pro generování formátu XML.
  • Zakoupení roční internetové licence pro TOPIC a technické podpory.
  • Automatická indexace článků (cca 4120 textů).
  • Uvedená koncepce je realizována v programovém projektu Souborná databáze kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat, jehož výsledkem je zpřístupnění databáze ANL FULL a propojení bibliografických záznamů báze ANL s plnými texty.
  • Monitoring médií pro NKČR.
  • Pro správu Kooperačního systému článkové bibliografie v systému ORACLE bylo upřesněno zadání.

R. 2000

V roce 2000 byla ujasněna základní koncepce, strategie, metody a částečně realizováno zpřístupňování plných textů umístěných na serveru FULL.NKP.CZ v bázi ANL FULL ve vazbě na bibliografickými záznamy obsažené v bázi ANL, vznikající v rámci Kooperačního systému článkové bibliografie (KOSABI). Na projekt bylo v tomto roce z institucionálních prostředků vyčleněno 229000 Kč.

·         Byly stanoveny základní způsoby získávání plných textů pro propojení s bibliografickými záznamy v rámci systematického propojování s ohledem na časovou, druhovou a tematickou skladbu záznamů, obsažených v bázi ANL: plné texty volně přístupné na Internetu s relativně stálým způsobem vystavení (elektronická vydavatelství/nakladatelství, ČSAV, archivy aj.), plné texty získané od distributora plných textů (Anopress s.r.o.) propojované automaticky metodou on-line v rámci linky automatické indexace i metodou off-line (retrospektivním připojování plných textů), propojení bibliografických záznamů s plnými texty v rámci aplikace příslušného protokolu (Z 39.50, SFX.).

  • Zpracování bibliografických záznamů a plných textů probíhá v rámci integrovaného knihovnického systému respektujícího UNIMARC (ALEPH aj.) i v rámci linky automatické indexace bibliografických záznamů z plných textů za současné tvorby URL a metadat DC.
  • Metody propojování bibliografických záznamů s plnými texty na základě URL adresy: ručně - on-line, off-line a automaticky - on-line, off-line.
  • Druhy URL adres - statické a dynamické adresy.
  • Typy propojení:uzavřené a otevřené.
  • Způsoby zpřístupnění plných textů z hlediska typu navigačních prvků a způsobu vyhledávání: OPAC - bibliografické záznamy uložené v UNIMARCu s URL adresou - báze ANL, systém pojmového vyhledávání (TOPIC) - báze ANL FULL, vyhledávače pracující na WWW a metatagy DC zabudované do plných textů.
  • Uložení plných textů: www server NK, plné texty na Internetu, www server distributora (Anopress s.r.o.).
  • Pro správu Kooperačního systému článkové bibliografie v systému ORACLE bylo formulováno zadání na základě již existují aplikace pro Souborný katalog Caslin.

Praktické výsledky:

  • Statické propojení bibliografických záznamů s relativně stálými prezentacemi plných textů na Internetu (odborná knihovnická periodika - připojeno cca 614 plných textů, ostatní obory - připojeno cca 600 plných textů) - báze ANL.
  • Dynamické propojení zaznamů z deníků a některých odborných časopisů za současného uložení plných textů na server FULL.NKP.CZ (cca 1800 záznamů) - báze ANL FULL.
  • Od agentury Anopress s.r.o. zakoupeno cca 9350 plných textů (vydaných v 1. čtvrtletí 2000) určených k propojení off-line.
  • V rámci projektu byl pravidelně poskytován monitoring médií pro oddělení PR a ředitele NK dle zadaného profilu a hrazeny licence (4 měsíce) na plné texty v rámci konzorcia Anopress.
  • Byl optimalizován program pro propojení bibliografických záznamů s plnými texty metodou off-line.
  • Na CD-ROM Česká národní bibliografie - řada Články v českých novinách, časopisech a sbornících byla implementována funkce pro aktivní hypertextové odkazy, které umožňují propojení záznamů o článcích s plnými texty na Internetu.

R. 1999

V roce 1999 šlo o analyticko-koncepční práce a o výběr vhodného partnera k realizaci projektu. Po analýze zdrojů a producentů plných textů byla zvolena informační agentura Anopress, s. r. o. (výběrové řízení proběhlo v červnu až srpnu 1999). Jako jediná na českém trhu zpřístupňuje v současné době tato společnost uživatelům on-line svou databanku po dobu běžného aktuálního roku, pomocí produktu TOVEK TOOLS pak mají uživatelé přístup i do archivních dat. Kromě mediální části obsahuje databanka TAMTAM i část vědomostní, v níž jsou k dispozici pro fulltextové vyhledávání různé encyklopedie, příručky a další dokumenty referenčního charakteru. Společnost vyvíjí vlastní software ISA, který slouží k usnadnění práce s daty staženými prostřednictvím TAMTAM Professional nebo s daty dodanými klientovi dle požadovaných profilů. Činnost Anopressu je transparentní. Společnost je otevřená a ochotná ke spolupráci z hlediska knihovnicko-bibliografického.

  • Od této agentury bylo zakoupeno cca 16200 plných textů článků publikovaných převážně celostátních denících, které byly bibliograficky zpracované v oddělení analytického zpracování. První dávka těchto textů (zhruba polovina) je umístěna na NT serveru Národní knihovny.
  • Bylo navrženo, realizováno a experimentálně odzkoušeno programové propojení bibliografických záznamů uložených v ALEPHu s těmito plnými texty (záznamy jsou dosud zpracovávané v systému ISIS a konvertovány do ALEPHu) .
  • Propojení je realizováno na základě URL adres, které jsou dávkově doplňovány do příslušného pole bibliografického záznamu. Programové řešení propojení se bude dále zkvalitňovat v r. 2000.
  • Od května 1999 jsou propojovány bibliografické záznamy článků zpracované v Odboru knihovnictví NK s plnými texty článků, které jsou vydávané v elektronickém periodiku IKAROS.
  • V r. 1999 byly převedeny agenturou Anopress do elektronické formy všechny ročníky periodika Národní knihovna. Zpřístupnění tohoto periodika se bude dále optimalizovat.
  • NK ČR zakoupila z vlastních finančních prostředků 5 licencí pro přístup do databanky TAMTAM.
  • Monitoring článků na téma "informatika, Internet, knihovnictví, knihy, Národní knihovna" jsou v různém rozsahu poskytovány Oddělení analytického zpracování, Odboru knihovnictví, Oddělení public relations.
  • Pro zpřístupnění všech informací z databanky TAMTAM v síti knihoven iniciovala v r. 1999 agentura Anopress za spolupráce s Odborem knihovnictví NK ČR vznik konzorcia.


Na záměr navazuje další projekt v rámci V a V - Souborná databáze kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat, který má být realizován v letech 2000-2004.

1.3.2004 Anděrová