Server full.nkp.cz, báze ANL FULL – stav v r. 2004 a 2005.

Perspektivy. Návrh vývoje

 

V následujícím textu je  rekapitulován současný stav serveru full.nkp.cz.

V bodě 7  jsou nastíněny perspektivy vývoje serveru.

 

Veškeré informace jsou přístupné na http://full.nkp.cz/ .

 

Materiál byl zpracován na základě projektů Souborná databáze kooperačního

systému článkové bibliografie - optimalizace integrace a správy heterogenních

dat (2000-2004, MKČR), Propojení analytických záznamů s plnými texty a

optimalizace zpřístupění plným textům (1999-2003, MKČR)  a na základě nepřijatých

projektů v rámci  1N (r. 2004).

 

I. Server full.nkp.cz, báze ANL FULL  – stav v r. 2004 a 2005

 

 

0.Obecné informace

 

Použité programové a SW prostředky: TOPIC,  Win 2000 server, asp script, Access.

Vstupní data v TXT/HTML  (texty Anopress / www html  texty)

Základní formát báze ANL FULL:  HTML

 

 

Hlavní agendy a  databáze v přehledu:

 

A. Databáze ANL FULL (ca 130 000 plných textů):

 

Import a zpracování dat pro bázi ANL FULL  (v rámci aplikace TTSNK a TTDE)

TTDE (TamTam Data Extractor) – linka zpracování – v rámci internetové verze lze stahovat také HTML texty z WWW (koncem r. 2004 ukončena).

Aplikace pro registraci a přihlášení (databáze Access).

Vyhledávání - plné texty  uloženy v databázi TOPIC (formuláře, topiky), strukturovaná data – rejstříky (databáze Access).

Aplikace pro stahování a export.

 

Charakteristika báze ANL FULL

Univerzální, víceoborová  databáze

Výběr článků z novin a časopisů Anopress, rutinně zpracováváno v letech 2001-2004  17 titulů:

Bankovnictví, Euro, Ekonom, HN, Kapitál, LN + Pátek Magazín, MFDnes, Právo + Magazín, Profit, Reflex, Respekt, Týden, Večerník Praha.

Báze ANL FULL obsahuje též periodikum Národní knihovna - r. 1999-2001 (od r. 1999-2004 samostatná aplikace  přístupná na adrese  http://knihovna.nkp.cz/  ).

 

 

B. Aplikace Periodika na www

 

Databáze regionální a oborová periodika (databáze  Access), propojení s plnými texty

na WWW (strukturována regionálně a oborově), průběžně aktualizovaná.

 

Zdroje v ČR - články, plné texty, související zdroje (průběžně aktualizovaná, textový soubor)

Plné texty zpřístupňované v Kooperačním systému článkové bibliografie (statistiky,

textový soubor).

 

C.

Interface pro vstup do aplikace pro Management Kooperačního systému článkové

Bibliografie na serveru anl.nkp.cz .

 

D.

Ostatní: Dokumenty, Optimalizace, Co je nového … (textové soubory).

 

E.

Administrace serveru (Access).

 

F.

Správa serveru: systémová vrstva – Comdat; aplikační vrstva Ing. Mattern (dohoda v polovině r. 2005).

 

1. Organizace serveru (podrobněji popsána v bodě 2.)

 

Na serveru jsou umístěny nabídky, informace a aplikace členěny do tří  hlavních bloků:

 

Základní informace (viz 1.1)

Vstup do databáze  (viz 1.2)

Vyhledávání             (viz 1.3)

 

Dále je na serveru:

Interface pro Management Kooperačního systému článkové bibliografie

 (v tomto materiálu nepopisován).

 

Rubriky: Dokumenty, Optimalizováno pro, Co je nového …

Pro správu a údržbu serveru je vytvořena Aplikace pro administraci.

 

 

1.1 Základní informace

 

Charakteristika DB ANL FULL

Další databáze NK

Periodika na WWW, a to:

Regionální periodika, Oborová periodika

Zdroje v ČR

Plné texty v českých novinách a časopisech zpřístupňovaných v rámci Kooperačního systému článkové bibliografie.

 

Aplikace Periodika na WWW

Regionální periodika (strukturovaná  podle krajů).

Oborová periodika (tituly členěny: Kultura a umění; Odborné (členěné dále podle oborů);  Společenské; Zahraniční zajímavosti, cestování; Zájmové; Ostatní).

U každého periodika je možnost stručného popisu a propojení na plný text.

 

1.2 Vstup do databáze ANL FULL (autorizace) 

 

Jak se zaregistrovat, Registrační formulář, Přihlášení

 

1.3 Vyhledávání  v ANL FULL (plné texty)

 

Jak vyhledávat

Formuláře, topiky (témata)

Rejstříky k databázi ANL FULL

 

U formulářů nabídka pro Stahování a export článků (viz bod 2) a nápověda.

 

 

2. Aplikace a informace týkající se DB ANL FULL (viz též bod 0)

 

Vstup: data ve formátu TXT, HTML

Základní formát báze: HTML

Zobrazení: CP1250

Typ dat: data Anorpess rutinně, volné HTML texty

Vyhledávání pomocí 3 formulářů

Aplikace  pro registraci a přihlášení

(registrace - registrační formulář a formulář pro přihlášení přes jméno, heslo)

Aplikace pro stahování a export záznamů v několika formátech (TEXT, HTML, RTF, XML …) –

 

2.1 Současný stav báze ANL FULL

 

Charakter báze  ANL FULL

Semi strukturovaná fultextová databáze, metadata DC a UNIMARC (generovaná v lince TTDE)

a umístěná v plných textech. Ze strukturovaných dat se generuje 17 rejstříků.

Plnotextové vyhledávání je detailně popsáno  v charakteristice báze. K vyhledávání slouží

Formuláře.

 

3 druhy formulářů:

jednoduchý formulář - především vyhledávání z plného textu (text dotazu) v kombinaci

s datem vydání;

 

rozšířený formulář - vyhledávání z plného textu (text dotazu) v kombinaci s datem

vydání a ze strukturovaných dat (metadat) v kombinaci následujících údajů:

datum vydání, názvové údaje (název článku i zdroje), autorské údaje (hlavní i další autoři),

číselné údaje (roč., svazek. identifikační číslo článku, ISSN), předmět

(předmětové kategorie, klíčová slova, hesla, tj. věcná, osoby, korporace, akce, dílo,

geografické vymezení, typ článku, zdrojový dokument (tyto údaje lze vyhledat i pomocí

prefixů v oknu text dotazu);

 

rozšířený formulář s tématy - rozšířený formulář, navíc topiky (kolem 200 topiků,

topiky dělené do  3 úrovní na tematické oblasti, skupiny témat, detailní témata).

 

Tematické oblasti

Ekonomika, obchod, finance

Geografie

Hospodářství, výroba

Kultura, umění

Přírodní a matematické obory

Společenské  a humanitní obory

Sport, volný čas

Zdravotnictví a lékařství

 

Práce s topiky

Návrh a editace topiků, posouzení úplnosti vyhledávání topiků.

 

Vyhledávání

Vyhledávání v plných textech je možno zadat velmi jednoduše i sofistikovaně, vždy je možná

kombinace s datem nebo časovým intervalem. Využívá se celé škály operátorů a pojmového

vyhledávání. Lze kombinovat vyhledávání podle metadat s topiky. Vyhledávání  podle

rejstříků lze též kombinovat s časovým intervalem. Je nadefinováno 17 rejstříků dle strukturovaných

dat.

 

Různé možnosti výstupů

 

Seznam výsledků lze zobrazit a  třídit

Se souhrnem nebo bez

Podle skóre relevance

Vzestupně, sestupně

Shlukovat podle společných klíčových slov

Navolit počet výsledků na stránku.

 

Formáty zobrazení

Údaje o článku, tj. metadata s hypertextem

Údaje o článku, tj. metadata s hypertextem a plným textem

Dublin Core

UNIMARC

DC/HTML

DC/XHTML -,+

DC/DF/XML+ .

 

Stahování a export článků

V několika formátech: TXT, HTML, RTF, XML aj.

Hromadný export označených článků.

 

Přístup k bázi:

Přes IP adresy, jméno, heslo.

 

Interní uživatelé: přístup k plným textům.

Externí uživatelé: přístup k plným textům na jeden den, běžně metadata.

 

Strukturovaná data – metadata z hlediska obsahu

(vznikla v rámci linky TTDE ve spolupráci s Anopressem – viz též bod 3.) :

plné texty obsahují jmenný a věcný popis odpovídající definici bibliografické souborné

databáze ANL, v internetové verzi propojení na autority, kromě konspektu, SICI

a NBN automaticky generované.

V rámci linky zpracování v její internetové verzi  probíhá konverze dat UNIMARC, DC, M21

(lokální verze pouze UNIMARC); na serveru dále generováno  do  XHTML +-, XML +-.

Pro bázi ANL FULL bylo využito 14 z 15 prvků DC, přidáno 14 prvků ANL CORE.

 

Do formuláře (internetová verze) lze extrahovat a  zapsat tyto údaje:

Datum uložení

Datum vydání

Periodicita

Název článku, číslo části, název části

Podnázev

Ročník, číslo , strana

Rubrika

Název zdroje, číslo části, název části

Název přílohy

ISSN, ISBN

Místo, nakladatel/vydavatel datum vydání

Adresa vydavatele

Předmětové kategorie

MDT

Konspekt

Časový kód

Geografický kód

Forma, jazyk typ textu

STZ

NBN

SICI  a URL se nezapisuje, generuje se

Hlavní autoři, další autoři

Hlavní korporace, další korporace

Hlavní akce, další akce

Odkazuje    Odkazovaný (něco jako citace – ještě neaplikováno a neodzkoušeno)

Autor/název

Téma jako předmět

Osoba jako předmět

Dílo jako předmět

Korporace jako předmět

Akce jako předmět

 

 

3. Propojování s plnými texty a linka zpracování bibliografických záznamů

z plných textů TTDE (ukončena koncem r. 2004 – rozhodnutí managementu NK).

 

Linka TTDE v rámci projektů odzkoušena, lokální verze – rutinní provoz, internetová

verze - ověřovací provoz.

 

3.1. Stav v r. 2004

 

Báze ANL FULL byla plněna v letech 2001-2004 ze zdrojů Anopress pomocí  linky

TTDE.  

TTDE – TamTam Data Extractor (extrakce a generování dat z plných textů, editace

plných textů ve formuláři) – verze  pro lokální pracovní stanice a verze pro internet.

 

3.2. Lokální linka zpracování bibliografických z plných textů (akvizice přes Internet

z báze TamTam Anopress, vstup  pouze textový formát Anopress, výstup plný text

s metadaty DC, UNIMARC pro bázi ANL/ALEPH, výstup v HTML  pro plnotextovou

databázi ANL FULL s metadaty (zde generování HTML, XHTML, XML, strukturované

údaje uložené v bázi Access). Automaticky se generuje SICI a NBN, propojení na

plný text umístěný v bázi ANL FULL z báze  ANL.

 

Internetová linka navíc oproti lokální verzi generuje M21, rozšíření o vstupy v HTML

pro volné texty na Internetu, je možno stahovat autority přes Z39.50 Toolkit Klienta.

Odzkoušena v ověřovacím provozu v NKČR v r. 2005. Je třeba  doladit  konverzi

 do M21 (z 95 % dokončena) a vyzkoušet zatížení linky na internetu.

V internetové verzi jsou rozpracovány opravy metadat a rejstříků, které jsou

původně navrženy v Administraci báze.

 

3.3 Perspektivy linky

 

Předpokládaný možný vývoj linky – možné použití i pro spolupráci mezi autorem,

nakladatelem a vydavatelem. Vstup pro více typů plných textů (Word, TXT, PDF, OCR).

 

3.4. Stav propojování s plnými texty Anopress v r. 2005

 

V lince TTDE se již nepopisuje.

Pracovníci oddělení analytického zpracování zapisují do pracovního listu v ALEPHu

adresu URL bez identifikace plného textu, ta se doplňuje pracovníky Referenčního centra

(mají přístup do báze Anopress), propojení je přímo do báze Anopress, báze ANL FULL

se o plné texty Anopress již nedoplňuje.

 

4 Administrace – pouze pro administrátora báze ANL FULL

 

Úpravy textu článku a metadat a Údržba rejstříků

Statistika přístupů

Údržba aplikace  periodika na WWW - Regionální periodika a Oborová periodika

Informační zdroje -  popis zdrojů v bázi ANL FULL

Skupiny témat - editace pouze názvů témat,  nikoli samotných topiků

Uživatelé a změny hesel uživatelů

 

 

5. Vybavení serveru (HW a SW):

 

Power  Edge 6300 – Pentium III Xeon, 500              

Mhz/512

RAM 1 GB

Disky: 80 GB

Řadič pole RAID 5 – řadič PERC2/SC, 1xLVD, 16MB cache

Síťová karta Intel Pro 100+RJ45

Zálohovací zařízení DAR 12/24 GB SCSI DDS

Search Verity Information Server (TOPIC) v. 3.7

(Portal One, internetová neomezená licence)

Windows Server 2000 (30 licencí)

ScanJet+OCR (u lokálního počítače)

 

6. Správa serveru 

 

Technické body:

lokální účty uživatelů jsou převedeny do společné domény NK.

Na severu full.nkp.cz  je:

účet administrátora

lokální skupiny

uživatelé z domény  jsou převedeny do lokálních účtů.

Vzdálená správa i přenos souborů  probíhá prostřednictvím UltraVNC.

FTP se bude využívat pouze vnitřně pro přenos dat.

 

 

 

Rozdělení kompetencí při správě:

 

Firma Comdat:

správa systémové vrstvy

správa uživatelů v doméně

operační systém, pravidelné aktualizace

antivir, pravidelné aktualizace

IIS (web server)

řešení systémových chybových stavů

archivace

 

Ing. Mattern (Anopress):

správa aplikační vrstvy

správa lokálních účtů a skupin

správa aplikací

řešení aplikačních chybových stavů.

S panem Matternem uzavřena smlouva v polovině r. 2005 na r. 2005: správa aplikační vrstvy TOPIC (Verity Information Server), správa fulltextové databáze (html data, indexy, xml soubory), správa webových stránek.

 

II. Perspektivy

 

7. Perspektivy  serveru full.nkp.cz a báze ANL FULL

 

7. 1 Hlavní a dílčí cíle

 

Byly formulovány v nepřijatém projektu 1N „Kooperační systém článkové bibliografie

- nástroje pro zpracování a zpřístupnění odborných informačních zdrojů, porovnání výsledků

 výzkumu a vývoje  v ČR se světem“.

 

Hlavní cíl projektu byl:

 

Nový koncept Kooperačního systému článkové bibliografie s ohledem na elektronické

publikování a na nové metody získávání, zpracování a zpřístupňování odborných

informačních zdrojů : zpracování a zpřístupnění českých odborných zdrojů na základě

metadat, plných textů, citací a jejich propojení za současného respektování  standardů

v příslušných oblastech; aplikace moderních nástrojů na vyhledávání a zpřístupnění

odborných plných textů; vazba na Informační systém VaV a mezinárodní systémy

(WOK – SCI, aj.);  porovnávání výsledků výzkumu a vývoje v ČR se světem; zapojeni do JIB a implementace SFX; kategorizace přistupu uživatelů

 

Server může být určen pro zpřístupnění a archivaci  plných textů nejen typu Anopress, zejména textů odborných aj. textů (předpokládá jednání a dohody s nakladateli, vydavateli).

 

Návrh dílčích  cílů:

 

V r. 2006 poskytnuty fin. prostředky pouze na nejnutnější údržbu serveru full.nkp.cz

 

Rekonstrukce webu  serveru full.nkp. cz  - r. 2006   (v r. 2006 nerealizováno) 

 

Převod databází Access na MS SQL - r. 2006 (v r. 2006 nerealizováno)

 

Návrh struktury třídění plných textů podle oblastí či kategorií s ohledem na konspekt – r. 2006 (v roce 2006 nerealizováno)

 

Posouzení možnosti a návrh napojení již definovaných témat a/nebo analytických předmětových kategorií na konspekt - r. 2006 (v r. 2006 nerealizováno)

  

 

Postupné získávání dalších informačních zdrojů pro bázi ANL FULL a propojování s metadaty o těchto zdrojích – perspektivně průběžně (smlouvy s vydavateli, Webarchiv ?, články z retrokonverze?, publ. činnost NKČR ? aj.) (nerealizováno)

 

Návrh  nástroje pro import dat - r. 2006 (pokud nebude použita již vyvinutá téměř hotová linka TTDE )

- (nerealizováno)

 

Zprovoznění nástroje pro import dat - od r. 2007 (pokud nebude použita již téměř vyvinutá linka TTDE)

- ( nerealizováno)

 

Jednoznačná identifikace odborných informačních zdrojů v závislosti na  možnostech aplikace identifikátorů v primárních zdrojích (plných textech),

 tak v sekundárních zdrojích (metadata, bibliografické záznamy) – URN, SICI,  DOI  aj.- od r. 2006 (v lince TTDE se generuje SICI, v bázi ANL se zapisuje segment SICI do pole 773, další nerealizováno)

 

Zpracování a zpřístupnění odborných zdrojů a v nich obsažených citací s ohledem na  sledování sociometrických parametrů pro oblast výzkumu a vývoje s vazbou na Informační systém VaV a na mezinárodní databáze - od r. 2006 (nerealizováno)

 

 

Formáty RSS a OAI Record - analýza možností generování ze stávajícího XML báze ANL FULL - r. 2006 (v r. 2006 navržen a implementován formát RSS)

 

Aplikace otevřených standardů OAI, Open URL,   Z39.50 (?) na ANL FULL, napojení do JIB  (jako odkaz realizováno) - ( jinak nerealizováno)

 

Zpřístupnění báze plných textů přes proxy server - r. 2006 (nerealizováno)

 

Kategorizace přístupu uživatelů k jednotlivým typům zdrojů v návaznosti na poskytování služeb přes SFX a JIB - od r. 2006 (nerealizováno)

        

Zpřístupnění báze ANL FULL v rámci konzorcia knihoven – perspektivně (nerealizováno)

 

Poskytování plnotextových služeb event. plateb dořešit v návaznosti na vyřešení této problematiky v JIB – perspektivně (nerealizováno)

 

Archivace příslušných českých odborných zdrojů – průběžně (nerealizováno) 

SW a HW dovybavení serveru v případě potřeby – průběžně (nerealizováno) viz též bod 7.2.5

Správa serveru full.nkp.cz a báze ANL FULL - viz bod 7.2.5

 

Očekávané výsledky

 

Optimalizace zpracování a zpřístupnění odborných informačních zdrojů, implementace standardů a nových technologií při  zpracování  a zpřístupnění zdrojů  v rámci systému, interoperabilita s ostatními informačními zdroji a systémy,  zpřístupňování a propojování informací o odborových informačních zdrojích na základě metadat, plných textů a citací, zapojení do JIB …, OAI.

Zabezpečení zdrojových dat a nástrojů pro porovnávání výsledků výzkum a vývoje v ČR  se světem.

 

7.2 Použité metody a postupy:

 

7.2.1 Rekonstrukce www

 

Provést rekonstrukci webu tak, aby odpovídal standardům a testům na validaci konzorcia W3C.

Změnit celkový vzhled webu.

 

 

7.2.2 Báze v Accessu jsou provizorní, je třeba je nahradit MS SQL.

 

7.2.3 Spolupráce s nakladateli/vydavateli, event. autory a získávání plných textů.

 

7.2.4 Import dat a zpracování dat, vyhledávání, zpřístupnění

 

Vstupní data mohou být jako dosud v TXT, HTML. Pro ostatní formáty je třeba zakoupit

konvertory (PDF do HTML, World do HTML) a zprovoznit je. Perspektivně lze

zpracovávat i texty s obrázky.

 

Pro import plných textů (a metadat) je nutno vyvinout jednoduchý nástroj (pokud nebude použita linka TTDE),

který by  extrahoval metadata DC z plných textů pro rejstříky v MS SQL a importoval

texty do databáze.

Je třeba rozhodnout, zda se metadata budou editovat.

 

Uspořádání zdrojů plných textů -  zabudovat nabídku plných textů ve stromové struktuře

podle nového návrhu.

Aplikaci Periodika na WWW zabudovat mezi ostatní zdroje ve stromové struktuře.

Pro skupiny zdrojů nebo pro jednotlivé zdroje je možno nadefinovat svůj vlastní přístup

k vyhledávání a  definovat topiky

 

Vyhledávání v plných textech je dobře navrženo ve stávající aplikaci -

je plnotextové, dle formulářů a strukturovaných metadat,

rejstříků  (převést do MS SQL), topiků.

Navíc aplikovat vyhledávání podle určitého textu.

Implementovat topiky pro jednotlivé obory.

V současné době je základním formátem HTML.

TOPIC v současné verzi vyhledává i v PDF to však není v bázi  zatím zprovozněno.

V současné verzi je možné vyhledávání podle DC přes převodní  tabulku.

Vyhledávání v XML není v bázi řešeno, data však jsou též uložena v souborech v XML.

Pro bázi v XML je třeba vyšší verze TOPICu.

 

7.2.3 Zpřístupnění dat - zajistit diverzifikaci přístupu k těmto zdrojům, zajistit autorizaci

na úrovni zdrojů.

 

7.2.4 Zapojení do JIB a interoperabilita - aplikaci upravit tak, aby data byla použitelná

pro otevřený přístup (OAI) – identifikace, DC, XML. Zapojení serveru do JIB přes http rozhraní.

Implementace modulu pro OpenUrl  v bázi ANL FULL, vyhledávání přes SFX může jít až

do plných textů.

 

7.2.5 Nové programové prostředky a SW, správa serveru, finanční prostředky, smlouvy - perspektivy

 

V r. 2006 ( nerealizováno)

Access je třeba je nahradit MS SQL (tj. MSDE 2000/SQL Server,  2005 Express Edition -

zdarma na www). Asp skript nahradit asp.net skriptem.

Konvertory do HTML .

Adobe Acrobat Professional, v. 7.

Adobe Photoshop. 

Microsoft Office Professional edition.

 

 

V r. 2007 (nerealizováno)

Windows Server 2000 nahradit Windows serverem 2003 event. vyšším.

Q editor - ?

 

V r. 2006

Finance pro toho, kdo bude spravovat server (fy Comdat a Ing.Mattern) (v r. 2006 je realizováno)

Smlouva s ing. Matternem (hlavní programátor, vývoj) (v r. 2006 nebylo realizováno)

Finance pro toho, kdo bude navrhovat a koordinovat práce (v r. 2006 nebylo realizováno)

Finance pro toho, kdo bude editovat a navrhovat topiky (v r. 2006 nebylo realizováno)

 

R. 2007-2009

Financována správa serveru full.nkp.cz po stránce systémové (fy Comdat)  a aplikační (Ing. Mattern)

 

7.2.6 Budoucnost

 

V budoucnu by implementace dalších nástrojů na systém TOPIC – TOVEK Tools

nebo vyšší  verze TOPIKu, event. lingvistického analyzátoru pro české jazyk 

zkvalitnila vyhledávání o nové metody, možnost automatizované tvorby kategorií aj.

 

 

Závěr: od r. 2005  žádný vývoj, implementace formátu RSS, správa serveru po stránce systémové  v rámci NKČR a aplikační

 

 

Říjen 2005

 

Aktualizace: 2006

Aktualizace: 2010, květen

 

Anděrová