Server full.nkp.cz, báze ANL FULL – stav v r. 2004 a 2005.
Perspektivy. Návrh vývoje
V následujícím textu je rekapitulován současný stav serveru full.nkp.cz.
V bodě 7 jsou nastíněny perspektivy vývoje serveru.
Veškeré informace jsou přístupné na http://full.nkp.cz/ .
Materiál byl zpracován na základě projektů Souborná databáze kooperačního
systému článkové bibliografie - optimalizace integrace a správy heterogenních
dat (2000-2004, MKČR), Propojení analytických záznamů s plnými texty a
optimalizace zpřístupění plným textům (1999-2003, MKČR) a na základě nepřijatých
projektů v rámci 1N (r. 2004).
I. Server full.nkp.cz, báze ANL FULL – stav v r. 2004 a 2005
0.Obecné informace
Použité programové a SW prostředky: TOPIC, Win 2000 server, asp script, Access.
Vstupní data v TXT/HTML (texty Anopress / www html texty)
Základní formát báze ANL FULL: HTML
Hlavní agendy a databáze v přehledu:
A. Databáze ANL FULL (ca 130 000 plných textů):
Import a zpracování dat pro bázi ANL FULL (v rámci aplikace TTSNK a TTDE)
TTDE (TamTam Data Extractor) – linka zpracování – v rámci internetové verze lze stahovat také HTML texty z WWW (koncem r. 2004 ukončena).
Aplikace pro registraci a přihlášení (databáze Access).
Vyhledávání - plné texty uloženy v databázi TOPIC (formuláře, topiky), strukturovaná data – rejstříky (databáze Access).
Aplikace pro stahování a export.
Charakteristika báze ANL FULL
Univerzální, víceoborová databáze
Výběr článků z novin a časopisů Anopress, rutinně zpracováváno v letech 2001-2004 17 titulů:
Bankovnictví, Euro, Ekonom, HN, Kapitál, LN + Pátek Magazín, MFDnes, Právo + Magazín, Profit, Reflex, Respekt, Týden, Večerník Praha.
Báze ANL FULL obsahuje též periodikum Národní knihovna - r. 1999-2001 (od r. 1999-2004 samostatná aplikace přístupná na adrese http://knihovna.nkp.cz/ ).
B. Aplikace Periodika na www
Databáze regionální a oborová periodika (databáze Access), propojení s plnými texty
na WWW (strukturována regionálně a oborově), průběžně aktualizovaná.
Zdroje v ČR - články, plné texty, související zdroje (průběžně aktualizovaná, textový soubor)
Plné texty zpřístupňované v Kooperačním systému článkové bibliografie (statistiky,
textový soubor).
C.
Interface pro vstup do aplikace pro Management Kooperačního systému článkové
Bibliografie na serveru anl.nkp.cz .
D.
Ostatní: Dokumenty, Optimalizace, Co je nového … (textové soubory).
E.
Administrace serveru (Access).
F.
Správa serveru: systémová vrstva – Comdat; aplikační vrstva Ing. Mattern (dohoda v polovině r. 2005).
1. Organizace serveru (podrobněji popsána v bodě 2.)
Na serveru jsou umístěny nabídky, informace a aplikace členěny do tří hlavních bloků:
Základní informace (viz 1.1)
Vstup do databáze (viz 1.2)
Vyhledávání (viz 1.3)
Dále je na serveru:
Interface pro Management Kooperačního systému článkové bibliografie
(v tomto materiálu nepopisován).
Rubriky: Dokumenty, Optimalizováno pro, Co je nového …
Pro správu a údržbu serveru je vytvořena Aplikace pro administraci.
1.1 Základní informace
Charakteristika DB ANL FULL
Další databáze NK
Periodika na WWW, a to:
Regionální periodika, Oborová periodika
Zdroje v ČR
Plné texty v českých novinách a časopisech zpřístupňovaných v rámci Kooperačního systému článkové bibliografie.
Aplikace Periodika na WWW
Regionální periodika (strukturovaná podle krajů).
Oborová periodika (tituly členěny: Kultura a umění; Odborné (členěné dále podle oborů); Společenské; Zahraniční zajímavosti, cestování; Zájmové; Ostatní).
U každého periodika je možnost stručného popisu a propojení na plný text.
1.2 Vstup do databáze ANL FULL (autorizace)
Jak se zaregistrovat, Registrační formulář, Přihlášení
1.3 Vyhledávání v ANL FULL (plné texty)
Jak vyhledávat
Formuláře, topiky (témata)
Rejstříky k databázi ANL FULL
U formulářů nabídka pro Stahování a export článků (viz bod 2) a nápověda.
2. Aplikace a informace týkající se DB ANL FULL (viz též bod 0)
Vstup: data ve formátu TXT, HTML
Základní formát báze: HTML
Zobrazení: CP1250
Typ dat: data Anorpess rutinně, volné HTML texty
Vyhledávání pomocí 3 formulářů
Aplikace pro registraci a přihlášení
(registrace - registrační formulář a formulář pro přihlášení přes jméno, heslo)
Aplikace pro stahování a export záznamů v několika formátech (TEXT, HTML, RTF, XML …) –
2.1 Současný stav báze ANL FULL
Charakter báze ANL FULL
Semi strukturovaná fultextová databáze, metadata DC a UNIMARC (generovaná v lince TTDE)
a umístěná v plných textech. Ze strukturovaných dat se generuje 17 rejstříků.
Plnotextové vyhledávání je detailně popsáno v charakteristice báze. K vyhledávání slouží
Formuláře.
3 druhy formulářů:
jednoduchý formulář - především vyhledávání z plného textu (text dotazu) v kombinaci
s datem vydání;
rozšířený formulář - vyhledávání z plného textu (text dotazu) v kombinaci s datem
vydání a ze strukturovaných dat (metadat) v kombinaci následujících údajů:
datum vydání, názvové údaje (název článku i zdroje), autorské údaje (hlavní i další autoři),
číselné údaje (roč., svazek. identifikační číslo článku, ISSN), předmět
(předmětové kategorie, klíčová slova, hesla, tj. věcná, osoby, korporace, akce, dílo,
geografické vymezení, typ článku, zdrojový dokument (tyto údaje lze vyhledat i pomocí
prefixů v oknu text dotazu);
rozšířený formulář s tématy - rozšířený formulář, navíc topiky (kolem 200 topiků,
topiky dělené do 3 úrovní na tematické oblasti, skupiny témat, detailní témata).
Tematické oblasti
Ekonomika, obchod, finance
Geografie
Hospodářství, výroba
Kultura, umění
Přírodní a matematické obory
Společenské a humanitní obory
Sport, volný čas
Zdravotnictví a lékařství
Práce s topiky
Návrh a editace topiků, posouzení úplnosti vyhledávání topiků.
Vyhledávání
Vyhledávání v plných textech je možno zadat velmi jednoduše i sofistikovaně, vždy je možná
kombinace s datem nebo časovým intervalem. Využívá se celé škály operátorů a pojmového
vyhledávání. Lze kombinovat vyhledávání podle metadat s topiky. Vyhledávání podle
rejstříků lze též kombinovat s časovým intervalem. Je nadefinováno 17 rejstříků dle strukturovaných
dat.
Různé možnosti výstupů
Seznam výsledků lze zobrazit a třídit
Se souhrnem nebo bez
Podle skóre relevance
Vzestupně, sestupně
Shlukovat podle společných klíčových slov
Navolit počet výsledků na stránku.
Formáty zobrazení
Údaje o článku, tj. metadata s hypertextem
Údaje o článku, tj. metadata s hypertextem a plným textem
Dublin Core
UNIMARC
DC/HTML
DC/XHTML -,+
DC/DF/XML+ .
Stahování a export článků
V několika formátech: TXT, HTML, RTF, XML aj.
Hromadný export označených článků.
Přístup k bázi:
Přes IP adresy, jméno, heslo.
Interní uživatelé: přístup k plným textům.
Externí uživatelé: přístup k plným textům na jeden den, běžně metadata.
Strukturovaná data – metadata z hlediska obsahu
(vznikla v rámci linky TTDE ve spolupráci s Anopressem – viz též bod 3.) :
plné texty obsahují jmenný a věcný popis odpovídající definici bibliografické souborné
databáze ANL, v internetové verzi propojení na autority, kromě konspektu, SICI
a NBN automaticky generované.
V rámci linky zpracování v její internetové verzi probíhá konverze dat UNIMARC, DC, M21
(lokální verze pouze UNIMARC); na serveru dále generováno do XHTML +-, XML +-.
Pro bázi ANL FULL bylo využito 14 z 15 prvků DC, přidáno 14 prvků ANL CORE.
Do formuláře (internetová verze) lze extrahovat a zapsat tyto údaje:
Datum uložení
Datum vydání
Periodicita
Název článku, číslo části, název části
Podnázev
Ročník, číslo , strana
Rubrika
Název zdroje, číslo části, název části
Název přílohy
ISSN, ISBN
Místo, nakladatel/vydavatel datum vydání
Adresa vydavatele
Předmětové kategorie
MDT
Konspekt
Časový kód
Geografický kód
Forma, jazyk typ textu
STZ
NBN
SICI a URL se nezapisuje, generuje se
Hlavní autoři, další autoři
Hlavní korporace, další korporace
Hlavní akce, další akce
Odkazuje Odkazovaný (něco jako citace – ještě neaplikováno a neodzkoušeno)
Autor/název
Téma jako předmět
Osoba jako předmět
Dílo jako předmět
Korporace jako předmět
Akce jako předmět
3. Propojování s plnými texty a linka zpracování bibliografických záznamů
z plných textů TTDE (ukončena koncem r. 2004 – rozhodnutí managementu NK).
Linka TTDE v rámci projektů odzkoušena, lokální verze – rutinní provoz, internetová
verze - ověřovací provoz.
3.1. Stav v r. 2004
Báze ANL FULL byla plněna v letech 2001-2004 ze zdrojů Anopress pomocí linky
TTDE.
TTDE – TamTam Data Extractor (extrakce a generování dat z plných textů, editace
plných textů ve formuláři) – verze pro lokální pracovní stanice a verze pro internet.
3.2. Lokální linka zpracování bibliografických z plných textů (akvizice přes Internet
z báze TamTam Anopress, vstup pouze textový formát Anopress, výstup plný text
s metadaty DC, UNIMARC pro bázi ANL/ALEPH, výstup v HTML pro plnotextovou
databázi ANL FULL s metadaty (zde generování HTML, XHTML, XML, strukturované
údaje uložené v bázi Access). Automaticky se generuje SICI a NBN, propojení na
plný text umístěný v bázi ANL FULL z báze ANL.
Internetová linka navíc oproti lokální verzi generuje M21, rozšíření o vstupy v HTML
pro volné texty na Internetu, je možno stahovat autority přes Z39.50 Toolkit Klienta.
Odzkoušena v ověřovacím provozu v NKČR v r. 2005. Je třeba doladit konverzi
do M21 (z 95 % dokončena) a vyzkoušet zatížení linky na internetu.
V internetové verzi jsou rozpracovány opravy metadat a rejstříků, které jsou
původně navrženy v Administraci báze.
3.3 Perspektivy linky
Předpokládaný možný vývoj linky – možné použití i pro spolupráci mezi autorem,
nakladatelem a vydavatelem. Vstup pro více typů plných textů (Word, TXT, PDF, OCR).
3.4. Stav propojování s plnými texty Anopress v r. 2005
V lince TTDE se již nepopisuje.
Pracovníci oddělení analytického zpracování zapisují do pracovního listu v ALEPHu
adresu URL bez identifikace plného textu, ta se doplňuje pracovníky Referenčního centra
(mají přístup do báze Anopress), propojení je přímo do báze Anopress, báze ANL FULL
se o plné texty Anopress již nedoplňuje.
4 Administrace – pouze pro administrátora báze ANL FULL
Úpravy textu článku a metadat a Údržba rejstříků
Statistika přístupů
Údržba aplikace periodika na WWW - Regionální periodika a Oborová periodika
Informační zdroje - popis zdrojů v bázi ANL FULL
Skupiny témat - editace pouze názvů témat, nikoli samotných topiků
Uživatelé a změny hesel uživatelů
5. Vybavení serveru (HW a SW):
Power Edge 6300 – Pentium III Xeon, 500
Mhz/512
RAM 1 GB
Disky: 80 GB
Řadič pole RAID 5 – řadič PERC2/SC, 1xLVD, 16MB cache
Síťová karta Intel Pro 100+RJ45
Zálohovací zařízení DAR 12/24 GB SCSI DDS
Search Verity Information Server (TOPIC) v. 3.7
(Portal One, internetová neomezená licence)
Windows Server 2000 (30 licencí)
ScanJet+OCR (u lokálního počítače)
6. Správa serveru
Technické body:
lokální účty uživatelů jsou převedeny do společné domény NK.
Na severu full.nkp.cz je:
účet administrátora
lokální skupiny
uživatelé z domény jsou převedeny do lokálních účtů.
Vzdálená správa i přenos souborů probíhá prostřednictvím UltraVNC.
FTP se bude využívat pouze vnitřně pro přenos dat.
Rozdělení kompetencí při správě:
Firma Comdat:
správa systémové vrstvy
správa uživatelů v doméně
operační systém, pravidelné aktualizace
antivir, pravidelné aktualizace
IIS (web server)
řešení systémových chybových stavů
archivace
Ing. Mattern (Anopress):
správa aplikační vrstvy
správa lokálních účtů a skupin
správa aplikací
řešení aplikačních chybových stavů.
S panem Matternem uzavřena smlouva v polovině r. 2005 na r. 2005: správa aplikační vrstvy TOPIC (Verity Information Server), správa fulltextové databáze (html data, indexy, xml soubory), správa webových stránek.
II. Perspektivy
7. Perspektivy serveru full.nkp.cz a báze ANL FULL
7. 1 Hlavní a dílčí cíle
Byly formulovány v nepřijatém projektu 1N „Kooperační systém článkové bibliografie
- nástroje pro zpracování a zpřístupnění odborných informačních zdrojů, porovnání výsledků
výzkumu a vývoje v ČR se světem“.
Hlavní cíl projektu byl:
Nový koncept Kooperačního systému článkové bibliografie s ohledem na elektronické
publikování a na nové metody získávání, zpracování a zpřístupňování odborných
informačních zdrojů : zpracování a zpřístupnění českých odborných zdrojů na základě
metadat, plných textů, citací a jejich propojení za současného respektování standardů
v příslušných oblastech; aplikace moderních nástrojů na vyhledávání a zpřístupnění
odborných plných textů; vazba na Informační systém VaV a mezinárodní systémy
(WOK – SCI, aj.); porovnávání výsledků výzkumu a vývoje v ČR se světem; zapojeni do JIB a implementace SFX; kategorizace přistupu uživatelů
Server může být určen pro zpřístupnění a archivaci plných textů nejen typu Anopress, zejména textů odborných aj. textů (předpokládá jednání a dohody s nakladateli, vydavateli).
Návrh dílčích cílů:
V r. 2006 poskytnuty fin. prostředky pouze na nejnutnější údržbu serveru full.nkp.cz
Rekonstrukce webu serveru full.nkp. cz - r. 2006 (v r. 2006 nerealizováno)
Převod databází Access na MS SQL - r. 2006 (v r. 2006 nerealizováno)
Návrh struktury třídění plných textů podle oblastí či kategorií s ohledem na konspekt – r. 2006 (v roce 2006 nerealizováno)
Posouzení možnosti a návrh napojení již definovaných témat a/nebo analytických předmětových kategorií na konspekt - r. 2006 (v r. 2006 nerealizováno)
Postupné získávání dalších informačních zdrojů pro bázi ANL FULL a propojování s metadaty o těchto zdrojích – perspektivně průběžně (smlouvy s vydavateli, Webarchiv ?, články z retrokonverze?, publ. činnost NKČR ? aj.) (nerealizováno)
Návrh nástroje pro import dat - r. 2006 (pokud nebude použita již vyvinutá téměř hotová linka TTDE )
- (nerealizováno)
Zprovoznění nástroje pro import dat - od r. 2007 (pokud nebude použita již téměř vyvinutá linka TTDE)
- ( nerealizováno)
Jednoznačná identifikace odborných informačních zdrojů v závislosti na možnostech aplikace identifikátorů v primárních zdrojích (plných textech),
tak v sekundárních zdrojích (metadata, bibliografické záznamy) – URN, SICI, DOI aj.- od r. 2006 (v lince TTDE se generuje SICI, v bázi ANL se zapisuje segment SICI do pole 773, další nerealizováno)
Zpracování a zpřístupnění odborných zdrojů a v nich obsažených citací s ohledem na sledování sociometrických parametrů pro oblast výzkumu a vývoje s vazbou na Informační systém VaV a na mezinárodní databáze - od r. 2006 (nerealizováno)
Formáty RSS a OAI Record - analýza možností generování ze stávajícího XML báze ANL FULL - r. 2006 (v r. 2006 navržen a implementován formát RSS)
Aplikace otevřených standardů OAI, Open URL, Z39.50 (?) na ANL FULL, napojení do JIB (jako odkaz realizováno) - ( jinak nerealizováno)
Zpřístupnění báze plných textů přes proxy server - r. 2006 (nerealizováno)
Kategorizace přístupu uživatelů k jednotlivým typům zdrojů v návaznosti na poskytování služeb přes SFX a JIB - od r. 2006 (nerealizováno)
Zpřístupnění báze ANL FULL v rámci konzorcia knihoven – perspektivně (nerealizováno)
Poskytování plnotextových služeb event. plateb dořešit v návaznosti na vyřešení této problematiky v JIB – perspektivně (nerealizováno)
Archivace příslušných českých odborných zdrojů – průběžně (nerealizováno)
SW a HW dovybavení serveru v případě potřeby – průběžně (nerealizováno) viz též bod 7.2.5
Správa serveru full.nkp.cz a báze ANL FULL - viz bod 7.2.5
Očekávané výsledky
Optimalizace zpracování a zpřístupnění odborných informačních zdrojů, implementace standardů a nových technologií při zpracování a zpřístupnění zdrojů v rámci systému, interoperabilita s ostatními informačními zdroji a systémy, zpřístupňování a propojování informací o odborových informačních zdrojích na základě metadat, plných textů a citací, zapojení do JIB …, OAI.
Zabezpečení zdrojových dat a nástrojů pro porovnávání výsledků výzkum a vývoje v ČR se světem.
7.2 Použité metody a postupy:
7.2.1 Rekonstrukce www
Provést rekonstrukci webu tak, aby odpovídal standardům a testům na validaci konzorcia W3C.
Změnit celkový vzhled webu.
7.2.2 Báze v Accessu jsou provizorní, je třeba je nahradit MS SQL.
7.2.3 Spolupráce s nakladateli/vydavateli, event. autory a získávání plných textů.
7.2.4 Import dat a zpracování dat, vyhledávání, zpřístupnění
Vstupní data mohou být jako dosud v TXT, HTML. Pro ostatní formáty je třeba zakoupit
konvertory (PDF do HTML, World do HTML) a zprovoznit je. Perspektivně lze
zpracovávat i texty s obrázky.
Pro import plných textů (a metadat) je nutno vyvinout jednoduchý nástroj (pokud nebude použita linka TTDE),
který by extrahoval metadata DC z plných textů pro rejstříky v MS SQL a importoval
texty do databáze.
Je třeba rozhodnout, zda se metadata budou editovat.
Uspořádání zdrojů plných textů - zabudovat nabídku plných textů ve stromové struktuře
podle nového návrhu.
Aplikaci Periodika na WWW zabudovat mezi ostatní zdroje ve stromové struktuře.
Pro skupiny zdrojů nebo pro jednotlivé zdroje je možno nadefinovat svůj vlastní přístup
k vyhledávání a definovat topiky
Vyhledávání v plných textech je dobře navrženo ve stávající aplikaci -
je plnotextové, dle formulářů a strukturovaných metadat,
rejstříků (převést do MS SQL), topiků.
Navíc aplikovat vyhledávání podle určitého textu.
Implementovat topiky pro jednotlivé obory.
V současné době je základním formátem HTML.
TOPIC v současné verzi vyhledává i v PDF to však není v bázi zatím zprovozněno.
V současné verzi je možné vyhledávání podle DC přes převodní tabulku.
Vyhledávání v XML není v bázi řešeno, data však jsou též uložena v souborech v XML.
Pro bázi v XML je třeba vyšší verze TOPICu.
7.2.3 Zpřístupnění dat - zajistit diverzifikaci přístupu k těmto zdrojům, zajistit autorizaci
na úrovni zdrojů.
7.2.4 Zapojení do JIB a interoperabilita - aplikaci upravit tak, aby data byla použitelná
pro otevřený přístup (OAI) – identifikace, DC, XML. Zapojení serveru do JIB přes http rozhraní.
Implementace modulu pro OpenUrl v bázi ANL FULL, vyhledávání přes SFX může jít až
do plných textů.
7.2.5 Nové programové prostředky a SW, správa serveru, finanční prostředky, smlouvy - perspektivy
V r. 2006 ( nerealizováno)
Access je třeba je nahradit MS SQL (tj. MSDE 2000/SQL Server, 2005 Express Edition -
zdarma na www). Asp skript nahradit asp.net skriptem.
Konvertory do HTML .
Adobe Acrobat Professional, v. 7.
Adobe Photoshop.
Microsoft Office Professional edition.
V r. 2007 (nerealizováno)
Windows Server 2000 nahradit Windows serverem 2003 event. vyšším.
Q editor - ?
V r. 2006
Finance pro toho, kdo bude spravovat server (fy Comdat a Ing.Mattern) (v r. 2006 je realizováno)
Smlouva s ing. Matternem (hlavní programátor, vývoj) (v r. 2006 nebylo realizováno)
Finance pro toho, kdo bude navrhovat a koordinovat práce (v r. 2006 nebylo realizováno)
Finance pro toho, kdo bude editovat a navrhovat topiky (v r. 2006 nebylo realizováno)
R. 2007-2009
Financována správa serveru full.nkp.cz po stránce systémové (fy Comdat) a aplikační (Ing. Mattern)
7.2.6 Budoucnost
V budoucnu by implementace dalších nástrojů na systém TOPIC – TOVEK Tools
nebo vyšší verze TOPIKu, event. lingvistického analyzátoru pro české jazyk
zkvalitnila vyhledávání o nové metody, možnost automatizované tvorby kategorií aj.
Závěr: od r. 2005 žádný vývoj, implementace formátu RSS, správa serveru po stránce systémové v rámci NKČR a aplikační
Říjen 2005
Aktualizace: 2006
Aktualizace: 2010, květen
Anděrová