8. Návrhy optimalizace
zpřístupnění plných textů v ČR
8.1 Některé zásadní poznatky ze studií v rámci
projektu, které mohou sloužit pro další optimalizaci systému (J. Schwarz,
2002-2003)
·
struktura a definice topiků je v zásadě adekvátní, i když v některých
případech není pomocí topiků dosaženo relevantních
výsledků vyhledávání
·
topiky v některých případech
negativně ovlivňují úplnost vyhledávání, což je způsobeno mj. faktory
souvisejícími nejen s definicí, ale i základní funkčností topiků, která bude dále optimalizována
·
současná implementace topiků není z hlediska uživatele zcela optimální,
protože neumožňuje důsledně interaktivní a zpětnovazební využití topiků při vyhledávání; interaktivní vlastnosti systému
budou rozvíjeny na základě implementace nových nástrojů
8.2 Naznačení optimalizace zpřístupnění plných textů –
pohled z hlediska vyhledávání a dalšího možného vývoje (Anděrová 1999-2003)
8.2.1 Služby SFX. Propojování na
zdrojové dokumenty přes SFX, permutované vyhledávání.
8.2.2 Ukázka hypotetické vazby
předmětových kategorií konspektu přes hesla a analytické předmětové kategorie
na topik. Výhody vyhledávání podle řízených slovníků a pojmů. Ukázka topiku
v textu
Předmětová
kategorie (konspekt) - analytické
předmětové kategorie (ANL)
V tomto textu používány předmětové kategorie - konspekt v poli 615 UNIMARC pro bázi NKC.
Analytické předmětové kategorie jsou používány v Kooperačním systému článkové bibliografie dosud
také v poli 615 UNIMARC, mají však jiný charakter. V článcích se
zatím konspekt nepoužívá. V budoucnu budou oba typy převedeny do
oddělených polí M21.
Byly nadefinovány tři úrovně topiků: základní tematické oblasti (8), skupiny témat (28),
detailní témata (197). Hypoteticky se mohou sbližovat s předmětovými
kategoriemi konspektu (24), skupinami konspektu (500) a jednotlivými tématy
(4000).
8.2.1 Služby SFX. Propojování na
zdrojové dokumenty přes SFX, permutované vyhledávání
4. Ekonomické vědy, obchod - Busines and economics
Autoritní záznam skupiny konspektu
Záznam se skupinou konspektu z báze NKC
Záznam s analytickou předmětovou kategorií v bázi
ANL
Zpřístupnění plného textu v bázi ANL, resp. JIB přes link generovaný dynamicky v lince TamTam Data
Extraktor a staticky umístěný do pole 856 (dříve pole EXT) v bázi ANL
SFX služby v JIB
Vyhledání z Mého seznamu zdrojů v JIB
Propojení na zdrojový dokument přes SFX
8.2.2 Ukázka hypotetické vazby
předmětových kategorií konspektu přes hesla a analytické předmětové kategorie
na topik.Výhody vyhledávání podle řízených slovníků a pojmů. Ukázka topiku
v textu.
V příkladech použito:
Předmětové heslo –
burzy
Analytické předmětové
kategorie – kapitálový trh
Klíčové slovo –
burzy, kapitálový trh
Topik – zvolena
tematická oblast: ekonomika, obchod, finance
skupina témat : finance
detailní téma: kapitálový trh
Pozn.: zatím neužíván konspekt
Formulace dotazu:
vyhledej všechny
texty týkající se burzy a kapitálového trhu
Zobrazení záznamu s metadaty v bázi ANL FULL, klíčového slova (z názvu), předmětové kategorie, hesla a topiku, v textu červeně struktura topiku
Vyhledávání podle klíčových slov – vysoká úplnost, nízká
přesnost vyhledaných článků (136)
Vyhledání podle klíčových slov, předmětových kategorií a
hesel – vysoká přesnost, malá plnost vyhledaných článků (8)
Vyhledání podle analytických předmětových kategorií a hesel
– vysoká přesnost malá úplnost (10)
Vyhledání podle analytických předmětových kategorií, hesel a
topiku – vysoká přesnost, malá úplnost (10). V tomto případě jsou dobře
použitá hesla, kategorie i dobře nadefinovaný topik
Vyhledání podle klíčových slov a topiku – velmi vysoká
úplnost, měla by být i vysoká přesnost (605)
Vyhledání podle předmětového hesla a topiku – vysoká
přesnost, poměrně malá úplnost vyhledaných článků (21)
Vyhledání podle klíčového slova, předmětového hesla a topiku
– velmi vysoká přesnost a relativně vysoká úplnost vyhledaných článků (50) –
optimální výsledek. Analytická předmětová
kategorie „kapitálový trh“ má podobu
topiku.
8.2.3 Závěr
Domnívám se, že propojování přes OpenURL a SFX
je dobře funkční v případě, zná-li
uživatel jméno autora a název článku a
časopisu aj. formální údaje. Jediné, i když
podstatné riziko„nepropojení“ je v případě , jsou-li údaje zapsány nejednotně
nebo nepřesně.
Z hlediska věcné
problematiky je otázka propojení složitější.
K dispozici je
selekční (autoritní termín použitý katalogizátorem při indexaci) , ať už je na úrovni skupiny
konspektu, předmětové kategorie nebo
předmětového hesla (používaný v hierarchii) nebo klíčového slova.
„Podle stupně
dokonalosti těchto rešeršních prostředků se systémy dělí do tří kategorií, tzv.
generací (1. generace: jednoduché vyhledávání slov, jednoduché maskování,
pravostranné rozšíření, 2. generace: booleovské a proximitní
operátory, maskování, pravo-levostranné rozšiřování
slov, vyhledávání podle pole, ostré vyhodnocování dotazů, 3. generace: pojmově
orientované vyhledávání, rozklad pojmu na podpojmy, vážení pojmů, neostré
vyhodnocování dotazů) . Tyto systémové rešeršní nástroje, tedy prostředky
informační technologie, ovlivňovaly rešeršní strategie, které měly zásadní vliv
na vývoj věcných selekčních jazyků (viz dramatický odklon od jazyků prekoordinovaného typu v souvislosti s nástupem systémů
druhé generace).
Dá se předpokládat,
že plný rozvoj systémů třetí generace (pojmově orientovaných) a nástup systémů
umělé inteligence, případně systémů založených na porozumění přirozenému
jazyku, vyvolá neméně dramatickou, ne-li ještě dramatičtější proměnu této
oblasti.“ (Cit. Balíková, 20002)
Propojení může jít
až na úroveň fulltextu. Indexace a
vyhledávání v klíčových slovech plných
textů je velmi nepřesné a zavádějící. U běžných plnotextových
systémů nepostihuje pojmy,koncepty.
Pravděpodobně řešením je integrace řízených slovníků do
pojmového vyhledávání podpořená lematizátorem nebo
analyzátorem pro český jazyk, kategorizací a automatickou kategorizací textu a
tvorbou ontologií, aplikace XML a pokročilých způsobů vyhledávání. Tyto
nástroje aplikovat jak v otevřeném
tak uzavřeném webu.
V našem případě
to konkrétně znamená připojit server http://full.nkp.cz a bázi ANL FULL do Metalibu pro vyhledávání přes Z39.50. Především však
připojit ANL FULL a server full.nkp.cz do
SFX a naopak - zdroj a
cíl SFX může být i fulltext.
Extrahováním metadat
z plných textů se zrychlí zpracování článkových informací a
jejich zpřístupnění v podobě metadat DC ,
XML/RDF aj. tyto nástroje budou hrát důležitou roli při zpřístupnění informací
na webu, při propojení otevřeného a uzavřeného webu a v mezinárodní
spolupráci.
Budoucnost
ukáže, jde-li a jak propojit projekt Webarchiv,
virtuální a digitální knihovny, oborové brány se zpracováním článků v kooperačním
sytému článkové bibliografie. Je to dlouhodobá záležitost. Je však mít na
zřeteli, že je nejdříve nutné implementovat,
otestovat a vyvinout nové spolehlivé v poměru vzájemné interoperability. Je důležité zachovat konzistenci a
návaznost zpracování.
Optimalizovat
zpřístupnění plných textů znamená též legalizovat
jejich pravidla zpřístupňování v příslušných zákonech (autorský zákon,
zákon o povinném výtisku, vysokoškolský zákon aj.).
V budoucnu
je třeba se soustředit především na zpřístupnění textů odborné povahy.
V budoucnu
lze očekávat spolupráci v rámci některých agent NKČR, které se zabývají
zpřístupněním elektronických dokumentů a
oddělení článkové bibliografie, resp. Kooperačním systémem, stejně tak
spolupráci mezi dalšími institucemi na základě otevřených standardů.
Propojovat
bibliografické záznamy lze staticky i dynamicky, jasná tendence je
k otevřenému propojení a k interaktivním pružným službám.
Optimalizovat
zpřístupnění plných textů znamená je propojovat s ostatními zdroji a službami.
Úspěch propojení závisí na standardech, nástrojích a technologiích používaných
ve všech fázích informačního procesu.
Závisí i na organizaci informačního systému a legislativně právních
otázkách zpřístupnění elektronických zdrojů.
Základním předpokladem
optimalizace zpřístupnění plných textů
je nutnost nových modelů
získávání, zpracování a zpřístupňování bibliografických informací a
nutnost změn v chování uživatele (human computer interaction) s rozvojem
elektronického publikování , které se týká autorů, nakladatelů,
vydavatelů, knihovníků a uživatelů.
Optimalizovat zpřístupnění plných textů také znamená jejich
zpřístupnění ve všech složkách struktury společnosti, ve všech druzích knihoven
a informačních systémů, které jsou vzájemně interoperabilní.
Předpokladem
optimalizace zpřístupnění plných textů je jejich propojování (odkazování, linking)
s ostatními zdroji, metadaty a službami
založené na interoperabilitě systémů ve všech fázích
informačního procesu, jednoznačná identifikace objektů na internetu
(identifikátory) a relevantním zpřístupněním plných textů po stránce obsahové,
založené na integraci řízených slovníků do pojmového vyhledávání a tvorbě
ontologií (systému konceptů a vztahů mezi nimi).
Na
základě analýzy titulů zpracovávaných v NKČR v rámci Kooperačního systému
článkové bibliografie stanoveny způsoby optimalizace zpřístupnění plných
textů:
·
Zpracování deníků a časopisů získaných z báze TamTam (Anopress)
v lince poloautomatické indexace/extrakce s generováním metadat DC, UNIMARC, URL, SICI, import metadat UNIMARC do souborné báze ANL a plných textů s metadaty
DC do báze ANL FULL (DC v
HTML,XHTML,XML). Propojení báze ANL statickou URL s plnými texty báze ANL
FULL, dynamická URL v bázi ANL FULL.
·
Statické propojování metadat báze ANL
na volné www plné texty.
·
Portál Periodika na WWW.
·
Vyhledání Plných textů báze ANL FULL přes metadata ANL
v JIB. Statické linkování a
linkování přes OpenUrl (SFX).
·
Propojení na zdrojový dokument v JIB (SFX).
·
WWW licence systému TOPIC, integrace řízených slovníků do
pojmového vyhledávání, ontologie.
·
Konsorcium Anopress.
·
Kontrola URL (v rámci managementu systému).
·
Elektronický povinný výtisk, novela autorského zákona.