8. Návrhy optimalizace zpřístupnění plných textů v ČR

 

8.1 Některé zásadní poznatky ze studií v rámci projektu, které mohou sloužit pro další optimalizaci systému (J. Schwarz, 2002-2003)

·         struktura a definice topiků je v zásadě adekvátní, i když v některých případech není pomocí topiků dosaženo relevantních výsledků vyhledávání

·         topiky v některých případech negativně ovlivňují úplnost vyhledávání, což je způsobeno mj. faktory souvisejícími nejen s definicí, ale i základní funkčností topiků, která bude dále optimalizována

·         současná implementace topiků není z hlediska uživatele zcela optimální, protože neumožňuje důsledně interaktivní a zpětnovazební využití topiků při vyhledávání; interaktivní vlastnosti systému budou rozvíjeny na základě implementace nových nástrojů

 

8.2 Naznačení optimalizace zpřístupnění plných textů – pohled z hlediska vyhledávání a dalšího možného vývoje (Anděrová 1999-2003)

 

8.2.1 Služby SFX. Propojování na zdrojové dokumenty přes SFX, permutované vyhledávání.

 

8.2.2 Ukázka hypotetické vazby předmětových kategorií konspektu přes hesla a analytické předmětové kategorie na topik. Výhody vyhledávání podle řízených slovníků a pojmů. Ukázka topiku v textu

 

Předmětová kategorie (konspekt)  - analytické předmětové kategorie (ANL)

V tomto textu používány předmětové kategorie - konspekt  v poli 615 UNIMARC pro bázi NKC.

Analytické předmětové kategorie jsou používány v Kooperačním systému článkové bibliografie dosud také v poli 615 UNIMARC, mají však jiný charakter. V článcích se zatím konspekt nepoužívá. V budoucnu budou oba typy převedeny do oddělených polí M21.

 

Byly nadefinovány tři úrovně topiků: základní tematické oblasti (8), skupiny témat (28), detailní témata (197). Hypoteticky se mohou sbližovat s předmětovými kategoriemi konspektu (24), skupinami konspektu (500) a jednotlivými tématy (4000).

 

 

 

8.2.1 Služby SFX. Propojování na zdrojové dokumenty přes SFX, permutované vyhledávání

 

4. Ekonomické vědy, obchod - Busines and economics

 

 

Autoritní záznam skupiny konspektu

 

 

 

 

 

 

 

 

 

 

Záznam se skupinou konspektu z báze NKC

 

 

 

 

 

 

 

 

 

Záznam s analytickou předmětovou kategorií v bázi ANL

 

 

Zpřístupnění plného textu v bázi ANL, resp. JIB přes link generovaný dynamicky v lince TamTam Data Extraktor a staticky umístěný do pole 856 (dříve pole EXT) v bázi ANL

 

 

 

 

 

 

 

 

 

SFX služby v JIB

 

 

 

 

 

 

 

 

 

 

 

Vyhledání z Mého seznamu zdrojů v JIB

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Propojení na zdrojový dokument přes SFX

 

 

 

 

8.2.2 Ukázka hypotetické vazby předmětových kategorií konspektu přes hesla a analytické předmětové kategorie na topik.Výhody vyhledávání podle řízených slovníků a pojmů. Ukázka topiku v textu.

 

 

 

V příkladech použito:

Předmětové heslo – burzy

Analytické předmětové kategorie – kapitálový trh

Klíčové slovo – burzy, kapitálový trh

Topik – zvolena tematická oblast: ekonomika, obchod, finance

                       skupina témat : finance

                       detailní téma: kapitálový trh

  Pozn.: zatím neužíván konspekt

 

 

 

 

 

Formulace dotazu:

vyhledej všechny texty týkající se burzy a kapitálového trhu

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Zobrazení záznamu s metadaty v bázi ANL FULL, klíčového slova (z názvu), předmětové kategorie, hesla a topiku, v textu červeně struktura topiku

 

 

 

 

 

 

Vyhledávání podle klíčových slov – vysoká úplnost, nízká přesnost vyhledaných článků (136)

 

 

 

 

 

 

 

 

 

 

 

 

 

Vyhledání podle klíčových slov, předmětových kategorií a hesel – vysoká přesnost, malá plnost vyhledaných článků (8)

 

 

 

 

Vyhledání podle analytických předmětových kategorií a hesel – vysoká přesnost malá úplnost (10)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Vyhledání podle analytických předmětových kategorií, hesel a topiku – vysoká přesnost, malá úplnost (10). V tomto případě jsou dobře použitá hesla, kategorie i dobře nadefinovaný topik

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Vyhledání podle klíčových slov a topiku – velmi vysoká úplnost, měla by být i vysoká přesnost (605)

 

 

 

 

 

 

 

 

 

 

Vyhledání podle předmětového hesla a topiku – vysoká přesnost, poměrně malá úplnost vyhledaných článků (21)

 

 

 

Vyhledání podle klíčového slova, předmětového hesla a topiku – velmi vysoká přesnost a relativně vysoká úplnost vyhledaných článků (50) – optimální výsledek. Analytická předmětová kategorie „kapitálový trh“  má podobu topiku.

 

 

 

 

 

 

 

 

 

8.2.3 Závěr

 

Domnívám se, že propojování přes OpenURL a  SFX je  dobře funkční v případě, zná-li uživatel  jméno autora a název článku a časopisu aj. formální údaje. Jediné, i když podstatné riziko„nepropojení“ je v případě , jsou-li údaje zapsány nejednotně nebo nepřesně.

 

Z hlediska věcné problematiky je otázka propojení složitější.

 

K dispozici je selekční (autoritní termín použitý katalogizátorem při indexaci) , ať už je na úrovni skupiny konspektu,  předmětové kategorie nebo předmětového hesla (používaný v  hierarchii) nebo klíčového slova.

 

„Podle stupně dokonalosti těchto rešeršních prostředků se systémy dělí do tří kategorií, tzv. generací (1. generace: jednoduché vyhledávání slov, jednoduché maskování, pravostranné rozšíření, 2. generace: booleovské a proximitní operátory, maskování, pravo-levostranné rozšiřování slov, vyhledávání podle pole, ostré vyhodnocování dotazů, 3. generace: pojmově orientované vyhledávání, rozklad pojmu na podpojmy, vážení pojmů, neostré vyhodnocování dotazů) . Tyto systémové rešeršní nástroje, tedy prostředky informační technologie, ovlivňovaly rešeršní strategie, které měly zásadní vliv na vývoj věcných selekčních jazyků (viz dramatický odklon od jazyků prekoordinovaného typu v souvislosti s nástupem systémů druhé generace).

Dá se předpokládat, že plný rozvoj systémů třetí generace (pojmově orientovaných) a nástup systémů umělé inteligence, případně systémů založených na porozumění přirozenému jazyku, vyvolá neméně dramatickou, ne-li ještě dramatičtější proměnu této oblasti.“ (Cit. Balíková, 20002) 

 

Propojení může jít až  na úroveň fulltextu. Indexace a vyhledávání v  klíčových slovech plných textů je velmi nepřesné a zavádějící. U běžných plnotextových systémů nepostihuje pojmy,koncepty.

 

Pravděpodobně  řešením je integrace řízených slovníků do pojmového vyhledávání podpořená lematizátorem nebo analyzátorem pro český jazyk, kategorizací a automatickou kategorizací textu a tvorbou ontologií, aplikace XML a pokročilých způsobů vyhledávání. Tyto nástroje  aplikovat jak v otevřeném tak uzavřeném webu.

 

V našem případě to konkrétně znamená připojit server http://full.nkp.cz a bázi ANL FULL do Metalibu pro vyhledávání přes Z39.50. Především však připojit ANL FULL  a server full.nkp.cz  do  SFX  a naopak - zdroj a cíl  SFX může být i fulltext.

 

Extrahováním metadat z plných textů se zrychlí zpracování článkových informací a jejich zpřístupnění v podobě metadat DC , XML/RDF aj. tyto nástroje budou hrát důležitou roli při zpřístupnění informací na webu, při propojení otevřeného a uzavřeného webu a v mezinárodní spolupráci.

Budoucnost ukáže, jde-li a jak propojit projekt Webarchiv, virtuální a digitální knihovny, oborové brány se zpracováním článků v kooperačním sytému článkové bibliografie. Je to dlouhodobá záležitost. Je však mít na zřeteli, že je nejdříve nutné implementovat,  otestovat a  vyvinout  nové spolehlivé v poměru vzájemné interoperability. Je důležité zachovat konzistenci a návaznost  zpracování.

Optimalizovat zpřístupnění plných textů znamená též legalizovat jejich pravidla zpřístupňování v příslušných zákonech (autorský zákon, zákon o povinném výtisku, vysokoškolský zákon aj.).

V budoucnu je třeba se soustředit především na zpřístupnění textů odborné povahy.

V budoucnu lze očekávat spolupráci v rámci některých agent NKČR, které se zabývají zpřístupněním elektronických dokumentů  a oddělení článkové bibliografie, resp. Kooperačním systémem, stejně tak spolupráci mezi dalšími institucemi na základě otevřených standardů.

Propojovat bibliografické záznamy lze staticky i dynamicky, jasná tendence je k otevřenému propojení a k interaktivním pružným službám.

 

 

Optimalizovat zpřístupnění plných textů znamená je propojovat s ostatními zdroji a službami. Úspěch propojení závisí na standardech, nástrojích a technologiích používaných ve všech fázích informačního procesu.  Závisí i na organizaci informačního systému a legislativně právních otázkách zpřístupnění elektronických zdrojů.

Základním předpokladem optimalizace zpřístupnění plných textů  je nutnost nových modelů získávání, zpracování a zpřístupňování bibliografických  informací a  nutnost změn v chování uživatele (human computer interaction) s rozvojem elektronického publikování , které se týká autorů, nakladatelů, vydavatelů,  knihovníků a uživatelů.

Optimalizovat zpřístupnění plných textů také znamená jejich zpřístupnění ve všech složkách struktury společnosti, ve všech druzích knihoven a informačních systémů, které jsou vzájemně interoperabilní.

 

Předpokladem optimalizace zpřístupnění plných textů je jejich propojování  (odkazování, linking) s ostatními zdroji,  metadaty a službami založené na interoperabilitě systémů ve všech fázích informačního procesu, jednoznačná identifikace objektů na internetu (identifikátory) a relevantním zpřístupněním plných textů po stránce obsahové, založené na integraci řízených slovníků do pojmového vyhledávání a tvorbě ontologií (systému konceptů a vztahů mezi nimi).

 

Na základě analýzy titulů zpracovávaných v NKČR v rámci Kooperačního systému článkové bibliografie  stanoveny  způsoby optimalizace zpřístupnění plných textů:

 

·         Zpracování deníků a časopisů získaných z báze TamTam  (Anopress) v lince poloautomatické indexace/extrakce s generováním metadat DC, UNIMARC, URL, SICI,  import metadat UNIMARC do souborné báze ANL a  plných textů s metadaty DC do báze ANL FULL (DC  v HTML,XHTML,XML). Propojení báze ANL statickou URL s plnými texty báze ANL FULL, dynamická URL v bázi ANL FULL.

 

·         Statické propojování metadat báze ANL na volné www plné texty.

 

·         Portál Periodika na WWW.

 

·         Vyhledání Plných textů báze ANL FULL  přes metadata ANL v JIB.  Statické linkování a linkování přes OpenUrl (SFX).

 

·         Propojení na zdrojový dokument v JIB (SFX).

 

·         WWW licence systému TOPIC, integrace řízených slovníků do pojmového vyhledávání, ontologie.

 

·         Konsorcium Anopress.

 

·         Kontrola URL (v rámci managementu systému).

 

·         Elektronický povinný výtisk, novela autorského zákona.