Báze ANL FULL v systému TOPIC
Ivana Anděrová, NKČR
1. Relevance, pertinence a funkce
informačního systému v komunikačním procesu. Selekční jazyk. Efektivnost
informačního systému
Intenzivní propojení systémů z hlediska konceptu
komunikačního procesu mezi systémem tvorby informací, jejich zpracováním a
zpřístupněním a dále pak se systémem potřeby a využívání informací pomocí
jejich vzájemných vazeb je předpokladem zpřístupnění relevantních, resp.
pertinentních informací uživateli. Cílem celého procesu je schopnost poskytnou
informace, které jsou relevantní jak z hlediska formálního, tak věcného a
zároveň vyhovují uživateli z hlediska jeho potřeb, jsou pertinentní. Relevance,
pertinence přesnost (precision) a úplnost (recall) vyhledávání jsou ústředními
body, kolem kterých se proces zpřístupňování informací odehrává a které jsou
měřítkem efektivnosti komunikační funkce informačních systémů.
Zpřístupnění relevantních, resp.
pertinentních informací uživateli předpokládá jasná pravidla pro zpracování
dokumentu a dotazů jak na úrovni strukturální, tak na úrovni sémantické.
Důležitou úlohu hraje jazyk komunikace. Je možno hovořit o třech úrovních
relevance: syntaktické, sémantické a pragmatické.
Z hlediska operací a procesů probíhajících
v informačním systému je možno
rozlišit relevanci akvizice k informačnímu fondu a relevanci obou vzhledem k
funkci informačního systému, relevanci z hlediska vstupního zpracování
(relevanci z hlediska indexace dokumentu), tj.relevanci selekčního obrazu
k dokumentu, relevanci z hlediska výstupního zpracování (relevanci
obsahové analýzy vzhledem k dotazu), tj. relevanci selekčního dotazu a
předpisu.
Informační systém je efektivní pouze
tehdy, když dostatečně plní svůj účel, tj. své celkové poslání. Spočívá k zajištění informovanosti uživatelů.
Efektivnost informačního systému nezáleží pouze na něm, ale i na jeho okolí.
Faktory podílející se na efektivnosti: společenská potřeba informačního útvaru,
tematické pokrytí, organizace v příslušné tematické oblasti, selekční systém
(metody ukládání a vyhledávání informací), typy výstupů neboli informačních
služeb, jejichž efektivnost je závislá na struktuře uživatelské skupiny, šíření
a distribuce informací, informační hodnota zpracovávaných dokumentů.
Kritéria efektivnosti: ekonomická efektivnosti (zisk, nákladovost,
rentabilita), kritéria selekční efektivnosti (poskytnutí relevantních
informací), kritéria časová a schopnost se přizpůsobit změnám.
2.Vymezení rámce systému zpřístupňování
plných textů z hlediska reálných možností i perspektiv
Zdroje plných textů : plné texty volně přístupné na Internetu
(elektronické časopisy, elektronická vydavatelství/nakladatelství/informační
agentury – archivy a databáze), plné texty získané od
autora/vydavatele/nakladatele/distributora, automatický sběr dat. Zpracování
bibliografických záznamů a plných textů : tradiční v integrovaném knihovnickém
systému (ALEPH apod.), v lince zpracování bibliografických záznamů z plných
textů (extrakce, automatická indexace doplněna ručně nebo zcela automatická) za
současné tvorby URL a metadat ve formě UNIMARC/MARC 21, DC, XHTML, XML/RDF
a/nebo pomocí webovského formuláře. Identifikace plných textů: URL, URN, SICI,
DOI. Propojení: ruční/automatické, on-line/off-line, statické/dynamické,
uzavřené/otevřené. Vyhledání a zpřístupnění plných textů: "subjects
gateways", témata, předmětové kategorie, OPAC - bibliografické záznamy
(UNIMARC/MARC 21) s URL adresou, pojmové vyhledávání a fulltextové vyhledávání
(TOPIC) v kombinaci s rejstříky, metatagy DC, jazyky XHTML XML/RDF, protokoly
HTTP, Z 39.50, SFX, internetové vyhledávače. Uložení plných textů:
archivy, databáze - servery (nakladatelé/vydavatelé, informačních agentury,
digitální knihovny). Výstupy: seznam článků (řazení dle relevance, do
skupin - clustering aj.), formáty (citace/DC/abstrakt/plný text, UNIMARC/MARC21
XHTML, XML/RDF), tisk. Export metadat a plných textů. Uživatelé:
lokální/interní, externí, registrovaní, neregistrovaní, zkušební registrace.
Služby : neplacené, placené v rámci konzorcia nebo mimo, přes IP, login, heslo
nebo volně. Platby: mikroplatby, paušál, předplatné.
V České republice jsou poměrně dobře
zpřístupňovány plné texty novin, týdeníků aj. časopisů. V Národní knihovně se
řeší kromě jiných dva projekty VaV financované z rozpočtu MKČR, které se
zabývají zpřístupněním českých plných textů - výzkumný záměr Propojení
analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů a
programový projekt Souborná databáze Kooperačního systému článkové bibliografie
- optimalizace integrace a správy heterogenních dat.
Náplní projektů je propojení analytických
záznamů s plnými texty a optimalizace integrace a správy heterogenních dat
souborné databáze Kooperačního systému článkové bibliografie. Bibliografické
záznamy článků, publikovaných v českém periodickém tisku a zpracovávané
spolupracujícími knihovnami, jsou postupně propojované s elektronickou podobou
článku a takto prezentované na Internetu. Obě části souborné databáze -
vznikající databáze plných textů ANL FULL a báze bibliografických záznamů ANL
ve formátu UNIMARC - vyžadují permanentní kvalitní SW a HW podporu.
3. Zpracování článků v ČR. Kooperační
systém článkové bibliografie (KOSABI). Báze ANL, ANL FULL
Zpracování článků v ČR je poměrně rozsáhlé
co do zdrojů, které se analyticky zpracovávají, tak co do typů institucí, které
tuto činnost provozují a má dlouhou tradici. Systém zpracování článků se
vyvíjel paralelně po linii oborové, regionální a národní. Automatizace umožnila
určitý průnik systémů a v roce 1992 vzniká automatizovaný Kooperační systém
článkové bibliografie, Výsledkem kooperace KOSABI je souborná centralizovaná
databáze ANL v systému ALEPH, do které přispívají instituce participující v
KOSABI. Některé instituce zároveň budují své lokální báze.
Součástí širšího kooperačního systému
článkové bibliografie po linii oborové je zpracování článků lékařské a
zdravotnické literatury Národní lékařskou knihovnou. Kromě toho se zpřístupňují informace o článcích v
některých vysokoškolských a vědeckých institucích. Na úrovni městských
knihoven je funkční systém LANIUS a jeho produkt Souborný katalog článků.
Nově jsou některé báze kooperačního systému
zpřístupňované z jednotného rozhraní, které poskytuje projekt Jednotná
informační brána. Báze ANL vychází jako řada ČNB – Články v českých
novinách, časopisech a sbornících. Pro zpřístupňování plných textů
z databáze TAMTAM (Anopress) bylo založeno konzorcium.
Obsah báze ANL a ANL FULL
(počty jsou přibližné)
Počet zpracovaných dokumentů : ANL - 710 000 bibliografických záznamů, ANL FULL –
92 000 plných textů s metadaty .
Počet zpracovávaných titulů: ANL - 210 v NKČR, 469 ve spolupracujících
institucích; ANL FULL – 30 titulů.
Časové pokrytí: báze ANL 1990/91 - , báze ANL FULL 1997-.
Obory: filozofie, psychologie, knihovnictví, náboženství, politika, ekonomika,
ekonomie, sociologie, právo, pedagogika, matematika a přírodní vědy, lékařství
(okrajově), technika a průmysl (omezeně), hudba, film, výtvarné umění, sport
(omezeně), jazykověda a literatura, historie, geografie a všeobecnosti.
Zpracovávané typy titulů a výběr článků z
hlediska úplnosti: v kooperačním
systému jsou zpracovávány články a statě české novinové, časopisecké a
periodické sborníkové produkce (sborníky vysokých škol, muzeí, archivů,
materiály z konferencí, ročenky, odborné i polytematické časopisy,
kulturně-politické časopisy a populárně-naučné časopisy).
A: Seriály vydávané AVČR a vysokými školami
v ČR (časopisy, sborníky, ročenky)
B: Seriály (časopisy, sborníky, ročenky) vydávané ostatními institucemi v ČR
C: Noviny (ústřední i regionální) a kulturně-polické časopisy
D: Populárně-naučné časopisy
1=excerpce je prováděna v úplnosti (100-80%
počtu článků)
2=excerpce je prováděna částečně (80-25% počtu článků)
3=excerpce je prováděna výběrově (25%- počtu článků)
A: 1
B: 1 (sborníky ročenky), 1-2 (odborné časopisy)
C: 2,3
D: 3
Báze ANL - kategorie A-D, báze ANL FULL zatím
kategorie C, z kategorie B periodikum Národní knihovna (též samostatná aplikace
ve formátech HTML, PDF).
Typy článků: faktograficky přínosné články, články odborné,
články s dokumentární a uměleckou hodnotou, oficiální dokumenty (projevy,
vyhlášení, komuniké, usnesení), zprávy a informace o kulturních, sportovních,
politických, vědeckých aj. akcích (konferencích, seminářích, festivalech,
jednáních, zasedáních, výstavách, divadelních, rozhlasových a televizních
inscenacích, besedách, sportovních soutěžích), souhrnné a hodnotící články,
závažné polemiky, diskuze a komentáře. Dále jsou zachyceny reportáže,
biografické články (životopisné, jubilejní, nekrology, rozhovory, profily
osobností, vzpomínky), literární texty (básně, povídky aj. ještě nepublikované,
nové překlady), fejetony, sloupky, úvodníky (pouze hodnotné), recenze publikací
různého zaměření, gramofonových desek, kompaktních desek, filmů apod. Obě báze
jsou výběrové.
Metodika popisu báze ANL a ANL FULL
Obě báze obsahují záznamy, které respektují
UNIMARC a pravidla popisu AACR2, pro oblast systematické indexace MDT-MRF,
verbální věcná indexace kombinuje klíčová slova, věcné obecné kategorie a
předmětová hesla. Vyváženost vazby mezi jednotlivými vrstvami popisu je
klíčovým momentem. Báze ANL FULL obsahuje navíc Dublin Core (14 prvků) a Anl
Core (20 prvků) ve formátech HTML, XHTML, XML. V rámci kooperačního systému
byla stanovena pravidla pro výběr titulů k popisu (na základě územní gesce -
tituly regionální a celostátní provenience a dále pak na základě odborného
zaměření). Dále byly stanoveny zásady výběru článků co do úplnosti i co typů.
Vzájemné srovnání bází ANL a ANL FULL
Bibliografické záznamy báze ANL jsou
propojeny s plnými texty báze ANL FULL. Báze ANL FULL je doplněna portálem
volně přístupných textů na Internetu (po linii regionální a oborové – cca 100
titulů). Bázi doplňuje samostatná aplikace pro zpřístupnění periodika Národní
knihovna v HTML a PDF.
Báze ANL naopak obsahuje navíc přímé linky
na některé volně přístupné plné texty na Internetu navíc (Ikaros, U nás,
Bulletin SKIP, Daidalos, Knihovní obzor, Lesnická práce, Psychiatrie,
Psychologie dnes, Vesmír, Harmonie, Collection of Czechoslovak Chemical
Communications, Veřejná správa). K článkům pojednávajícím o zákonech jsou
připojována plná znění zákonů.
4. Architektura systému pro
zpřístupňování plných textů. Linka zpracování. Systém TOPIC a pojmové
vyhledávání. Báze ANL FULL v systému TOPIC
4.1 Architektura systému, ve kterém
vzniká báze ANL FULL a částečně báze ANL - datový a funkční model
Báze vzniká v rámci linky zpracování
bibliografických záznamů z plných textů získaných z databáze TAMTAM za
současného generování metadat Dublin Core ve formátech HTML, XHTML, XML v
kvalifikované a nekvalifikované formě. Báze je provozována v systému TOPIC
(pojmově orientovaný vyhledávací systém). Pro interní uživatele NKČR jsou
přístupné plné texty i metadata. Pro externí uživatele jsou běžně přístupná
pouze metadata, plné texty zatím zkušebně na 7 dnů. Technologie zpracování a
zpřístupnění článků v systému TOPIC vychází z a navazuje na již vyvinutou
technologii firmy Anopress, s.r.o.
Poznámky:
4.2 Linka zpracování bibliografických
záznamů z plných textů a propojení bibliografických záznamů a plných textů
Pracovník oddělení analytického
zpracování NK nejprve vybere a vyhledá příslušné články ke zpracování v této
databázi. Stažení vybraných článků na počítač příslušného pracovníka v podobě
komprimovaného souboru. Po jeho dekompresi je text článku naimportován do
příslušného adresáře. Po otevření formuláře ke zpracování se objeví v levém
části formuláře pro editaci seznam názvů článků. Po kliknutí na článek se
automaticky objeví extrahované údaje z hlavičky článku v příslušných rubrikách
formuláře a hlavičkách TTDE.
Poznámka: částečná podoba strukturovaných
údajů v textu dokumentu, který vstupuje do linky zpracování, je uvedena
v kapitole 5.
Formulář má tři
strany. První obsahuje jmenné a věcné údaje, druhá pouze věcné, třetí jmenné a
věcné údaje.
Po odrážce různé je možno nastavit tvar
výstupní hlavičky pro UNIMARC-A nebo UNIMARC a spustit ruční vstup dat,
nastavit kód výstupních dat (ANSEL, UNICODE, UTF-8). Standardně nastaven výstup
UNIMARC-A v kódu ANSEL.
Následuje odeslání záznamů pomocí
volby odeslat na dolní liště, import do ALEPHu (program vyvinutý v NK),
import na server FULL.NKP.CZ. Pro propojení plných textů s bibliografickými
záznamy v systému ALEPH (doplnění URL adres do záznamů) byl vytvořen skript
MKDOC.PHP. Propojení probíhá ne základě dynamicky generovaného odkazu na
dokument. Program vyhledá požadovaný dokument dle identifikace (identifikační
číslo), provede statistiku a kontrolu autorizace a na jejím základě zobrazuje
plný text, abstrakt a citaci dokumentu v rámci databáze ANL FULL na serveru
FULL.NKP.CZ.
4.3. Systém TOPIC a pojmové
vyhledávání
Systému TOPIC (pojmově orientovaný
vyhledávací systém, concept based retrieval) je systém třetí generace založený
na následujících principech: rozklad pojmu na podpojmy, vážení jednotlivých
podpojmů (větví pojmového stromu), neostré vyhodnocování dotazů.
Dotaz v systému třetí generace reprezentuje
pojem, resp. ideu vyhledávaného tématu. Jádrem dotazu je stromová hierarchická
struktura, která rozkládá hledané téma na podtémata a přiřazuje jednotlivým
částem váhy, které vyjadřují do jaké míry příslušné téma přispívá k celkovému
určení tématu. Systém dále vypočítá míru relevance vyhledaných dokumentů.
Oproti běžně používaným operátorům TOPIC používá operátor ACCRUE se
specifickými vlastnostmi. Tento operátor sbližuje operátory and a or. Každý
topik obsahuje tedy tři základní charakteristiky - strukturu, váhy a operátory
(viz dále).
Podstata systému TOPIC
Topik je předem definovaný strukturovaný
dotaz.
Jednotlivá slova do topiku vkládáme pomocí
operátorů a modifikátorů. Určujeme tím, v jakých vztazích k dalším
pro dané téma typickým výrazům se mají tato slova v textech vyskytovat a
jaký mají pro daný dotaz význam, resp. váhu. K tvorbě topiků se používá
editor a dotaz v něm má strukturu členěné osnovy nebo stromu. Systém vyhledá
všechny dokumenty, v nichž se v určených souvislostech vyskytují
alespoň některá ze zadaných slov. Přihlíží i k pádovým koncovkám. Každému
nalezenému dokumentu program přiřadí ohodnocení relevance v podobě čísla a to
formou číselného skóre, kdy vychází jednak z četnosti výskytu zadaných
slovních kombinací a jednak zohledňuje váhy, které jsme přisoudili jednotlivým
větvím. Fulltextové vyhledávání pomocí tropiků se vyznačuje úplností, značnou
přesností a vysokou mírou přizpůsobivosti individuálním potřebám uživatelů.
Úplnost (recall) znamená, že systém zachytí
prakticky všechny dokumenty, které se v té či oné míře týkají daného
tématu. Přesnost (precision) vyhledávání souvisí s hodnotou skóre: platí,
že text, který obsahuje větší počet slovních kombinací typických pro určité
téma, se k tomuto tématu váže.
Soubor vytvořených topiků je možno
organizovat do znalostní báze. Každý TOPIC má své jméno a popis.
Určování důležitosti dokumentů
Zda nějaký dokument dotazu vyhovuje či ne
záleží na tom, jakými operátory jsou jednotlivá slova spojena. U běžných
fulltextových technologií je možné klíčová slova spojovat operátory and nebo
or.
AND – dokument obsahuje všechna klíčová
slova, která požadujeme, tj. přesné vyhledávání .
OR - dokument obsahuje alespoň jedno klíčové
slovo, tj. úplné vyhledávání (vyhledány všechny potenciálně možné dokumenty).
Oba operátory lze kombinovat pomocí
operátoru ACCRUE (zapisuje se jako čárka při vyhledávání) a je založen
na principu " čím více různých klíčových slov je nalezeno, tím je dokument
důležitější". Na prvním místě jsou dokumenty obsahující všechna slova, na
dalších dokumenty obsahujíc méně a méně různých klíčových slov. Pro přesné
vyhodnocení důležitosti (relevance) dokumentu se berou v úvahu uvedené
váhy slov a četnost jejich výskytu. Důležitý je operátor Near/nn, který
umožňuje vyhledání jen takových dokumentů, kde je určitá množina slov ve
vzdálenosti definována číslem nn.
U systému TOPIC odpadá tedy dilema mezi
přesností a úplností, řeší je operátor ACCRUE.
Kvantifikace obsahu dokumentů
Pomocí široké škály operátorů lze stanovit
způsob vyhodnocování důležitosti dokumentů vzhledem k dotazu. Toto číslo se
nazývá relevance a nabývá hodnot 0,01 až 1.00.
Shlukování (clustering) – funkce, která umožňuje vyhledané dokumenty
shlukovat podle možného společného kontextu. Shlukování je založeno na
statistické analýze obsahu prováděné při jeho indexaci. Pro každý dokument je vybrána
řada slov (Významový vektor), která s určitou pravděpodobností vystihuje
obsah dokumentu, a na základě něj se vytváří automatická anotace v podobě
nejvýznamnější vět z dokumentu (summary).
Příklad topiku (zjednodušená osnova):
VýzkumVesmíru <Accrue><
0.70¨ VýzkumVesmíru-Kosmonautika
<Accrue><
0.80¨ VýzkumVesmíru-PozorováníHvězd
<Accrue><
0.60¨<Stem>dalekohled
0.60¨<Stem>hvězdář
0.60¨<Stem>observatoř
Topik lze také znázornit ve stromové
struktuře a znakové situaci.
4.4 Báze ANL FULL v systému TOPIC. Jak se
zaregistrovat. Jak vyhledávat. Výsledky vyhledávání a zobrazení
Bližší charakteristika báze ANL FULL
obsah, zdroje, registrace (viz též bod 3 dříve)
Databáze ANL FULL obsahuje vybrané plné
texty celostátních deníků a některé kulturně politické a ekonomické časopisy s
přibližnou retrospektivou od r. 1997
(Profit, Reflex, Respekt, Strategie, Týden, Kapitál, Úspěch, Bankovnictví,
Ekonom). Velmi výběrově obsahuje některé regionální tituly. Obsahuje též
periodikum Národní knihovna.
Báze je průběžně aktualizována v rámci
linky zpracování bibliografických záznamů z plných textů od května 2001. Do
konce března 2002 bylo v lince zpracováno celkem cca 13 000 plných textů. Je
také průběžně doplňována off-line. Ve zdrojových kódech plných textů jsou
obsaženy všechny již zmíněné hlavičky (DC, UNIMARC aj.). DC ve formátu XML je
generován do zvláštní databáze.
Vyhledávání je možné z každého slova z textu, pomocí slov i
frází, pomocí bibliografických údajů, dále pak tzv. topiků (definovaných dotazů,
resp. témat v rámci jednotlivých oborů) a pomocí rejstříků.
Topiky jsou uspořádány do 7 tematických oblastí, ty se dělí do 20 tematických
skupin a skupiny obsahují zatím 114 detailních témat.
Tematické oblasti:
Při zobrazení jsou texty vybaveny citací
(bibliografický popis, resp.metadata), automaticky tvořeným souhrnem (začátek článku).
4.4.1 Jak se zaregistrovat
Externí uživatelé se mohou zatím
zaregistrovat pomocí formuláře v nabídce Registrace na dobu 7 dnů. Po vyplnění
povinných údajů bude těmto uživatelům zasláno e-mailem potvrzení registrace s
aktivačním odkazem a heslem - po odeslání tohoto odkazu je registrace
aktivována a prostřednictvím přiděleného hesla zajištěn bezplatný zkušební
přístup na dobu sedmi dnů. Rutinní zpřístupňování plných textů bude možné po
vyřešení autorskoprávních, popř. ekonomických otázek souvisejících se
zpřístupňováním plných textů.
Nabídka Přihlášení slouží k autentifikaci
registrovaného uživatele. Ve formuláři pro přihlášení je třeba vyplnit jméno a
přidělené heslo.
4.4.2 Jak vyhledávat. Druhy dotazů v
databázi ANL FULL a systému TOPIC
Báze ANL FULL obsahuje jak bibliografický
popis v různé míře podrobnosti podle vývoje systému, tak plný text,
přičemž obě tyto části jsou indexovány a lze z nich paralelně vyhledávat a
docílit tím větší míru relevance výsledku vyhledávání k položenému dotazu.
Systém umožňuje velmi sofistikované kladení dotazů vyžadující určitou
zkušenost. Na druhé straně je možné položit dotaz velmi jednoduchým způsobem.
Systém umožňuje tři, resp. čtyři způsoby hledání: vyhledávání (searching)
pomocí formulářů a pole dotaz, pomocí topiků - předem strukturovaných dotazů v
rámci rozšířeného formuláře, prohlížení (browsing) rejstříků.
A. Formuláře - tři základní formuláře
podle pokročilosti vyhledávání.
Základní formulář
Nabídky:
Dotaz - hledat v textu (formulace dotazu)
Období pro vyhledání od do
Typ seznamu výsledků (článků):
jednoduchý (pouze název s nabídkou
zobrazovacích formátů)
se souhrnem (plus souhrn, který je tvořený
počátečními větami článku)
seskupený (skupiny článků uspořádané podle
shody v klíčových slovech).
Rozšířený formulář
Nabídky:
Obsahuje stejné nabídky jako základní
formulář, navíc pak vyhledávání podle imlicitních polích ve struktuře
formuláře. Je možno zvolit, zda vyhledávat v těchto implicitních polích
způsobem <contains> nebo způsobem =. Pro seznam výsledků je možno navíc
navolit oproti základnímu formuláři skóre relevance, od které zobrazovat
články, zobrazit určitý počet článků na stránku, dále třídit dle skóre
relevance, názvu, zdroje, data vydání, stran, a to sestupně či vzestupně.
Hledat v textu - odpovídá poli Dotaz
v základní formuláři (formulace dotazu)
Období pro vyhledání od do
Implicitní pole:
název, autor (s nabídkami pro jednotlivé
údaje)
číselné údaje (s nabídkami pro jednotlivé
údaje)
předmět (s nabídkami pro jednotlivé údaje)
další nabídky: typ článku (s nabídkami pro
jednotlivé typy článků)
zdrojový dokument (s nabídkami zdrojových
dokumentů)
Způsob vyhledání řetězců (v implicitních
polích):
<contains> (postačí výskyt řetězce
v poli)
= je požadováno přesné zadání i porovnání
řetězce
Typ seznamu výsledků (článků):
jednoduchý (pouze název s nabídkou
zobrazovacích formátů)
se souhrnem (plus souhrn, který je tvořený
počátečními větami článku)
seskupený (skupiny článků uspořádané podle
shody v klíčových slovech)
Skóre (relevance, od které zobrazovat
články)
Výsl./str. (počet článků na stránku)
Třídění: dle skóre (relevance)
dle názvu
zdroje
data (vydání)
stran
a to sestupně nebo vzestupně.
Rozšířený formulář s tématy
Nabídky:
Tento formulář má stejné nabídky pro vyhledávání
jako rozšířený formulář, umožňuje vyhledávat navíc podle témat, resp. topiků,
resp. dotazů. Pro bázi ANL FULL jsou nadefinovány některé topiky, rozdělené do
tří úrovní.Topik slouží k tomu, že hledaný výraz vyplněný do textu dotazu a
různě zpřesňovaný je navíc upřesněn topikem, tj. tématem. Např. hledáme-li v
bázi výraz hvězdy, výsledek obsahuje několik tisíc dokumentů. Specifikujeme-li
tento výraz pro vyhledávání v rámci astronomie, najdeme pouze několik set
dokumentů.
B. Dotazy - druhy dotazů se liší náročností formulace a
možností ovlivnit výsledek vyhledávání .
Prostý dotaz
Obsahuje slova nebo fráze oddělené čárkami
nebo logickými spojkami, formulace mohou obsahovat různé konvence. Při
vyhledávání se všechna slova skloňují a mají stejnou váhu.
Formulářový dotaz
Obsahuje kromě možnosti pro zadání hledaného
slova nebo fráze jako u prostého dotazu i pole pro zadání podmínek pro
jednotlivé položky strukturované části textové databáze. Jde o rozšíření
prostého dotazu.
Tematický dotaz, resp. topik -
definujeme jednotlivá témata.
Topik je typ dotazu, na jehož základě se
vyhledají dokumenty, které se týkají určitého tématu, oboru nebo problému.
Topiky jsou rozděleny v bázi do tří úrovní.
Lze zatím vyhledávat podle některých nadefinovaných topiků (označeny šipkou
vlevo). Topiky viz dříve.
C. Metodika vyhledávání pomocí formulářů,
pole dotaz, topiků
Uživatel zvolí typ vyhledávacího formuláře popř. změní jeho implicitní
parametry. Vlastní dotaz potom je možné zadat kombinací výše uvedených
prostředků.
Pole
Pole dotaz, resp. text dotazu – obsaženo ve všech formulářích.
Nejjednodušší dotaz tvoří jediné slovo,
fráze.Pro zadávání složitějších nebo víceslovných dotazů je možno použít
logické operátory (and, or, not a další), případně další konvence, např. zástupné
znaky. Uvedením návěští se vyhledávání omezuje na příslušné pole.
Základní operátory:
and - v poli jsou obsaženy všechny hledané
výrazy
or - pole obsahuje alespoň jeden hledaný
výraz
not - hledaný výraz nesmí být v poli
přítomen
Konvence pro všechny formuláře - pole
dotaz, resp. text dotazu (ukázka):
Př. 1
hvězdy
Vyhledají se dokumenty, které obsahují různé
gramatické tvary zadaného slova (hvězdy, hvězdám...).
Př. 2
hvězdy, asteroidy, planetky
Vyhledá dokumenty, které obsahují různé gramatické
tvary slov ”hvězdy” nebo ”asterioidy” nebo ”komety” (čárky lze nahradit
operátorem or nebo <accrue>, který je přesnější).
Př. : 3
”meteorický roj” or ”padající hvězdy” .
Vyhledá dokumenty, které obsahují různé
gramatické tvary frází ”meteorický roj
nebo ”padající hvězdy”.
Př.: 4
komety <near> kolize
Vyhledá dokumenty, které zároveň obsahují
různé gramatické tvary slov ”komety” i ”kolize”, a seřadí je podle textové
vzdálenosti mezi těmito slovy.
Př.:5 - vyhledávání pomocí nadefinovaných
prefixů
zdr=Respekt and naz=Rafinovaný odraz
skutečnosti
src=Respekt and ti=Rafinovaný odraz
skutečnosti
dc.source=Respekt and dc.title=Rafinovaný
odraz skutečnosti
Implicitní pole - obsažena v rozšířeném formuláři a
v rozšířeném formuláři s tématy (viz dříve) .
Téma - jedno nebo více témat je možno vybrat označením v seznamu v pravém
pruhu od formuláře (maximálně 3 témata pomocí klávesy Ctrl). Témata lze
kombinovat vzájemně mezi sebou i s dotazem v poli dotazu, resp. textu
dotazu.
Relace mezi tématy a poli je možné zaškrtnutím voleb příslušných voleb v pravé
dolní části formuláře (volba and, or).
D. Rejstříky
V rejstřících je možno listovat a vybrat
výraz, podle kterého chceme vyhledávat. Tyto výrazy jsou hypertextově propojeny
v citacích s metadaty, resp. údaji bibliografického popisu. Podle
rejstříků doporučujeme vyhledávat údaje zejména týkající se předmětu dokumentu
(předmětové kategorie, hesla - věcná a geografická, osoby, korporace, akce,
klíčová slova, dokument/dílo). Rejstřík se zobrazuje v levém okně, v pravém
okně se zobrazují vyhledané články.
Bylo nadefinováno 17 rejstříků: autoři,
název zdroje, zdroj ročník číslo, datum vydání, předmětové kategorie, předmět,
místo, hesla (věcná a geografická), osoby, korporace, akce, klíčová slova,
dokument/dílo, typ článku, MDT, geografické vymezení, časové vymezení.
4.4.3 Výsledky vyhledávání, zobrazení
výsledků
A. Způsoby zobrazení seznamu výsledků
(názvů vyhledaných článků)
V záhlaví seznamu výsledků uveden
počet vyhledaných článků. Počet vyhledaných dokumentů na stránku je dán volbou
v poli Výsl./str. V závislosti na této volbě se potom zobrazuje počet
stran s možností listování.
U jednotlivých článků zobrazeno vždy, resp.
standardně (zleva): tři formáty pro zobrazení údajů o článku, skóre relevance,
datum vydání, název článku, velikost plného textu.
B. Třídění seznamu výsledků (názvů
vyhledaných článků)
Skóre (relevance, od které zobrazovat
názvy článků)
Výsl./str. (počet článků na stranu)
Třídění: dle skóre (relevance)
dle názvu
zdroje
data (vydání)
stran
a to sestupně nebo vzestupně.
C. Zobrazení údajů o článku - formáty
zobrazení
Uživatelské formáty
Pracovní formáty
V záhlaví plného textu jsou navíc různé
pracovní formáty - klíčová slova, UNIMARC (komunikativní formát), Dublin Core –
formát pro zpřístupňování elektronických dokumentů a jeho aplikace, které
obsahují metadata (DC/HTML/META, DC/XHTML kvalifikovaný a nekvalifikovaný,
DC/XML kvalifikovaný a nekvalifikovaný). Jsou určeny pro budoucí vývoj systému
a zpřístupnění plných textů.
Metadata
Ve všech variantách zobrazení je obsažena
citace, resp. biliografické údaje, resp. metadata.
( Dublin Core a Anl Core).
Př.6:
Název: |
Cesta mezi hlavou a rukou |
|
Podnázev: |
Když některé věci nenapíšu, nikdy se je nedozvím, říká publicista a spisovatel Pavel Kosatík |
|
Hlavní autor: |
Pavel Kosatík |
|
Další autor: |
Karel Hvížďala |
|
Zdroj: |
Mladá fronta Dnes |
|
Zdroj-příl.: |
Ekonomika |
|
ISSN: |
1210-1168 |
|
Roč. |
12, č. 204 (1.9.2001), s. C/5 |
|
Rubrika: |
Kultura - Pohledy |
|
Předmět. ktg.: |
politika: politici |
|
|
literatura: česká literatura |
|
|
hromadné sdělovací prostředky: novináři |
|
MDT: |
323-051, 070-051, 821.162.3-051 |
|
Osoba jako předmět: |
Masaryk, Jan, 1886-1948 |
|
|
Peroutka, Ferdinand, 1895-1978 |
|
|
Kohout, Pavel, 1928- |
|
Téma jako předmět: |
politici-Československo-stol. 20. |
|
|
novináři-Československo-stol. 20. |
|
|
spisovatelé-Československo-stol. 20. |
|
Typ dokumentu: |
rozhovory |
|
5. Další možný vývoj prezentovaného
systému a zpřístupňování plných textů
Kvalitní a dostatečně rychlé
zpřístupňování plných textů českých odborných a vědeckých periodik včetně
periodik vydávaných vysokými školami by se mělo stát prioritou v aktivitách,
které se soustřeďují na zpřístupnění těchto textů.
Popsaná linka zpracování automatické
indexace je použitelná po úpravě vstupním filtrem i na data existující v jiné
databázi, event. v komunikaci mezi autorem, nakladatelstvím, bibliografickou
agenturou, knihovnou/informační institucí a naopak.
Předpokládá však do jisté úrovně
strukturovaný vstupní text, ze kterého data mohou být extrahována.
V této struktuře mohou být zachyceny údaje
nejen jmenné povahy (autor apod.), ale i povahy věcné (klíčová slova,
abstrakt).Ty je potom možno převést pomocí vstupního filtru do linky
automatické indexace k dalšímu zpracování.
1) Pro identifikaci
článků ve struktuře textu pro další
zpracování v lince jsou důležité následující údaje z možných 15 prvků DC:
2) Pro konverzi či zápis údajů obsažených
v hlavičce textu dokumentu je
možno použít schéma definované na základě pokynů pro přispěvatele do časopisů
(v běžném editoru), je možno použít i speciálních maker.
Výsledek :
#NAZ#Název
článku#/NAZ#
#ATR#Hlavní autor#/ATR#
#AT2#Další
autor#/AT2#
#ZDR#Název
zdroje#/ZDR#
#ROC#Ročník#/ROC#
#CIS#Číslo#/CIS#
#DAT#Datum vydání
zdroje#/DAT#
#STR#Počáteční
strana#/STR#
#VYD#Vydavatel#/VYD#
#KEY#klíčové
slovo, klíčové slovo#/KEY#
#SUM#Abstrakt#/SUM#
#COP#Práva#/MIS#
#ISN#ISSN#/ISN#
#IDE#Identifikační
číslo#/IDE#
4) Zobrazení metadat po konverzi do DC
v lince zpracování
<META name="DC.Title"
content="Název">
<META
name="DC.Creator.personalName" content="Hlavní autor">
<META
name="DC.Contributor.personalName" content="Další
autor">
<META name="DC.Source"
content="Název zdroje, roč. X , č. X (datum), s. X">
<META name="DC.Publisher"
content="Vydavatel">
<META name="DC.Date.issued"
scheme="W3C-DTF" content="Datum vydání">
<META name="DC.Subject"
content="klíčové slovo">
<META name="DC.Subject"
content="klíčové slovo">
<META
name="DC.Description.abstract" content="Abstrakt">
<META name="DC.Rights"
content="Práva">
<META name="DC.Source"
scheme="ISSN" content="ISSN">
<META
name="DC.Identifier"content="Identifikátor">
5) V rámci linky zpracování se potom
údaje mohou dále editovat a následně konvertovat do HTML podoby a příslušných
formátů.
Závěr
Strukturovat nestrukturované informace a
užívat takových vyhledávacích systémů, které mají kvalitní nástroje k uchopení
nestrukturovaných plných textů nebo semistrukturovaných textů, protože tyto ve
velké míře převažují.
Použitá literatura:
1. ANDĚROVÁ, I. Kooperační sytém článkové
bibliografie a propojení analytických záznamů s plnými texty - východiska a
současný stav. Národní knihovna : knihovnická revue. 2001, roč. 12, č. 1, s.
26-37. Též dostupný z: <http://full.nkp.cz/nkdb/index.html>.
2. CÍGLER, I., Königová, M., Lukavec, P.,
Vacek, V. Hodnocení efektivnosti informačních systémů. Systémová analýza v
informatice. ČVTS, 1974. S. 98-115.
3. JONÁK, Z. Inteligence systémů zpracování
textů. Ikaros [online]. 2000, č. 1 [ cit. 2000-01-05]. Dostupný z: <http://ikaros.ff.cuni.cz/ikaros/2000/c01/isko/z_jonak.htm>.
4. JONÁK, Z. Reflektuje teorie informace a komunikace dostatečně na zvýšený zájem společenských věd o semiotické a komunikační aspekty života? Ikaros [online]. 1999, č. 3 [cit. 1999-03-01]. Dostupný z: <http://ikaros.ff.cuni.cz/1999/c03/veda2.htm>.
5. PAPÍK, R. Trendy v rozvoji informačních
služeb. Ikaros [online]. 1999, č. 8 [cit. 1999-09-01]. Dostupný z: <http://ikaros.ff.cuni.cz/ikaros/1999/c08/usti/usti_papik.htm>.
6. Saracevic, T. The concept of relevance in
information science : a historical review. Introduction to Information Science.
New York : Academic Press, 1976. S. 79-137.
7. Topic : systém pro inteligentní
vyhledávání dokumentů. Praha : Tovek, 19?.
8. Vejlupek, T. SPEIS - koncept jednotného
využívání a jednotné nabídky informačních zdrojů a informačních služeb od
různých poskytovatelů. Praha , 2001. 18 s.
9. Zemanová, I. Problematika relevance a
pertinence. Vývoj a současný stav. Diplomová práce.
Praha. FFUK , 1977. 164 s.
Informace prezentované v článku jsou
přístupné na adrese http://full.nkp.cz .
e-mail: ivana.anderova@nkp.cz