1
|
- Ivana Anděrová, oddělení analytického zpracování NKČR
- KOSABI, ANOPRESS
|
2
|
- Nutnost nových modelů získávání, zpracování a zpřístupňování
bibliografických informací,
nutnost změn v chování uživatele (human computer interaction) s rozvojem
elektronického publikování
- Typy elektronických dokumentů: podle
původu - digitalizované, současně tištěné i elektronické, doplňky k
tištěným, pouze elektronické; podle obsahu – různá hlediska dělení; způsob
a úroveň vydávání/popisu -
monografie, pokračující zdroje (seriály, integrující zdroje - např.
webovská sídla), jednotlivé části.
- Získávání - zdroje plných textů : plné texty přístupné na Internetu (elektronické
časopisy, elektronická vydavatelství /nakladatelství/informační agentury
- archivy a databáze), plné texty získané od autora/
vydavatele/nakladatele/distributora, povinný výtisk, automatický sběr
dat (harvesting).
- Zpracování bibliografických záznamů a plných textů - způsoby : tradiční
v integrovaném knihovnickém systému (ALEPH apod.), v lince automatické
indexace bibliografických záznamů z plných textů (spíše extrakce či
poloautomatická indexace doplněna ručně než zcela automatická) za
současné tvorby URL a metadat ve formě UNIMARC/perspektivně v MARC 21,
DC, XHTML, XML/RDF - nástroje pro extrakci, editaci, generování a
indexaci dat (www vyhledávač, SW).
|
3
|
- Metadata : bibliografický záznam (MARC),
DC - metadatový formát pro www zdroje s jednoduchou syntaxí a
sémantikou, specifikováno 15 prvků , kvalifikované atributem či
nekvalifikované.
- Značkovací jazyky: značky určují způsob interpretace textu, značky
určují význam (deskripce) a prezentaci (zobrazení) - HTML (kombinace
obou typů, nedostatky), XML (pouze
význam) + XSL (zobrazení) + Xlink, XPointer,XPath (odkazy).
- Implementace metadat: MARC, DC a HTML, XHTML, XML/RDF v kvalifikované a
nekvalifikované formě.
- XML/RDF: popis systému značek DTD (Document Type Description) tvoří tzv. RDF (Resource Description
Framework) - Rámec pro popis zdrojů v XML, definována syntax a sémantika
- odkaz na definici RDF a metadatové schéma, tzv. jmenný prostor, prvek
identifikován popisem (jmenným prostorem) a jeho názvem, možnost vkládat
vnořené prvky.
- Identifikace plných textů: URL , PURL (databáze, PURL je přiřazeno
danému URL), URN , SICI (pro tištěné i elektronické seriály, články), DOI
(ochrana autorských práv).
- Propojení: ruční/automatické, on-line/off-line, statické/dynamické,
uzavřené/otevřené.
|
4
|
- Vyhledání a zpřístupnění plných textů: internetové vyhledávače, protokol
HTTP, XML, Z 39.50, SFX; brány a portály; "subjects gateways", konspekt,
předmětové kategorie, témata; OPAC
- bibliografické záznamy (UNIMARC/MARC 21) s URL adresou nebo dynamicky,
pojmové vyhledávání a fulltextové vyhledávání (TOPIC) v kombinaci s
rejstříky, interaktivní využití topiků při vyhledávání a zpětná vazba
relevance (relevance feedback); metatagy DC v HTML, XHTML, XML/RDF.
- Uložení plných textů: archivy, databáze - servery
(nakladatelé/vydavatelé, informačních agentury, knihovny).
- Výstupy: seznam článků (řazení dle relevance, do skupin - clustering
aj.), formáty (citace/abstrakt/plný text, UNIMARC, DC, HTML, XHTML,
XML/RDF). Stahování, export a tisk metadat a plných textů (formát text,
RTF, HTML, XML, též UNICODE).
- Uživatelé: lokální/interní, externí, registrovaní, neregistrovaní,
zkušební registrace.
|
5
|
- Zpřístupnění plných textů z hlediska formy: přes bibliografie a soupisy,
obsahy časopisů, plnotextové databáze, digitální knihovny.
- Zpřístupnění plných textů z hlediska institucionálního (zdroje): autoři, prostřednictvím nakladatelství/vydavatelství,
distributorský firem, knihoven/informačních institucí.
- Zpřístupnění plných textů z hlediska organizačního, ekonomického,
technického: konzorcia, licence, zdarma, placené (předplatné –
fixed-fee, platby za uskutečněné operace – pay-as-you-go), přes IP,
login, heslo, volně.
- Standardy: Metodika popisu článků ve formátu UNIMARC - vychází z AACR2R,
ISBD /CP; harmonizace AACR2R a ISBD, ISBD (ER), ISBD(S) - ISBD (CR),
FRBR – Funkční požadavky na bibliografické záznamy (Functional
Requirements for Bibliographic Records) – 4 úrovňový model manifestace
díla.
|
6
|
- Souborná databáze Kooperačního systému článkové bibliografie -
optimalizace integrace a správy heterogenních dat (VaV, MKČR,
2000-2004).
- Propojení analytických záznamů s plnými texty a optimalizace
zpřístupnění plných textů (VaV, MKČR, 1999-2003).
|
7
|
- Kooperační systém článkové bibliografie - „užší“ (NKČR, MZK, krajské
knihovny) a „širší“ (plus
oborové, resp. specializované knihovny) - NKČR, zatím reálně 8 krajských knihoven
+ kontakty a spolupráce v teoretické rovině se 4 nově konstituovanými
krajskými knihovnami, MZK, STK, SPKK-ÚIV, ÚZPI, experiment s Českým
geologickým ústavem.
- Součástí „širšího“ kooperačního systému je i Národní lékařská knihovna, záznamy
však nejsou součástí báze ANL.
- Kooperace po linii regionální a oborové.
- Smluvní zajištění: Smlouva o sdružení pro Českou národní bibliografii
(r. 1998), Dodatek č. 3 (r. 2001) zajišťuje pokračování článkové
bibliografie v přechodném období související se změnou státoprávního
uspořádání ČR.
- Souborná bibliografická databáze KOSABI - ANL (vychází jako řada ČNB) a lokální
databáze spolupracujících institucí, plnotextová báze ANL FULL s
metadaty.
- Systém Lanius, resp. Clavius - kooperační systém na úrovni menších
knihoven a jeho produkt SKAT
(Souborný katalog článků) - v současné době se řeší spolupráce s KOSABI.
|
8
|
|
9
|
- Výběr zpracovávaných dokumentů je
orientován na širší odbornou veřejnost:
- A: seriály (časopisy, sborníky, ročenky) vydávané AVČR a vysokými
školami v ČR
- B: seriály (časopisy, sborníky, ročenky) vydávané ostatními institucemi
v ČR
- C: noviny (ústřední, regionální) a kulturně politické časopisy
- D: populárně naučné časopisy
- Vyloučena periodika místní, závodní a zábavného charakteru, časopisy pro
děti event. mládež
|
10
|
- A: 1 (100-80 %)
- B: 1 (sborníky, ročenky), 1-2 (odborné časopisy) (100-80-25 %)
- C: 2, 3 (80-25, někdy méně) %)
- D: 3 (25 – méně %)
|
11
|
- Faktograficky přínosné články.
- Články odborné, články s dokumentární a uměleckou hodnotou.
- Oficiální dokumenty (projevy, vyhlášení, komuniké, usnesení).
- Zprávy a informace o kulturních, sportovních, politických, vědeckých aj.
akcích (konferencích, seminářích, festivalech, jednáních, zasedáních,
výstavách, divadelních, rozhlasových a televizních inscenacích,
besedách, sportovních soutěžích).
- Souhrnné a hodnotící články, závažné polemiky, diskuze a komentáře.
- Reportáže, biografické články (životopisné, jubilejní, nekrology,
rozhovory, profily osobností, vzpomínky).
- Literární texty (básně, povídky aj. ještě nepublikované, nové překlady),
fejetony, sloupky, úvodníky (pouze hodnotné).
- Recenze publikací různého zaměření, gramofonových desek, kompaktních
desek, filmů apod.
|
12
|
- Výběrové článkové databáze.
- Obory: všechny (lékařství a sport okrajově, technika posílila).
- Typy seriálů: ANL – kategorie A,B,C,D (omezeně); ANL FULL zatím
převažuje kategorie C .
- Úplnost excerpce (výběr článků vzhledem k typům seriálů).
- Popis a formáty: ANL a ANL FULL - UNIMARC, AACR2, MDT-MRF, předmětové
kategorie, hesla, klíčová slova; ANL FULL navíc
DC, XHTML, XML.
- ANL/ALEPH (cca 765 000 záznamů, 537 titulů, r. 1991-).
- ANL FULL/linka zpracování bibliografických záznamů z plných textu/TOPIC (107 000
plných textů s metadaty, 16 titulů, r. 1997-).
- Aplikace pro periodikum Národní knihovna (r. 1999-), do r. 2001 v bázi
ANL FULL, v budoucnu společné interface
|
13
|
|
14
|
- Aplikace pro příjem a automatizované zpracování dat od kooperujících
institucí (konverze, globální úpravy, formálně logické kontorly - test
na UNIMARC, test na duplicitu záznamů, aplikace pro evidenci excerpční
základny) - dílčí aplikace:
- upload předávání dat od kooperujících institucí do KOSABI;
- import dat na server ANL, export dat do báze ANL- ALEPH);
- kontrola na duplicity vně ALEPHu - klíče;
- báze titulů.
|
15
|
- Linka zpracování bibliografických záznamů z plných textů - linka
automatické indexace/extrakce ve spolupráci s Anopressem (akvizice
plných textů z báze TamTam).
- Báze ANL FULL v systému TOPIC.
- Strukturovaný portál Periodika na WWW.
|
16
|
|
17
|
|
18
|
|
19
|
|
20
|
|
21
|
- Fulltextový pojmově orientovaný vyhledávací systém, pojmové vyhledávání
(concept retrieval) pomocí strukturovaných dotazů (topiků), využívá
poznatků z oboru sémiotiky.
- Hodnocení důležitosti, relevance vyhledaných dokumentů vzhledem k dotazu
(relevance ranking), váhy.
- Kvantifikace obsahu dokumentů.
- Shlukování dokumentů podle společného kontextu (clustering) a vytváření automatické anotace -
sumarizace (summarization).
- Interaktivní vyhledávací systém - hledání dokumentů s podobným
obsahem - volný dotaz (Free Text
Query), dotaz příkladem (Query By Example).
|
22
|
- Dotaz - výraz složený ze slov a frází, který hledáme v dané databázi.
- Topik - je předem definovaný uložený strukturovaný dotaz, resp. téma, které je tvořeno slovy,
frázemi, operátory (významný fuzzy operátor ACCRUE) a modifikátory;
obsahuje informace o předmětu hledání.
- Topik má podobu pojmového stromu,
na jeho nižších úrovních (větvích) jsou množiny dalších pojmů, resp.
témat, která jsou tvořena dále nedělitelnými klíčovými slovy (listy).
- Pojmový strom tvoří vyhledávací
podmínku pro dokumenty týkající
se určitého tématu.
- Topik je konceptuální popis
znalosti o dané problematice ve formě znalostního stromu.
- Definice topiků tvoří tzv. znalostní bázi.
|
23
|
|
24
|
- Čtyři způsoby hledání: pole dotaz, pomocí formulářů, pomocí topiků,
resp. témat (předem strukturovaných dotazů), pomocí rejstříků.
- Tři druhy dotazů: prostý dotaz, formulářový dotaz, tematický dotaz.
- Tři druhy formulářů: základní, rozšířený, rozšířený s tématy.
- Seznam výsledků: jednoduchý, se souhrnem, seskupený.
- Třídění seznamu: skóre, výsl./str., vlastní třídění.
- Zobrazení metadat: uživatelské formáty, pracovní formáty.
- Rejstříky - nadefinováno 17 rejstříků.
|
25
|
|
26
|
|
27
|
|
28
|
|
29
|
|
30
|
- Začlenění nových krajských knihoven v Pardubicích, Karlových Varech,
Havlíčkově Brodě, Zlíně.
- Přerozdělení titulů, kde bude potřeba
- KOSABI a SKAT - koordinace zpracování titulů v budoucnu.
- Spolupráce s dalšími knihovnami a informačními institucemi.
- Spolupráce se společností Anopress, event. navázání spolupráce s dalšími institucemi
(nakladatelé, vydavatelé aj.).
|
31
|
- Doladit převod z některých systémů do standardního UNIMARCu a báze ANL.
- Harmonizace popisu článků v rámci KOSABI se soubory autorit zejména v
oblasti věcného zpracování (předmětová hesla, předmětové kategorie,
metoda konspektu).
- Konverze UNIMARC-MARC 21, pravidla pro popis článků vzhledem k tomuto
formátu.
- Testovat a event. postupně aplikovat linku zpracování bibliografických
záznamů z plných textů (TTDE,
automatická či poloautomatická extrakce a indexace dat) v rámci KOSABI.
- Napojení linky zpracování na autority
- Spolupráce s projektem Webarchiv?
|
32
|
- Báze ANL a ANAL (Olomouc) zpřístupněna v JIB jako zdroj.
- Báze ANL FULL zpřístupněna v JIB jako odkaz.
- Plné texty báze ANL FULL a přes bázi ANL přístupné v JIB pro externí
uživatele zatím na 7 dnů po registraci a přihlášení, pro uživatele NKČR
běžně. Export a stahovaní článků v testovací fázi.
- Báze ANL (jejíž část vzniká v lince TTDE) je vydávána jako řada ČNB
Články v českých novinách, časopisech a sbornících.
|
33
|
- Obdobný vývoj zpracování článkové bibliografie na Slovensku a v Česku.
- Vydávání SNB, ČNB - stejný SW (Tornádo) – AiP,AiB.
- Súborný katalog knižníc SR, Souborný katalog ČR, Caslin.
- Systém ALEPH v obou národních knihovnách.
- Slovensko – BBB, systém LIBRIS, BIBLIS, Súborná databáza regionálnej
bibliografie Košice, Rožňava, Trebišov.
- Česko - JIB CASLIN, různé systémy, KOSABI, SKAT (Lanius).
- Česko - fy Anopress, Slovensko fy
Slovakia Online a Siac.
- Slovensko - poskytování povinných kopií elektronických publikací UK v
Bratislavě a SNK, Česko - nikoli ?
|
34
|
|