2. Průběžné průzkumové práce týkající se hlavních trendů ve zpřístupňování elektronických zdrojů a plných textů (globální pohled s ohledem na vývoj zpřístupňování plných textů v ČR).

2.1 Předpoklady, cíle optimalizace zpřístupnění plných textů v ČR

Předpokladem optimalizace zpřístupnění plných textů je jejich propojování  (odkazování, linking) s   ostatními zdroji a službami, které  plné texty zpřístupní uživateli. Lze propojovat bibliografické záznamy či citace článků  s plnými texty v on-line časopisech i databázích všeho druhu (i tak, že tato metadata jsou vložena přímo v plných textech), s abstrakty, se systémy current  content,  OPAC, systémy dodávání dokumentů (DDS) apod.

Druhy/typy propojování při vyhledávání informací:

 

Propojování metadat s plnými texty - metadata mohou být umístěna v hlavičce plného textu nebo vně plného textu.

 

Propojovat je možno uzavřeně (closed linking), otevřeně (open linking), staticky (static linking) a dynamicky (dynamic linking). Současným trendem je otevřené dynamické  propojování, kdy propojení není fixně dané, ale tvoří se ad hoc.

K identifikaci, propojení a zpřístupnění   elektronických objektů na internetu slouží identifikátory jako je URL, PURL, URN a DOI, SICI včetně klasických ( např. ISSN, ISBN). Některé z nich mohou být  spolu s jinými údaji součástí  OpenURL. Teoreticky lze propojovat všechno se vším. V praxi jde však  o to, aby tato propojení byla účelná, transparentní a relevantní.

Předpokladem úspěšného propojování informací je standardizace ve všech fázích informačního procesu (vznik, zpracování, zpřístupnění informací) a interoperabilita systémů (spojování a propojování systémů založených na různých platformách nejen po stránce, formální, technické, ale i obsahové).  Významné aktivity jsou v oblasti ontologií (systém konceptů a vztahů mezi nimi). Kombinují se databáze strukturované s nestrukturovanými.

Nové metody získávání plných textů, jako je sklízení informaci (harvesting) - viz projekt  Webarchiv, akvizice textů z jednotného prostředí databáze distributora plných textů, které metadata již obsahují – viz projekt ANL FULL nebo získávání plných textů přímo od autora či vydavatele/nakladatele, urychluje proces získávání a propojování metadat s plnými texty. Předpokladem je však existence metadat v těchto textech ve strukturované formě.

Moderním nástrojem propojení na úrovni zpracování jsou aplikace založené na standardizovaném metapopisu fondů a zdrojů z hlediska formálního i  sémantického (Dublin Core vyjadřuje sémantiku dokumentu na základě definice 15 prvků – např. autor, název aj.,  jazyk XML/RDF umožňuje zapsat strukturovaný text a definovat metadatové schéma v prostředí WWW. Dublin Core je aplikován v různých projektech a je základem formátu pro  metadatovou  interoperabilitu (např. v rámci iniciativy  OAI (Open Archives Initiative). Zkoumaji se  vztahy a možnosti převodu formátů MARC do Dublin Core a XML a naopak a tak i možnosti propojení otevřeného a hlubokého webu (deep web). 

V ČR se aplikaci Dublin Core zabývá projekt Webarchiv (instalace formuláře pro generování DC a XML/RDF a uzavření smluv s několika vydavateli plných textů) a  JIB (Návrh požadavků na metadata používaná pro provoz oborových informačních bran v České republice).  V rámci projektu řešených odd. analytického zpracování NKČR je Dublin Core  vkládán do plných textů v  lince poloautomatické indexace (extrakce), tj. zpracování bibliografických záznamů z plných textů získávaných z databáze TamTam (Anopress), jejíž plné texty obsahují de facto základní údaje pro minimální záznam článku. Tyto údaje se ve speciálním formuláři doplňují především věcným popisem. Současně je generován UNIMARC. Záznamy jsou zpřístupňované v databázi ANL FULL. V této lince je současně generován UNIMARC. Zároveň je generován ještě formát XHTML a XML v kvalifikované a nekvalifikované formě. Bibliografická metadata jsou také importována s příslušnou URL adresou  plného textu v bázi ANL FULL do báze ANL. Z báze ANL je tedy používán  statický link do báze ANL FULL. Vyhledává-li uživatel přímo v plnotextové bázi ANL FULL, generuje se adresa dynamicky.

Aplikují pravidla AACR2R a ISBD. Některé instituce užívají UNIMARC, jiné knihovny postupně přecházejí nebo již přešly na M21 (VŠE, MU, NKČR aj.). V oblasti  zpracování je kladen důraz na kontrolu proti národním souborům autorit,  v oblasti věcného zpracování je kladen důraz na předmětovou kategorizaci fondů a zdrojů z hlediska konspektu.  V oborech lékařství, pedagogika, náboženství, právo se používají speciální hesláře. V STK je vyvíjen Polytematický strukturovaný heslář. V bázi ANL FULL (nabídka Formuláře, Rozšířený formulář s tématy) jsou navíc pro vyhledávání v plných textech definovány  topiky (dotazy ve formě témat a podtémat  ve stromové struktuře).

V zahraničí probíhají činnosti týkající se revize AACR2 a ISBD vzhledem k  možnosti aplikace konceptu FRBR na tato pravidla. Koncept FRBR poskytuje velké možnosti propojování zdrojů již na úrovni popisu. Statement of International Cataloguing Principles (Prohlášení mezinárodních  zásad katalogizace) IFLA má být východiskem pro mezinárodní katalogizační pravidla.

V ČR se aplikace otevřených standardů, Z39.50 - návrh českého národního profilu a   OpenURL (viz  JIB a Portál STM), které  umožňují zpřístupnění informačních zdrojů v jednotném prostředí.

SFX  (Special Effects) je technologie založená na OpenURL. Spočívá v  oddělení popisu zdroje od služeb, které jsou poskytovány. Mezi popisem zdroje a službami stojí tzv. servisní služba (linking service) která propojuje metadata obsazená ve výchozím zdroji, ktera našel uživatel s vhodným cílovým zdrojem pro uživatele na základe jeho registrace u této servisní služby. Zaručuje tzv. propojení citlivé na kontext (context sensitive linking). Pro připojení  informačního či knihovního systému k SFX je nutné, aby systém podporoval OpenURL.

Přehled standardů používaných v JIB sumarizuje materiál  Standardy využívané v JIB.

Systémy dodávání dokumentů v rámci technologických center v ČR jsou řešeny např. na bázi systému AIP Document Delivery.

Poskytované služby by měly být adresné, relevantní a pertinentní. Interakce systém-uživatel by měla být samozřejmostí.  Velmi kvalitní informace zpřístupňované moderními metodami poskytují tzv. znalostní systémy.

Znalostní systémy – v ČR distribuované společností TOVEK (fulltextová technologie Verity – TOPIC, Portal ONE,  K2 )  a INCAD (systém Convera RetrievalWare). Problematikou znalostních systémů a vytěžováním informací, vyhledáváním v plnotextových databázích aj. se zabývají projekty a renomované konference jako je Datakon  a Znalosti. V knihovnické sféře se aplikací systému, který umožňuje pojmové vyhledávání (concept based retrieval),  neostré (fuzzy) vyhledávání a interaktivní vyhledávání s ohledem na relevanci (recall) pertinenci (precision)  vyhledaných dokumentů a který kombinuje plnotextové vyhledávání s vyhledáváním pomocí řízených slovníků  zabývají projekty  Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů, Souborná databáze Kooperačního systému článkové bibliografie – optimalizace integrace a správy heterogenních dat. Jde o aplikaci systému TOPIC (Báze ANL FULL v sytému TOPIC).

Veškeré snažení směřuje k propojení existujících informací v databázích  aj. informačních zdrojích s otevřeným webem.

2.2. Nové trendy ve zpřístupňování plných textů na www v přehledu

Nutnost nových modelů získávání, zpracování a zpřístupňování bibliografických  informací, nutnost změn v chování uživatele (human computer interaction) s rozvojem elektronického publikování  

Typy elektronických  dokumentů: podle původu - digitalizované, současně tištěné i elektronické, doplňky k tištěným, pouze elektronické; podle obsahu – různá hlediska dělení; způsob a úroveň  vydávání/popisu - monografie, pokračující zdroje (seriály, integrující zdroje - např. webovská sídla), jednotlivé části.

 

Získávání - zdroje plných textů : plné texty  přístupné na Internetu (elektronické časopisy, elektronická vydavatelství /nakladatelství/informační agentury - archivy a databáze), plné texty získané od autora/ vydavatele/nakladatele/distributora, povinný výtisk, automatický sběr dat (harvesting).

 

Zpracování bibliografických záznamů a plných textů - způsoby : tradiční v integrovaném knihovnickém systému (např ALEPH apod.), v lince automatické indexace bibliografických záznamů z plných textů (spíše extrakce či poloautomatická indexace doplněna ručně než zcela automatická) za současné tvorby URL a metadat ve formě UNIMARC/perspektivně v MARC 21, DC, XHTML, XML/RDF - nástroje pro extrakci, editaci, generování a indexaci dat (www vyhledávač, SW).

 

Metadata : bibliografický záznam (MARC),  DC - metadatový formát pro www zdroje s jednoduchou syntaxí a sémantikou, specifikováno 15 prvků , kvalifikované atributem či nekvalifikované.

 

Značkovací jazyky: značky určují způsob interpretace textu, značky určují význam (deskripce) a prezentaci (zobrazení) - HTML (kombinace obou typů, nedostatky), XML  (pouze význam) + XSL (zobrazení) + Xlink, XPointer,XPath (odkazy).

Implementace metadat: MARC, DC a HTML, XHTML, XML/RDF v kvalifikované a nekvalifikované formě.

 

XML/RDF: popis systému značek DTD (Document Type Description)  tvoří tzv. RDF (Resource Description Framework) - Rámec pro popis zdrojů v XML, definována syntax a sémantika - odkaz na definici RDF a metadatové schéma, tzv. jmenný prostor, prvek identifikován popisem (jmenným prostorem) a jeho názvem, možnost vkládat vnořené prvky.

 

Identifikace plných textů: URL, PURL (databáze, PURL je přiřazeno danému URL), URN , SICI (pro tištěné i elektronické seriály, články), DOI (ochrana autorských práv).

 

Propojení: ruční/automatické, on-line/off-line, statické/dynamické, uzavřené/otevřené.

 

Vyhledání a zpřístupnění plných textů: internetové vyhledávače, protokol HTTP, XML, Z 39.50, SFX; brány a portály;  "subjects gateways", konspekt, předmětové kategorie, témata;  OPAC - bibliografické záznamy (UNIMARC/MARC 21) s URL adresou nebo dynamicky, pojmové vyhledávání a fulltextové vyhledávání (TOPIC) v kombinaci s rejstříky, interaktivní využití topiků při vyhledávání a zpětná vazba relevance (relevance feedback); metatagy DC v HTML,  XHTML, XML/RDF.  

 

Uložení plných textů: archivy, databáze - servery (nakladatelé/vydavatelé, informačních agentury, knihovny).

 

Výstupy: seznam článků (řazení dle relevance, do skupin - clustering aj.), formáty (citace/abstrakt/plný text, UNIMARC, DC, HTML, XHTML, XML/RDF). Stahování, export a tisk metadat a plných textů (formát text, RTF, HTML, XML, též UNICODE).  

 

Uživatelé: lokální/interní, externí, registrovaní, neregistrovaní, zkušební registrace.

 

Zpřístupnění plných textů z hlediska formy: přes bibliografie a soupisy, obsahy časopisů, plnotextové databáze, digitální knihovny.  

 

Zpřístupnění plných textů z hlediska institucionálního (zdroje): autoři,  prostřednictvím  nakladatelství/vydavatelství, distributorských firem, knihoven/informačních institucí.

 

Zpřístupnění plných textů z hlediska organizačního, ekonomického, technického: konzorcia, licence, zdarma, placené (předplatné – fixed-fee, platby za uskutečněné operace – pay-as-you-go), přes IP, login, heslo, volně.  

 

Standardy: Metodika popisu článků ve formátu UNIMARC - vychází z AACR2R, ISBD /CP; návrh doplňků minimálního záznamu pro popis článků v rámci souborné databáze ANL v UNIMARCu a návrh minimálního záznamu pro popis článků v rámci souborné databáze ANL v M21 – duben 2004;  harmonizace AACR2R a ISBD, ISBD (ER), ISBD(S) - ISBD (CR), FRBR – Funkční požadavky na bibliografické záznamy (Functional Requirements for Bibliographic Records) – 4 úrovňový model manifestace díla;  citace - ČSN ISO 690-2-2000.

 

 

 

2.3 Kooperační systém článkové bibliografie a jeho perspektivy

 

V ČR se existují  zpracovatelské systémy v rámci typů institucí. Např. v rámci Univerzity Karlovy   Souborný katalog Univerzity Karlovy ;  zpracování v rámci AVČR; v rámci systému veřejných knihoven - spolupráce ústředních a regionálních knihoven‚ např.  Kooperační systém článkové bibliografie, v rámci oborů oborové informační brány, portály a elektronické knihovny - MEDVIK, Portál STM, Agronavigator, Econlib aj. Řada zdrojů je integrována v jednotném prostředí JIB  a STM.  

Projekt Webarchiv řeší problematiku archivace webových zdrojů.  Zpracováním a zpřístupněním starších novin a časopisů se zabývá projekt Kramerius v rámci Digitální knihovny.

Zpřístupněním plných textů se zabývají projekty v rámci běžícího programu 1 N MŠMT. V budoucnu dojde patrně ke spolupráci  v rámci uvedených i  systémů a projektů.

 

 

Spolupráce v rámci Kooperačního systému článkové bibliografie je založena  na rozdělení titulů ke zpracování z hlediska oborového a regionálního, takže v systému  dochází  v současné době k minimálním duplicitám ve zpracování mezi spolupracujícími institucemi.

 

Potenciálně vzniknou  duplicity po eventuelním Souborného katalogu článků systému LANius do Jednotné informační brány (o možné  delimitaci titulů ke zpracování se již jednalo a bude jednat, mělo by převládat hledisko místa vydavatele zdroje).

 

Eventuelní delimitace a návaznosti  zpracování mezi  KOSABI  a vysokými školami, AV ČR  bude patrně řešena v budoucnu (zde by mělo převládat hledisko vydavatelské a oborové).

 

Nástroje spolupráce a interoperability se vyvíjí, existují nebo se aplikují, je však  třeba je vyzkoušet, zhodnotit a využít  tak, aby zpřístupnění článkových informací z hlediska globálního pohledu nebylo narušeno a aby bylo v rámci možností kvalitní, rychlé a zejména konzistentní  s napojením na plné texty.

 

Zpracování a zpřístupnění českých plných textů moderními metodami v rámci KOSABI řeší projekty Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů, Souborná databáze Kooperačního systému článkových informací – optimalizace integrace a správy heterogenních dat. Výsledky jsou publikovány na serveru http://full.nkp.cz a  stránkách NKČR.

 

Kooperační systém a jeho  hypotetické  subsystémy  z hlediska typů a formy titulů, návaznosti

 

·     Zpracování sborníků a seriálů (zatím nedostupných v elektronické formě)  v tradičních systémech (Aleph apod.)

 

·     Zpracování seriálů (dostupných v tištěné i  elektronické formě) v tradičních systémech (např. Aleph)

 

·     Zpracování deníků a časopisů a dalších seriálů (v tištěné i  elektronické formě) v rámci linky zpracování bibliografických záznamů z plných textů  automaticky či        poloautomaticky

 

·     Zpracování plných textů volně přístupných na www na základě automatického sběru dat - pouze vytypované spolehlivé seriálové zdroje - za spolupráce s Webarchivem?

 

Předpoklad: dodržování zásad výběru článků a titulů.

 

Cíl: automatické či poloautomatické zpracování bibliografických záznamů z plných

 textů -  výběr titulů ke zpracování, doplnění  a korekce dat

 

Návaznost na informační systém v ČR po linii horizontální i vertikální včetně oborových informačních bran.

 

2.4 Závěr

2.4.1 Základním předpokladem optimalizace zpřístupnění plných textů je dodržování standardů na všech úrovních informačního procesu.

2.4.2 Dalším předpokladem  je spolupráce všech subjektů účastnících se informačního procesu:  tvůrců (autorů) informací, nakladatelů/vydavatelů/agregátorů aj. subjektů publikujících na www, knihoven, informačních institucí a středisek. Informační služby mají strategickou úlohu nejen v konkurenčním prostředí firem (tzv. competitive intelligence)

2.4.3 Zajištění zpřístupnění plných textů kodifikací v zákoně, zajištění  finančních prostředků a lidských kapacit

2.4.4 Cílem informační činnosti je propojení systému kulturních, politických, právních, pedagogických,sociálních, ekonomických informací  a informací z oblasti státní správy po linii horizontální i vertikální a jejich dynamické zpřístupnění s využitím interaktivních vlastností systému. Informace mají význam jen tehdy, jsou-li prakticky využitelné ve všech složkách struktury společnosti. Jen tak lze propojit teoretický a aplikovaný výzkum s praxí.