Úvod k linked data [Jan Zemánek; Jindřich Mynarz]

Knihovna plus

2010, číslo 1

Úvod k linked data

Jindřich Mynarz (Národní technická knihovna) / Jan Zemánek (Knowledge Engineering Group)

Resumé:

Linked data představuje publikační model pro zveřejňování strukturovaných dat na webu. Je vymezen principy a doporučeními, která stanovují, jakým způsobem mají být data na web publikována.

Cílem linked data je volné zpřístupňování dat ve formě, která je jednoduše automatizovaně zpracovatelná. Postupy linked data mohou sloužit jako prostředky k integraci dat. Linked data jsou prostředkem k uskutečnění vize sémantického webu.

Tento publikační model je založen na webových standardech jako HTTP a URI, a technologiích sémantického webu jako je datový model RDF a ontologické jazyky (RDFS, OWL a SKOS).

Knihovny mohou tohoto modelu využít pro otevřené zpřístupňování svých dat na webu. Linked data poskytují kvalitní datovou platformu, nad níž mohou být vystavěny aplikace a uživatelská rozhraní pro přístup k informacím vytvářeným knihovnou. Jelikož se přítomnost knihoven stále více přesouvá na web, zpřítomnění jejich dat na webu lze provést právě pomocí linked data, čímž mohou být začleněna do širšího kontextu webu.

Klíčová slova: linked data – sémantický web – web.

Summary:

Linked data represents a publication model designated for publishing of structured data on the web. It is defined by principles, recommendations, and best pratices, that determine the way the data should be published.

The aim of linked data is to publish open data in form that can be easily processed in automated way. The linked data practices may serve as a tool for data integration. Linked data can be seen as a mean for achieving the semantic web vision.

Publication model linked data is established upon the web standards HTTP and URI and the semantic web technologies such as RDF data model and ontology languages (RDFS, OWL, and SKOS).

Libraries can make use of this model to publish their data on the web. Linked data provide a quality data platform on which the applications and user interfaces for access to library data can be built. Since the presence of libraries is increasingly shifting to the web, the library data can be incorporated in web context by using linked data publication model.

Keywords: linked data – semantic web – web.

Úvod

Není tomu tak dávno, co začal být výraz "linked data" se stále větší četností zasazován do kontextu prostředí knihoven. Svou cestu našel do názvů konferencí (např. Dublin Core 2009: Semantic Interoperability of Linked Data), nebo také příspěvků z periodik, která se tradičně zabývají problematikou knihovnictví (např. Library Journal nebo Computers in Libraries).

Linked data je označení pro (1) metodu publikování strukturovaných dat na webu a zároveň pro (2) instance dat, která jsou na webu publikována v souladu s touto metodou. Termín "linked data" nebývá překládán a používá se v původním anglickém znění.[i]

Pojem "linked data" uvedl v roce 2006 Tim Berners-Lee, autor World Wide Webu a později také myšlenky sémantického webu, jejíž jsou linked data součastí (BERNERS-LEE, 2006). Publikování volně přístupných linked data podporuje neformální komunitní projekt Linking Open Data zaštítěný World Wide Web Consortium (Linking Open Data, 2010).

Účelem publikování strukturovaných dat na webu v souladu s metodou linked data je umožnit (1) přímočarou integraci dat a (2) vytváření odkazů mezi daty napříč celým World Wide Webem.

Snadná integrovatelnost dat a možnost vytvářet odkazy mezi daty z různých datových souborů a zdrojů zvyšuje znovupoužitelnost a tím také hodnotu dat. Výsledkem publikování linked data na webu je vytvoření ekosystému strukturovaných dat, která jsou vzájemně provázána odkazy. Tento ekosystém se označuje jako web dat.

Na linked data, resp. web dat, lze v podstatě nahlížet jako na jednu obrovskou celosvětovou databázi. Podobně je možné chápat současný web jako jeden obrovský celosvětový souborový systém.

Souhrn praktik vedoucích k vytváření souborů dat, z nichž se web dat skládá, lze nazvat publikačním modelem linked data.

Publikační model

Publikační model linked data představuje soubor doporučených postupů pro publikování dat na webu. Je vymezen principy linked data a webovými standardy, které určují, jakým způsobem mají být data na webu zveřejňována.

Tento publikační model je prostředkem k uskutečňování vize sémantického webu. Představuje nativní, preferovanou a doporučenou formu publikování strukturovaných dat na webu. Jako "linked data" pak označujeme jakákoli data, která jsou publikována v souladu s tímto modelem.

Principy linked data

Hlavní požadavky tohoto modelu shrnují principy linked data, které roku 2006 formuloval Tim Berners-Lee (BERNERS-LEE, 2006). Jde o čtyři jednoduchá pravidla, kterým by linked data měla vyhovovat. Namísto vyžadování jejich striktního dodržování však jde spíše o doporučení pro očekávané chování.

1. Identifikujte věci pomocí URI.

URI jsou globálně unikátní identifikátory, které umožňují věc jednoznačně identifikovat v rámci jmenného prostoru celého webu. Tím je umožněno jednoduché odkazování na pojmenovanou věc.

URI by měla být perzistentní. To znamená, že by měla zůstávat ve stejné podobě a měla by být permanentně přístupná. Trvalost identifikátoru závisí na instituci, která jej udržuje.

Formát URI by měl být stanoven s rozmyslem tak, aby jeho tvar zůstal ve stejné podobě a tím zůstala zachována návaznost odkazů mezi daty. Z toho důvodu je lepší volit nevýznamové identifikátory (např. pořadové číslo), které nejsou náchylné ke změnám, pokud se změní věc, kterou identifikují. Zároveň je ale dobré držet se při přiřazování URI jednotného schématu, které bude lépe pochopitelné pro člověka.

Přestože URI identifikuje právě jednu věc, neznamená to, že jedna věc je identifikována právě jedním URI. To podporuje předpoklad neunikátních jmen, který připouští vytváření více URI pro jednu věc. S tím souvisí mapování těchto URI k jedné věci nebo jejich rozlišování probíhající na úrovni ontologie.

2. Používejte HTTP URI, aby se věci daly vyhledat.

S URI se pojí pojem dereferencování. Dereferencování představuje proces získávání reprezentace popisu entity pomocí její URI. V procesu dereferencování dochází k nahrazení věci, na níž ukazuje daná URI, odpovídající reprezentací. URI mohou být dereferencována pomocí standardizovaných protokolů jako je HTTP.

HTTP URI jsou na rozdíl od jiných typů identifikátorů jednoduše dereferencovatelné, protože v roli překladače (resolveru) je zavedený systém doménových jmen (DNS). Tímto způsobem jsou URI univerzálně přístupná.

3. Při HTTP požadavku na URI poskytněte datovou reprezentaci věci (s využitím standardů RDF a SPARQL).

Co je odpovídající reprezentací, je určeno prostřednictvím postupu vyjednávání formátu obsahu. Stejně jako v případě rozlišení různých typů URI, lze rozlišit různé typy HTTP požadavků na URI. Charakter požadavku může určit preferovaný formát obsahu v dané komunikaci.

Stanovením akceptovaných formátů v hlavičce HTTP požadavku na URI lze docílit toho, že žadatel může dostat odpověď v takové podobě, která je vyhovující pro jeho aktuální kontext. Tímto způsobem lze odlišit požadavky automatů, kteří si žádají strukturovaná data (např. RDF/XML), a lidských uživatelů, kterým je nabídnuta webová stránka (např. RDFa/HTML).

4. Umožněte objevování dalších věcí uváděním jejich URI.

Reprezentace věci by měla obsahovat odkazy na URI dalších věcí tak, aby byl soubor dat propojen s ostatními webovými daty. Kromě RDF odkazů vedených v rámci daného souboru dat, by měla být linked data obohacena o odkazy mířící na externí zdroje z dalších souborů dat. Tím je aplikacím umožněna navigace k dalším souborům dat, kde mohou objevit nové informace.

Charakteristika

Každá data vyhovující výše uvedeným principům a způsobům zpřístupňování můžeme označovat jako linked data.

Cílem linked data jsou chytrá data. Naproti tomu, cílem umělé inteligence jsou chytré aplikace. Ty se snaží napodobit schopnosti člověka jako je porozumění textu v přirozeném jazyce a jeho interpretace, a proto je jejich vytváření obtížné. Naopak, vytváření chytrých dat je poměrně jednoduché.

Chytrá data jsou jednoznačně interpretovatelná, protože význam v nich zachycený je explikován formalizovaným způsobem. Jsou to data strukturovaná a sebepopisující, u nichž je jednoznačně určen způsob dekódování a čtení. Tímto způsobem jsou chytrá data transparentní a efektivně zpracovatelná automatizovaným způsobem.

Linked data jsou striktně oddělena od prezentačních a formátovacích pravidel. Zároveň jsou to data sebepopisující, protože odkazují na pravidla pro jejich čtení a interpretaci. Díky tomu jsou to data strojově čitelná s explicitně definovaným významem. Protože používají identifikační mechanismus URI, lze odkazovat na v nich obsažené entity z jiných souborů dat.

Principy linked data jsou vhodným nástrojem k integraci dat. Pomocí ontologií lze různé datové soubory provazovat. Díky identifikaci pomocí URI lze vést odkazy mezi dílčími datovými soubory a tím dosáhnout jejich propojení a vzájemné kompatibility.

Linked data podporují interoperabilitu a znovupoužitelnost. Například vědecká data někdy mohou být natolik obtížná k použití, že je výhodnější je znovu vytvořit zopakováním postupů a experimentů, které vedly k jejich získání. Tomu se snaží zabránit standardizační procesy linked data, které mají posloužit k odstranění všech bariér omezujících využití dat, aby se tak dospělo k vyšší efektivitě.

Prvky

Linked data lze popsat tím, že popíšeme dvě hlavní složky, z nichž se skládají. Jsou to věci a odkazy vedené mezi nimi.

Věci a zdroje

Věc může být cokoli, co lze odlišit jako samostatnou entitu nebo kategorii. Rozdělení domény zpracovávané v linked data na věci je určeno použitou ontologií.

Jako zdroj pak označujeme každou věc, která má přiřazeno URI. Rozlišujeme mezi ne‑informačními a informačními zdroji:

1. ne-informační zdroj ("non-information resource")

Jsou to zdroje, které nemají podobu digitálních dat. Lze je však určitým druhem dat reprezentovat. Dereferencováním jejich URI získáme jejich reprezentaci, která je přijatelná pro daný kontext komunikace. Jedná se například o fyzické předměty, osoby nebo abstraktní myšlenky.

2. informační zdroj ("information resource")

Jde o zdroje, které lze přímo získat dereferencováním jejich URI. Může jít například o dokumenty nebo bibliografické záznamy.

Odkazy

Odkazy jsou vazby, které propojují zdroje. Na současném webu se běžně používá jediný typ hypertextového odkazu, u nějž není určen druh vztahu ke zdroji, na nějž je odkazováno. Ve specifikaci HTML se rozlišuje pouze několik primitivních typů odkazů. Prostřednictví atributu rel lze například určit, že popisovaný odkaz vede na stylopis nebo alternativní verzi.

Hypertextové odkazy umožňují propojovat hypertextové dokumenty a typicky nejsou nositeli žádného významu. Sémantika těchto odkazů je omezena na kontext hypertextového systému a v podstatě jen říká, že po kliknutí na odkaz by měl systém přejít na hypertextový dokument, který je uveden jako cíl odkazu.

Naproti tomu v datovém modelu RDF používaném pro linked data lze pomocí ontologických jazyků vyjádřit mnoho typů odkazů. Pojmenovaná vazba, kterou RDF predikát vytváří mezi dvěma zdroji, umožňuje specifikovat význam vztahu, v němž jsou zdroje použity.

Rozlišujeme dva druhy RDF odkazů: (1) odkazy v rámci jednoho datového zdroje a (2) odkazy napříč různými datovými zdroji. Odkazy obohacují propojované zdroje tak, že jejich hodnota je vyšší než suma hodnot dílčích zdrojů jednotlivě.

Technologický profil

Základními technologickými pilíři linked data jsou webové standardy URI (Uniform Resource Identifier) a HTTP (HyperText Transfer Protocol). URI umožňuje globálně unikátní identifikaci věcí na webu. HTTP poskytuje mechanismus pro přístup a manipulaci s těmito věcmi.

Webové standardy URI a HTTP jako základní stavební kameny linked data jsou doplněny technologiemi sémantického webu. Využíván je zejména datový model RDF (Resource Description Framework) a ontologické jazyky RDFS (RDF Schema), OWL (Web Ontology Language) a SKOS (Simple Knowledge Organization System).

RDF je nativním datovým modelem pro webová data, který prostřednictvím predikátových trojic subjekt-predikát-objekt umožňuje reprezentovat entity, vztahy mezi entitami a atributy těchto entit. Umožňuje distribuované uložení dat na webu, jejich přímočarou integraci a vytváření odkazů napříč těmito daty. V notaci Turtle se RDF predikát zapisuje jako "<subjekt> <predikát> <objekt>".

Data reprezentovaná v RDF tvoří orientovaný graf s pojmenovanými hranami. Webové zdroje představují uzly tohoto grafu a odkazy hrany mezi nimi. Současný web lze podobným způsobem chápat jako orientovaný graf, v němž hypertextové dokumenty představují uzly tohoto grafu a hypertextové odkazy hrany mezi nimi. Prohlížet si web pak znamená procházet tímto grafem.

RDF lze pro účely přenosu zapisovat (serializovat) mnoha způsoby. Serializace standardizuje metody čtení linked data. Mezi tyto způsoby zápisu se řadí zejména RDF/XML nebo například Turtle, jenž představuje jednodušeji čitelný zápis RDF či RDFa (RDF zapsané v atributech HTML).

Pro zachycení významu jsou v linked data používány ontologické jazyky. Standardizují způsob interpretace. Jde o jazyky poskytující soubor vyjadřovacích prostředků, který umožňuje definovat ontologii. Jedná se zejména o jazyky RDFS (RDF Schema) a OWL (Web Ontology Language). Za odlehčený ontologický jazyk lze považovat SKOS (Simple Knowledge Organisation System), který je přizpůsobený pro reprezentaci znalostních systémů jako jsou tezaury, řízené slovníky nebo systematické klasifikace (SVÁTEK, VACURA, 2007).

Produkty ontologických jazyků jsou ontologie. Představují sdílenou konceptualizaci zpracovávané domény. Mezi populární tzv. doménové ontologie patří například jednoduchá ontologie FOAF (Friend-of-a-Friend) pro popis lidí a vztahů mezi nimi (URI: <http://www.foaf-project.org/>) nebo GoodRelations, ontologie pro oblast e-komerce (URI: <http://www.heppnetz.de/projects/goodrelations/>).

Existuje již také množství ontologií pro domény, jimiž se zabývá knihovnictví. Mezi nimi lze zmínit například Dublin Core (URI: <http://dublincore.org/>) nebo Bibliographic Ontology (URI: <http://bibliontology.com/>) pro bibliografický popis.

Příklady

Ekosystém linked data v současné době tvoří přibližně 13 miliard RDF trojic, které jsou propojeny 142 miliony RDF odkazů (Linking Open Data, 2010). Objem linked data neustále narůstá. Jsou často vizualizována jako oblak datových souborů propojených odkazy.

Charakterizovat linked data lze dobře na příkladech prototypických souborů dat, které vhodně reprezentují tento způsob publikování. Vzhledem k tomu, že linked data nejsou vymezena zaměřením dat, lze uvést ilustrativní příklady z mnoha oblastí.

Patrně nejznámějším souborem linked data je DBPedia (URI: <http://dbpedia.org/>), která obsahuje faktografické údaje získané z Wikipedie. Představuje jakýsi střed, na nějž odkazuje mnoho dalších souborů dat.

Stejně tak jsou publikována některá data vědy a výzkumu, jako ontologie pro popis genů a jejich složek Gene Ontology (URI: <http://www.geneontology.org/>) nebo podobně zaměřená encyklopedie genetických informací Kyoto Encyclopedia of Genes and Genomes (URI: <http://www.genome.jp/kegg/>).

V poslední době lze sledovat rovněž výrazný trend ke zveřejňování informací státní správy ve formě linked data. Nejznámější v této kategorii je nejspíše americký server Data.gov (URI: <http://www.data.gov/>) a britská iniciativa Data.gov.uk (URI: <http://data.gov.uk/>).

Mezi příklady linked data v České republice patří Polytematický strukturovaný heslář (URI: <http://psh.ntkcz.cz/skos>) vytvářený v Národní technické knihovně nebo data Knowledge Engineering Group při Vysoké škole ekonomické (URI: <http://keg.vse.cz>).

Aplikace

Linked data jsou navržena s ohledem na interoperabilitu a standardizaci, a proto podporují separaci dat od aplikací. Linked data nejsou principiálně přizpůsobena žádné jednotlivé aplikaci, proto mají být publikována bez předpokladu konkrétního způsobu využití, avšak s vyhlídkou na "neočekávaná" využití, k nimž jejich otevřená a standardizovaná architektura vybízí.

Linked data jsou data jednoduše přístupná aplikacím. Podporují interoperabilitu, univerzálnost a kombinaci využívání více zdrojů dat. Aplikace kombinující více datových zdrojů, které nejsou k dispozici jako linked data, a ty se musí pro každý zdroj přizpůsobit. Tak vznikají mash-upy. V nich musí jejich vývojář explicitně stanovit, jaké jsou mezi zpracovávanými daty vztahy (například určit, že dva různé zdroje pojednávají o stejné entitě). Navíc pracují proti fixně stanovenému okruhu souborů dat, a tak všechny změny v datech vyžadují na aplikaci přizpůsobení.

Aplikace vystavěné nad linked data bývají nazývány mesh-upy. Tyto aplikace mohou pracovat nad neomezeným globálním datovým prostorem linked data. Vztahy mezi kombinovanými soubory dat jsou v tomto případě určeny aplikovanými ontologiemi. Rovnost obsažených entit je určena pomocí identifikátorů URI.

Mezi kategorie aplikací, které nalezly výhodný způsob využití dostupných linked data, patří například vyhledávače (např. Sindice.com) nebo systémy sdílených záložek (např. Faviki.com).

V začátcích linked data nebylo k dispozici příliš aplikací, na nichž by bylo možné demonstrovat silné stránky a výhody tohoto publikačního modelu. Tak došlo k uváznutí, kdy na sebe vzájemně čekali producenti dat a vývojáři aplikací. Vývojáři neměli k dispozici dostatek dat, na nichž by jejich aplikace mohly pracovat, a producenti dat nebyli motivováni svá data zveřejňovat, neboť nebylo k dispozici mnoho aplikací, které by je mohly využít.

Aplikace a linked data jsou ve vztahu vzájemné závislosti. Aplikace nemohou být vytvořeny, pokud nejsou k dispozici linked data, a linked data nejsou jejich poskytovatelé motivováni publikovat, nevidí-li žádnou aplikaci, která by jejich data mohla využít.

Tento problém se pokusil překlenout Tim Berners-Lee, který ve své přednášce na konferenci TED dal větou "Sem se surovými daty!" (v originále "Raw data now!") najevo, že iniciativa je na straně vlastníků dat (BERNERS-LEE, 2009). Ti mají svá data zpřístupnit třeba i v "surové" formě bez uživatelského rozhraní, kterou však mohou konzumovat aplikace. Důležité je, aby byla data veřejně přístupná pomocí rozhraní pro přístup aplikacemi, protože další přístupová rozhraní už na něm mohou být vystavěna. Iniciativa ke zveřejnění dat bez ohledu na existenci aplikací, které by na nich mohly stavět, je tedy také na straně knihoven jakožto vlastníků souborů dat.

Linked data v knihovnictví

Při chodu knihoven vzniká velké množství dat, která jsou zapotřebí pro práci s informacemi. Kvalita těchto dat, která knihovny spracují, se projevuje na jejich fungování. Přesvědčení, že linked data jsou dobrou platformou pro kvalitní data, se v poslední době projevuje zájmem z prostředí knihoven. A tak se o tomto tématu mluví na knihovnických konferencích (např. Dublin Core 2009) nebo píše v zavedených knihovnických periodikách (např. Library Journal).

Zapojení do prostředí linked data přináší knihovnám mnoho výhod. Zpřístupňování dat knihoven v otevřených formátech zakládá na možnostech vytváření cest zpátky do knihovny pomocí odkazů. Sdílení dat knihoven může rovněž vytvořit zájem o jejich práci.

Linked data představují přirozený publikační model pro data na webu. Díky tomu, že jsou linked data knihovny opatřena URI, lze na ně odkazovat a začleňovat je tak mezi ostatní webová data. Web představuje nejbližší kontext dat knihoven, a ta proto musí být navržena s ohledem na něj: podobně jako židle musí být navržena s ohledem na pokoj, v němž se nachází (SÖDERBÄCK, 2009). S ohledem na tento účel mohou linked data posloužit jako nástroj integrace v rámci kontextu webu.

Linked data mohou sloužit jako nástroj integrace heterogenních datových souborů v rámci knihovny nebo od různých externích poskytovatelů. V knihovnách není neobvyklé pracovat s mnoha typy souborů dat. Knihovny také dělají mnoho pro to, aby jimi zpřístupňované informační zdroje působily navenek pro uživatele jako sourodý celek. Všechna zpřístupňovaná data by měla být dostupná skrze jedno intuitivní rozhraní. Ať už jsou to data autoritní, bibliografická nebo administrativní, všechna mohou využít linked data jako nástroj pro integraci.

Soubory dat mohou být integrovány tím, že pro popis údajů používají stejné sdílené ontologie. K propojování entit zachycených v těchto datech slouží identifikační mechanismus URI. Tím je umožněno adresování entit na mnohem podrobnější úrovni (například odkazem na věcnou autoritu). Ontologie zároveň činí data použitelnějšími ve více kontextech tak, že je lze snáze zpracovat aplikacemi, protože odpovídají stanoveným standardům a jsou konzistentní.

Jakmile mají věci a zdroje, s nimiž se v knihovnách pracuje, přiřazeno URI, lze je používat a identifikovat jednoznačným způsobem. Soubory URI ve formě ontologií tvoří základ pro integraci a interoperabilitu. Ontologie lze přitom zjednodušeně chápat jako řízené slovníky linked data.

Odkazy s využitím URI mohou být nástrojem pro zhmotnění vazeb, které již v datech knihoven existují, ale nejsou dobře vyznačeny (například mezi bibliografickým záznamem a odkazovaným autoritním záhlavím). Uživatelé existenci těchto vazeb očekávají. Veškeré použité údaje by měly odkazovat na zdroj, z něhož pocházejí (např. na autoritní záznam nebo na knihovnu, která jej vytvořila).

Publikování ve formě linked data rovněž umožňuje vytvořit alternativní způsoby navigace informačním fondem, který knihovna zpřístupňuje. Taková uživatelská rozhraní mohou poskytnout přístup obohacený o kontextuální informace. Prostřednictvím sdíleného datového modelu RDF lze dosáhnout koherence bibliografických dat. Díky distribuované povaze tohoto modelu linked data představují vhodnou platformu pro knihovní aplikace a prostředí pro dlouhodobé uchování informací.

Do prostředí linked data může přirozeně zapadnout konceptuální model popsaný ve studii Functional Requirements for Bibliographic Records (FRBR). Obsahuje entity, které jsou popsány svými atributy a vzájemnými vztahy. V datovém formátu RDF mohou být entity zastoupeny zdroji a vztahy reprezentovány predikáty. S tím souvisejí probíhající práce na vytváření ontologie založené na FRBR (DAVIS, NEWMAN, 2009) anebo přizpůsobení modelu FRBR do objektově-orientované podoby pro jeho harmonizaci se standardy sémantického webu (BEKIARI, DOERR, LE BOEUFF, 2008).

Data knihoven

V podstatě každá data, která knihovny činí přístupná prostřednictvím webu, mohou nabýt na hodnotě tím, že budou zveřejněna ve tvaru linked data. Tento publikační model je optimálně přizpůsoben právě pro webová data. S tím, jak budou knihovny přesouvat svoji přítomnost dále na web (např. trend "Knihovna 2.0"), mohou získatvětší výhody uplatněním tohoto způsobu publikování.

Publikací ve tvaru linked data mohou získat jak data bibliografická, tak lokační, autoritní nebo administrativní. V případě dat bibliografických je zatím pravděpodobně nejlepším příkladem souborný katalog Libris Švédské královské knihovny (URI: <http://libris.kb.se/>). Postupně se začala objevovat další linked data, která vzešla z knihoven (Library of Congress Subject Headings, Polytematický strukturovaný heslář). Současně se postupně vymezovali potenciální kandidáti na nové standardy pro knihovny.

Rozšiřuje se již dlouho používaný metadatový formát pro bibliografický popis elektronických zdrojů Dublin Core. Výrazně se také prosazuje užívání ontologického jazyka Simple Knowledge Organisation System (SKOS) sloužícího k reprezentaci systémů organizace znalostí jako jsou tezaury, předmětové hesláře nebo systematické klasifikace. Ten dokonce nabyl postavení doporučení World Wide Web Consortium. Dále se pro popis knihovních dat uplatňují například doménové ontologie jako Friend-of-a-Friend (FOAF) nebo Bibliographic Ontology (BIBO).

Prostředí autoritních záznamů

Naprosto přirozeně působí možnost uplatnění linked data pro zveřejňování a správu autoritních záznamů. Účel i funkce autoritních záznamů směřující k zavedení předepsaných způsobů odkazování na entity reálného světa z bibliografických záznamů se velice blíží snahám linked data vytvořit pro každou věc reprezentaci komunikovatelnou prostřednictvím webu. Jak autoritní záznamy, tak linked data, slouží k integraci dat, zlepšování interoperability aplikací konzumujících tato data či také ke standardizaci způsobů odkazování prostřednictvím preferovaného záhlaví (resp. URI). Linked data se jeví jako ideální způsob pro publikaci autoritních databází a nabízí možnost jejich přirozeného pokračování v prostoru webu.

Součástí ekosystému linked data se tak stali zástupci databází věcných autorit jako Library of Congress Subject Headings (LCSH) nebo Polytematický strukturovaný heslář (PSH) Národní technické knihovny. V převodu zavedených systémů organizace znalostí do formy ontologií může spočívat přínos knihoven linked data, protože doménových ontologií je nedostatečné množství. Jmenné autority jsou předmětem kooperativního projektu The Virtual International Authority File (VIAF) koordinovaného OCLC, kterého se mimo jiné účastní také Národní knihovna České republiky. Geografické autoritní údaje, které vytvářejí další obvykle odlišovaný typ autoritních dat, nemají prozatím ve tvaru linked data příklad z oblasti knihoven (ačkoli je připravováno zveřejnění např. MARC Geographic Area Codes v Library of Congress). Lze však uvést rozsáhlou geografickou databázi GeoNames, která již patří k těm nejpoužívanějším.

Praktické uplatnění

Praktické použití linked data v knihovnách je jednoduché a v mnoha případech přirozené, jelikož jejich data již mají příbuznou strukturu. Lze je uplatnit takřka ve všech druzích dat, která se vyskytují v knihovnách. Například v bibliografickém záznamu pro Komenského Labyrint světa a ráj srdce (URI: <http://ckis.cuni.cz/F?func=direct&doc_number=000090485>) mohou být autorské údaje zachyceny pomocí Dublin Core entity dc:creator URI identifikátorem autora, jak je uveden ve VIAF (v notaci Turtle):

<http://ckis.cuni.cz/F?func=direct&doc_number=000090485>
dc:creator <http://viaf.org/viaf/29835535> .

Ostatních údajů (jako datum narození a úmrtí) není třeba, protože k jednoznačné identifikaci této jmenné autority slouží URI. Podobně bychom mohli identifikovat Komenského pomocí URI ze souboru autorit Švédské národní knihovny (<http://libris.kb.se/auth/46716>). V rámci linked data lze pak tyto duplicitní identifikátory propojit vztahem ekvivalence, což lze realizovat například prostřednictvím webové aplikace sameAs (URI: <http://sameas.org/>). Podobným způsobem může být záznam navázán na autoritní záhlaví pro editora této knihy Antonína Škarku (URI: <http://viaf.org/viaf/29570760>).

Z údajů věcného popisu se v tomto záznamu nachází heslo Konspektu pro "Křesťanství. Křesťanská církev všeobecně. Eklesiologie." Vzhledem k tomu, že Konspekt není k dispozici ve formě linked data, by tento údaj šel přibližně stejně nahradit pomocí odkazu na heslo PSH pro "křesťanství":

<http://ckis.cuni.cz/F?func=direct&doc_number=000090485>
dc:subject <http://psh.ntkcz.cz/skos/PSH7793> .

Nebo použít heslo pro "křesťanství"z Library of Congress Subject Headings (URI: <http://id.loc.gov/authorities/sh85025219>). Případně by šlo použít heslo "křesťanství" Teologického tezauru (URI: <http://ckis.cuni.cz/F?func=direct&local_base=ETF11&doc_number=000002243>), který však není publikován jako linked data.

Pokud by v záznamu tohoto dokumentu byly použity geografické deskriptory, například pro polské Lešno, kde Komenský přepisoval několik kapitol knihy Labyrint světa a ráj srdce, mohlo by se tak provést s odkazem na věcnou autoritu Geonames (URI: <http://www.geonames.org/3093524>). Dále lze jednoduše navázat na bibliografický záznam stejného díla ve švédském souborném katalogu Libris (URI: <http://libris.kb.se/bib/19420>).

Tímto způsobem lze informace obsažené v bibliografickém záznamu začlenit do prostředí linked data. Lze tak dosáhnout propojení do sítě vzájemně se odkazujících dat, a tím data obohatit a zasadit mezi ostatní webová data.

Závěr

Od původního důrazu na surová data se prostředí linked data přesouvá k upřednostňování kvalitních, přístupných a použitelných dat. Větší roli začíná hrát otázka původu dat a jejich důvěryhodnosti.

Knihovnám je obvykle přisuzována role autorit v oblasti práce s informacemi. Proto je dost možné, že se tato dříve získaná reputace přenese také na data knihovnami vytvářená, pokud se v novém prostředí linked data dokáží zorientovat a přeložit do něj zkušenosti z předchozích prostředí správy informačních fondů. S linked data z knihoven by tak mohla být asociována tato značka důvěryhodnosti a kvality.

Pro mnoho knihoven nejen v České republice je však nejprve třeba otevřít a zpřístupnit svá data jako linked data, a to i v surové formě bez prezentačního rozhraní. Tento první krok jim otevře široké spektrum nových možností. Jestliže se má přítomnost knihoven přesunout na web, linked data představují nejlepší cestu, jak na webu zpřítomnit jejich data.

Poznámky:

[i] V česky mluvícím prostředí se řídce užívá ekvivalentu "zapojená (či propojená) data".

Použité zdroje:

BEKIARI, Chryssoula; DOERR, Martin; LE BOEUFF, Patrick (ed.). FRBR : object-oriented definition and mapping to FRBRer [online]. Version 0.9 draft. International Working Group on FRBR and CIDOC CRM Harmonisation, January 2007 [cit. 2010-01-10]. Dostupné z WWW: <http://cidoc.ics.forth.gr/docs/frbr_oo/frbr_docs/FRBR_oo_V0.9.pdf>.

BERNERS-LEE, Tim. Linked data : design issues [online]. Published 2006-07-27. Last change 2009-06-18 [cit. 2009-06-10]. Dostupný z WWW: <http://www.w3.org/DesignIssues/LinkedData.html>.

BERNERS-LEE, Tim. Tim Berners-Lee on the next web [online]. Filmed 2009-02-06 [cit. 2010-01-19]. TED Talks. Dostupný z WWW: <http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html>.

BIZER, Chris; CYGANIAK, Richard; HEATH, Tom. How to publish linked data on the web [online]. Last change 2008-07-17 [cit. 2010-01-19]. Dostupný z WWW: <http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/>.

BIZER, Christian; HEATH, Tom; BERNERS-LEE, Tim. Linked data : the story so far. International Journal on Semantic Web and Information Systems. 2009, vol. 5, no. 3, s. 1-22. ISSN 1552-6283.

BRADLEY, Fiona. Discovering linked data. Library Journal. April 15, 2009, s. 48-50. ISSN 0363-0277.

COYLE, Karen. Making connections. Library Journal. April 15, 2009, s. 44-47. ISSN 0363-0277.

DAVIS, Ian; NEWMAN, Richard. Expression of core FRBR concepts in RDF [online]. c2005, last change 2009-05-16 [cit. 2010-01-10]. Dostupný z WWW: <http://vocab.org/frbr/core.html>.

Finding a common standard for the representation of bibliographic information [online]. Last updated 2009-12-04 [cit. 2010-01-11]. Dostupný z WWW: <http://esw.w3.org/topic/HCLS/HCLSIG_BibliographicInformation>.

HOGAN, Aidan; CYGANIAK, Richard. Frequently observed problems on the web of data [online]. Version 0.3, 2009-11-13 [cit. 2009-11-13]. Dostupný z WWW: <http://pedantic-web.org/fops.html>.

HOCHSTENBACH, Patrick. Linked-data in the academic bibliography [online]. October 7, 2009 [cit. 2010-01-10]. Dostupný z WWW: <http://lib.ugent.be/tektok/2009/10/test.html>.

CHUDNOV, Dan. Connecting linked data, OPACs, and online exhibits. Computers in Libraries. May 2009, vol. 29, no. 5, s. 25-27. ISSN 1041-7915.

CHUDNOV, Dan. In which 'linked data' means 'a better web'. Computers in Libraries. September 2009, vol. 29, no. 8, s. 31-33. ISSN 1041-7915.

CHUDNOV, Dan. The geography of linked data and ready reference. Computers in Libraries. April 2009, vol. 29, no. 4, s. 26-28. ISSN 1041-7915.

Linking Open Data : W3C SWEO community project [online]. Last change 2010-01-12 [cit. 2010-01-19]. Dostupný z WWW: <http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData>.

MILLER, Paul. Does linked data need RDF? [online]. Published July 19, 2009 [cit. 2009-10-28]. Dostupný z WWW: <http://cloudofdata.com/2009/07/does-linked-data-need-rdf/>.

RODRIGUEZ, Marko A. A reflection on the structure and process of the web of data. Bulletin of the American Society for Information Science and Technology. August/September 2009, vol. 35, no. 6, s. 38-43. ISSN 1931-6550.

SÖDERBÄCK, Anders. Why libraries should embrace linked data? [online]. February 24, 2009 [cit. 2010-01-10]. Dostupný z WWW: <http://code4lib.org/conference/2009/soderback>.

SVÁTEK, Vojtěch; VACURA, Miroslav. Ontologické inženýrství. In POPELÍNSKÝ, Lubomír; VÝBORNÝ, Ondřej (ed.). DATAKON 2007 : sborník databázové konference. Brno : Masarykova univerzita, c2007, s. 1-32. Dostupný také z WWW: <http://nb.vse.cz/~svatek/dkon07final.pdf>. ISBN 978-80-7355-076-9.

CITACE:
Mynarz, Jidřich; Zemánek, Jan. Úvod k linked data. Knihovna plus [online]. 2010, č. 1 . Dostupný z WWW: <http://knihovna.nkp.cz/knihovnaplus101/myna.htm>. ISSN 1801-5948.