Tým z Matematicko-fyzikální fakulty vyvinul nástroj, který automaticky převádí data z veřejných databází do Wikidat

Jedním z milých hostů na Wikikonferenci 2018 v Olomouci byl Jakub Klímek, odborný asistent z Matematicko-fyzikální fakulty Univerzity Karlovy, který se se svým týmem zabývá otevřenými a propojenými daty. Představil tenkrát nástroj Linkedpipes ETL, který umí načítat různá data z rozličných zdrojů, převádět je mezi různými formáty a načítat je do cílových databází (záznam přednášky zde). Od toho byl už jen krok od myšlenky, aby se podobně zpracovávala data z veřejných databází a automaticky importovala do Wikidat.

Wikidata totiž trpí jedním systémovým neduhem. Jednotliví uživatelé do nich sice běžně nahrávají data z veřejných databází, například různé statistické číselníky, jenže tato zdrojová data se průběžně mění – je publikován aktuální počet obyvatel, přibude nová obec a podobně. Po čase tedy musí přijít někdo další, znovu si stáhnout aktuální verzi dané veřejné databáze, vyhledat rozdíly, které se v databázi od posledního importu udály, a patřičně jimi opravit Wikidata. Situace se opakuje pokaždé, kdy pořizovatel dané databáze učiní ve svých datech jakoukoliv novou změnu.

Modul „Wikibase Loader“ pro LinkedPipes ETL tento problém řeší. Umožňuje naprogramovat kompletní sadu kroků, které je potřeba udělat mezi načtením dat z téměř jakékoliv výchozí databáze a finálním importem do Wikidat. Jednou za čas se spustí robot, který podle těchto instrukcí zkontroluje, zda nastaly nějaké změny ve výchozí databázi, a pokud ano, patřičně aktualizuje Wikidata. Série instrukcí může být klidně i poměrně složitá, jak je vidět z obrázku – robotům je to jedno.

Schéma: Série kroků, které umožňují načíst data z vybrané externí databáze a importovat je do Wikidat (autor: Jakub Klímek, CC-BY-SA 4.0)

Od té doby byl tento nástroj odzkoušen hned na několika datových sadách – na památných stromech, ulicích, českých divadlech a pár dalších. Nástroj po jeho uživatelích vyžaduje základní znalosti RDF, jazyka SPARQL a formátu Wikidata dumpů. Není tak pro všechny, ale na druhou stranu dává pokročilým uživatelům do ruky velmi silný nástroj, který usnadní udržování aktuálních Wikidat. Doufáme, že si najde své fanoušky v celé mezinárodní komunitě.

Na nástroji jsou unikátní také okolnosti vzniku. Vývoj komponenty realizoval akademický tým z Univerzity Karlovy ve spolupráci se spolkem Wikimedia Česká republika poté, co na projekt získal prostředky z grantu Wikimedia Foundation. V tomto grantovém systému musel projít posouzením projektu samotnou komunitou Wikimedia. Přitom v drtivé většině případů iniciativu při vývoji našeho software přebírá nadace Wikimedia, různé pobočky anebo technicky zdatní wikipedisté-jednotlivci. Spolupráce s Jakubem Klímkem a jeho týmem ukazuje, že budoucnost světa Wikimedia budou vytvářet i další stakeholdeři, jako je akademický svět, státní instituce nebo třeba korporátní sektor.

Vývoj nástroje podpořila finančně nadace Wikimedia tzv. projektovým grantem, na přípravě projektu se podílel také spolek Otevřená města, o. s. Můžete si přečíst závěrečnou grantovou zprávu.

Mohlo by se vám líbit…

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Tato stránka používá Akismet k omezení spamu. Podívejte se, jak vaše data z komentářů zpracováváme..