Půl roku po otevření báze autorit: knihovnická data ožívají ve Wikidatech
Je to asi půl roku, co se nám ve spolupráci s Národní knihovnou podařilo vytvořit otevřený dataset ze značné části tzv. Báze autorit Národní knihovny (více též v závěrečné zprávě). Je publikovaný pod licencí CC-0, tedy pod totožnou licencí jako Wikidata. Asi třetinu záznamů jsme rovnou s Wikidaty propojili – pojednávaly prostě o těch samých entitách, jako již existující položky ve Wikidatech. Tím báze autorit získala vstupenku do světa propojených dat. A nám to otevřelo možnosti pro další „kouzlení“ s daty. Co všechno jsme v posledním půl roce s autoritními záznamy dělali?
Vyhledávání chyb v autoritní bázi
Jedním z důležitých prvků naší spolupráce s knihovníky je vyhledávání chyb a nekonzistencí v bázi autorit. Při zpracovávání dat na takové věci občas narazíme – ať už náhodně při ručním procházení záznamů, nebo při strojové analýze větších datových balíků.
Jedním z příkladů klasické chyby, s níž se potýkají všechny databáze, jsou duplicity. Také v bázi autorit jsou duplicity a wikidatisté si jich někdy povšimnou. Všechny nalezené duplicity pečlivě označíme a jsou k nalezení v tomto výpisu z Wikidat, aby je experti z Národní knihovny mohli verifikovat a sloučit. Pokud naleznete tuto chybu, stačí ve Wikidatech jeden z identifikátoru tzv. zavrhnout (nastavit rank pro zavrženou hodnotu) a přidat „důvod zavržení tvrzení“ – „duplicita“.
Vyhledávání chyb se dá ilustrovat i na datech narození a úmrtí. Při extrakci těchto údajů z popisků osob jsme si všimli, že občas se knihovník při vkládání informací musel upsat – data narození typu „31.4.1830“, „10. 20. 1971“ nebo „18.1.0.1951“ nedávaly smysl.
Podobných příkladů je celá řada a všechny bychom rádi Národní knihovně posílali, aby obě strany měly ze spolupráce co největší prospěch. Podnikáme také kroky, abychom naopak knihovníkům usnadnili nahlašování chyb, které objeví ve Wikidatech.
Geografické autority ve Wikidatech
Geografické autority nebyly v původní náplni projektu, který byl realizován ve spolupráci s Národní knihovnou v roce 2019, a tak zatím formálně nejsou uvolněny pod licencí CC-0. Jak však poznamenal Radek Světlík ze Studijní a vědecké knihovny Plzeňského kraje, pro knihovnická propojená data jsou geografické autority ještě důležitější než ty personální, které se věnují lidem. Proto jsme se podívali na zoubek i geografickým autoritám a pro začátek je alespoň propojili s patřičnými záznamy ve Wikidatech.
Geografické autority pokrývají široké spektrum různých témat – od států přes regiony, řeky, chráněná území až po města či vesnice. Naštěstí jsou v mnoha případech geolokalizovány – obsahují informace o své geografické poloze na mapě světa. Tato data nám laskavě z databáze vyexportovala Helena Dvořáková z Národní knihovny a účastnice nedávného Biblio workshopu. Díky nástroji OpenRefine, který podporuje propojování s položkami na Wikidatech podle jejich geografické blízkosti, jsme tak měli poměrně snadnou práci. Stačilo totiž hledat jen mezi objekty, které jsou blízko daného záznamu. Tam, kde souřadnice k dispozici nebyly, jsme se museli spolehnout na (pečlivě kontrolované) párování podle názvu a typu objektu.
Výsledkem je umístění téměř všech geografických autorit (s výjimkou tzv. „oblastí“ a několika dalších typů objektů) na mapu světa, kde si je můžeme procházet – buď kompletní dataset, jako je vidět na obrázku výše, nebo v různých podmnožinách. Třeba si můžeme zobrazit všechny ostrovy se záznamech v bázi národních autorit:
Obohacení Wikidat o nové záznamy osob
Nejčerstvějším úspěchem je extrakce asi 75000 jmenných záznamů z báze národních autorit, které dosud neměly záznam ve Wikidatech a zároveň obsahují informaci o datu narození dané osoby. Dohodli jsme se, že takové osoby jsou vhodné k importu do Wikidat, neboť jsou svým datem narození dostatečně specifikované. To byl však teprve začátek práce.
Jak vidno z obrázku výše, opět jsme využili nástroje OpenRefine. Z volně dostupného datasetu jsme si načetli jméno, příjmení, popisek osoby a ID v bázi národních autorit. Z těchto pouhých 4 údajů jsme však byli schopni zjistit o daných osobách mnohem více.
Na základě regulárního výrazu (tzv. regexu), který prohledával text, jsme například z popisků byli schopni získat data narození a úmrtí. Zjednodušeně řečeno, pokud se nějaké datum v popisku nachází za slovem „Narozen“, pak je to asi datum narození. Podobně jsme získali i pohlaví osoby („narozen“ vs. „narozena“). Opět je to patrné z obrázku nad odstavcem. Složitější to ale bylo s místem narození. Údaj je v textu uveden např. stylem „Narozena v Bílovci“. Naštěstí v databázi ČÚZK jsou česká sídla vyskloňována, takže pokud 2. pád „Bílovci“ odpovídá pouze jedinému českému sídlu (město Bílovec, Q1015409), je to celkem jednoduché. Některé záznamy však jsou složitější, např. specifikují okres, a na takové případy jsme nasadili našeho kolegu Bena Skálu. Ben prošel všechny nejčastěji se vyskytující textové řetězce a ručně je spároval s ID položky ve Wikidatech. Někde však bohužel neuspěl ani Ben: Pokud je u záznamu uvedeno „Narozena v Příbrami“, už nikdo z popisku nezjistí, zda se jedná o město Příbram, nebo o vesnici Příbram v okrese Děčín. V takových případech jsme museli na spárování s obcí rezignovat.
V těchto dnech probíhá import všech takto nalezených a anotovaných 75000 osob do Wikidat. Zároveň do záznamů osob vkládáme další související identifikátory databází, s nimiž spolupracujeme – například Bibliografie dějin českých zemí, AbART nebo Provenio. Je to významný krok vpřed v propojování knihovnických dat a jejich zkvalitňování pro koncové uživatele. Chcete si přečíst knihu od spisovatele, který se narodil ve vašem městě? Wikidata to totiž umí… Na závěr přidáváme tabulku se spisovateli narozenými v Chebu: