773 571 osob pod licencí CC-0: databázi jmenných autorit Národní knihovny jsme propojili s Wikidaty

Biografických databází je mnoho, ale která je největší? Wikidata mají k dnešnímu dni asi 70 milionů položek, z čehož je více než 5 milionů biografických (položky konkrétních osob) a aspirují tak na jednu z nejrozsáhlejších studnic lidského poznání v dějinách. V Česku jim, co se biografických záznamů týče, mohou konkurovat zejména knihovnické databáze. Jedna z největších, báze národních jmenných autorit Národní knihovny ČR, zahrnuje více než tři čtvrtě milionu záznamů různých významných osob. Díky unikátní spolupráci mezi Národní knihovnou a spolkem Wikimedia ČR jsou nyní tato data dostupná pod licencí CC-0 ve formě propojených („linked“) open dat. Co dalšího tato spolupráce přinesla?

Zaprvé: Provozovat dvě obrovské paralelní databáze a nenavázat mezi nimi spojení je marněním času i peněz všech zúčastněných. Když je spolu naučíme komunikovat, mohou z toho těžit obě – pro Wikidata se jedná o cenný pramen informací o osobách a jejich datech a místech narození, pro bázi národních autorit může přijít vhod například snadné automatické odkazování na různé autorské databáze, jako je ORCID nebo ISNI, či rozšířené informace týkající se příbuzenských a pracovních vztahů mezi osobami. Příklady vztahů mezi osobami, jež Wikidata evidují, jsou vidět v následující vizualizaci:

Během podzimu 2019 jsme tak přistoupili k systematickému propojování položek na Wikidatech se záznamy v databázi národních jmenných autorit tak, aby ze sebe obě databáze mohly vzájemně čerpat. Různými způsoby se podařilo celkem spárovat asi 25 000 záznamů. To je zvýšení asi o 10 % oproti původnímu počtu, tedy ne nijak závratně mnoho, ale bylo to pro nás velice důležité, protože jsme tím do budoucna zabránili vzniku mnoha databázových duplicit.

V prosinci jsme následně vzali takto napojená data z báze národních jmenných autorit a převedli je do podoby jednotlivých tvrzení, tedy krátkých strojově čitelných výpovědí o jednotlivých osobách. Jedním takovým tvrzením je třeba „datum narození“: „1835“, vztahující se k záznamu „Hálek, Vítězslav“. Je součástí položky Q53459 v nové wikibase, kterou zájemci najdou na adrese https://autority.wikimedia.cz. Tato wikibase je vlastně databází ve stylu Wikidat, která obsahuje kromě Vítězslava Hálka ještě dalších 773 570 položek o různých významných osobnostech z českého i zahraničního prostředí, a to vše pod licencí CC-0.

Tato otevřená licence je jedním z nejhmatatelnějších výstupů celého projektu. Umožní totiž využití celé datové sady na projektu Wikidata. Částečně se to už stalo na konci roku, kdy jsme importovali do Wikidat asi 140 000 dat narození a úmrtí. Zajímavostí je, že jsme tato data získávali poměrně propracovaným způsobem z vět typu „Narozen 5.4.1835 v Dolínku u Mělníka, zemřel 8.10.1874 v Praze“ – neobešli jsme se tedy bez vytěžování textu. Převedení textu do strojově čitelné podoby je zajímavé nejen pro Wikidata, ale i pro Národní knihovnu a všechny další uživatele jejích dat. Posouváme tak data Národní knihovny do 21. století a dramaticky zvyšujeme jejich kvalitu, využitelnost a užitečnost. Příkladem databázového dotazu za všechny je třeba vyhledání příkladů osob, které zemřely ve stejný den, jako se narodily.

Pro letošek je projekt u konce, ale možnosti spolupráce se teprve otevírají. Podobně, jako jsme analyzovali data narození a úmrtí, bychom mohli pracovat i s místy narození a úmrtí. Mohli bychom také pracovat s věcnými autoritami (např. geografické záznamy), které v bázi národních autorit také figurují. Čeká nás také rozhodnutí, zda záznamy, které Národní knihovna má, ale Wikidata ne, začít do Wikidat nějakým způsobem importovat. A konečně, když už tento import bude hotov, budeme řešit, jak ho do budoucna zautomatizovat, aby se nově přidávané záznamy v bázi národních autorit objevily co nejdříve i ve Wikidatech.

Projekt byl podpořen Ministerstvem kultury České republiky. Děkujeme Oddělení národních jmenných autorit NKČR za skvělou spolupráci v letošním roce.

3 Responses

  1. peří (Petr Říha) napsal:

    DD Vojto, jak se, prosím, vývoj posunul za další rok?

    Pokud se týká výše uvedeného databázového dotazu, tyto chyby vznikly patrně až při převodu dat z DB Národní autority do Wikidata. Soudím tak podle toho, že např. [https://aleph.nkp.cz/F/?func=find-c&local_base=aut&ccl_term=ica=skuk0002204 záznam NKP] je v pořádku, ale v [https://www.wikidata.org/wiki/Q45374442 záznamu wikidata] už je chyba.
    Takové chyby vznikají při převodech běžně, je to normální věc. Možná by byla užitečná informace jak takové chyby opravovat?

    Díky, držím palce,
    peří

    • Vojtěch D. napsal:

      Díky za otázku. Letos jsme strojově naimportovali 75000 záznamů do Wikidat (jsou to všechny záznamy, které měly alespoň datum narození s přesností na den). Dál jsme pracovali na dalším propojování – ve Wikidatech už je s Národními autoritami spojeno více než 400 000 položek. Také chystáme pravidelně aktualizovanou tabulku s nově vytvořenými autoritami, tak, aby mohli wikipedisté hned z ní zakládat nové položky.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Tato stránka používá Akismet k omezení spamu. Podívejte se, jak vaše data z komentářů zpracováváme..