WikiCite: Jak propojujeme data o české vědě
Knihovnické databáze versus různé databáze vědeckých prací: v podstatě dva oddělené světy, přitom plní velmi podobnou funkci a měly by spolu čile komunikovat. Malý krůček směrem k lepší integraci těchto databází jsme učinili v posledních měsících v rámci projektu ORCID for the Czech National Library, který byl podpořen z grantu WikiCite E-scholarship nadace Wikimedia a realizoval ho sehraný tým ve složení Jiří Sedláček, Ben Skála a Vojtěch Dostál.
Ne, že bychom vědecká bibliografická data ignorovali zcela. Wikidata jsou z velké části tvořena právě položkami výzkumníků a jejich odborných článků a celá řada z nich je české provenience. Velkým krokem kupředu bylo rozhodnutí Národní knihovny České republiky evidovat ve svých autoritních záznamech odkazy na databázi ORCID, což je pravděpodobně nejdůležitější databáze vědců a jejich publikačních výstupů. Tyto odkazy samozřejmě přebíráme a propojujeme tak postupně položky s odkazem na ORCID s položkami s odkazem do Národní knihovny. Jenže těchto spojení mezi ORCID a NK je poměrně málo a přibývají jen pomalu. A jelikož jak data z Báze národních autorit, tak ORCID jsou dostupná pod licencí CC-0, která umožňuje jejich využití ve Wikidatech (a kdekoliv jinde), rozhodnutí něco s tím udělat bylo nasnadě.
Průzkum terénu
Prvním důležitým krokem bylo poznat výchozí situaci. Dobrým měřítkem je třeba počet propojení mezi Bází národních autorit a ORCIDem. Ještě v roce 2019 bylo těchto propojení pouze asi 1000, po první vlně propojování na konci stejného roku asi 3000. V dubnu 2021 už jsme byli na čísle 8000, což ukazuje rychlost, jakou práce ve Wikidatech postupuje. Odhadem polovina těchto záznamů patří vědcům působícím v Česku.
Nicméně jen v Informačním systému Výzkumu, vývoje a inovací nalezneme více než 11000 záznamů autorů (tzv. tvůrců), z čehož je vidět, že práce ještě zdaleka není u konce. Právě tento vládní informační systém jsme se rozhodli vzít jako výchozí zdroj českých vědců. Důležité je, že IS VaVaI kromě vlastních identifikátorů (vedidk IDs) obsahuje i odkazy na nejpoužívanější vědecké databáze, jako je ORCID. Ze spojení dat z IS VaVaI a ORCID jsme tak získali poměrně značný datový balík, s nímž se dalo dále pracovat.
Propojování dvou databází – jak na to?
Máme-li dvě databáze, o nichž víme, že některé záznamy v jedné z nich patří osobám, které jsou zastoupené i v druhé z databází, pak stačí jen najít cestu, jak přiřadit odpovídající záznamy k sobě. To platí i pro ORCID (resp. IS VaVaI) na straně jedné a Wikidata (resp. Národní autority) na straně druhé. Situaci ovšem v tomto případě komplikuje fakt, že databáze si vzájemně „neuznávají“ své identifikátory a v záznamech jedné databáze nenajdeme identifikátory druhé z nich. Výjimkou jsou Národní autority, které uvádí v některých případech ID ORCID, jenže tyto odkazy jsme už před časem vytěžili a nyní přibývají nové jen pomalu.
Nezbývá tak nic jiného, než párovat na základě jmen osob. Výhoda je, že na straně ORCIDu díky českému informačnímu systému VaVaI můžeme omezit hledání jen na české vědce, resp. vědce působící v ČR. Tyto vědce jsme nejprve porovnali s existujícími záznamy ve Wikidatech. Pomocí tzv. rekonciliace v nástroji OpenRefine jsme získali „stejnojmenné“ kandidáty ke spárování téměř pro každého českého badatele. Vyřadili jsme rovnou ty, kteří měli více než 4 „hity“ – osoby jako „Jan Novák“ by se nám kontrolovaly jen velmi těžko. Také jsme vyřadili ty, kteří se dle Wikidat narodili nebo zemřeli před mnoha lety (to ještě ORCID nebyl a zemřelým se zpravidla nepřiděluje), a dále všechny návrhy badatelů, které už ve Wikidatech někde své unikátní ORCID číslo mají. Tím jsme dostali asi 3300 relevantních návrhů a manuální kontrolou všech těchto návrhů jsme z nich 1756 vyhodnotili jako odlišné osoby, zatímco 1576 záznamů sedělo. U těch z druhé skupiny jsme tedy následně provedli import ORCID identifikátorů do příslušných položek ve Wikidatech (příklad).
Poslední krok byl pokusit se spárovat české vědce, které ještě ve Wikidatech nemají žádný záznam. Na jednu stranu jsme dali osoby z Báze národních jmenných autorit a na stranu druhou opět české vědce s ORCIDem a záznamem v systému VaVaI. Opět jsme mohli seznam nabízených spárování okrájet o osoby, které už svůj záznam ve Wikidatech mají, a zbylo 9154 návrhů. Na ně opět nastoupila v podstatě ruční práce – automatizovat se dala jen malá frakce záznamů a většinou bylo nutné kontrolovat, zda popisek v Bázi národních jmenných autorit sedí s publikacemi, které jsou pro danou osoby vedeny v informačním systému VaVaI či v ORCIDu. Dosud se takto podařilo spárovat jen 1326 záznamů a všechny se dočkaly nové položky, která obsahuje základní dostupné údaje o osobě a identifikátory Národní knihovny a ORCIDu (příklad).
Kam dál
Ačkoliv na Wikidatech pracujeme velmi často s daty české Národní knihovny, tento projekt je první vlaštovka na poli práce s českými vědeckými bibliografickými daty. Navázaný kontakt se správci databáze VaVaI (kteří mimochodem projevili velkou vstřícnost a pochopení pro naše potřeby) bude zužitkován do budoucna i v rámci aktivit spolku Wikimedia Česká republika. V rámci WikiCite iniciativ by bylo logické postupně od autorů přistoupit také k položkám odborných časopisů (nejen českých), a posléze k položkám publikací. Jak periodika, tak konkrétní publikace mají vlastní záznamy v obou databázích, které jsme v tomto projektu používali – IS VaVaI a Souborný katalog NK.
Kdokoliv může přiložit ruku k dílu s párováním záznamů Národní knihovny se záznamy ORCID či VaVaI. K dispozici je exportovaný projekt OpenRefine s návrhy spárování, které k datu ukončení tohoto projektu dosud nebyly prověřeny.