Nieuwe Instituut
Nieuwe Instituut

Huis Sonneveld

Architectuur Dichterbij. 18 verhalen over erfgoed en innovatie

Home

Verbetering datakwaliteit

Ontsluiting van digitaal beschikbare informatie staat of valt met vindbaarheid en dus met de kwaliteit van (meta)data. Betere registratie maakt het makkelijker om verbanden te leggen binnen de collectie maar ook om verschillende collecties aan elkaar te verbinden, een van de doelstellingen van het nieuwe collectieplatform dat binnen Architectuur Dichterbij ontwikkeld wordt. Daarom is ook het verbeteren van de datakwaliteit een belangrijk onderdeel van het programma.

Tekst Nora Abdelmageed en Inge van Stokkom

Een collectie moet worden geregistreerd om te kunnen beheren en gebruiken. De systemen waarin dit gebeurt zijn door de tijd heen veranderd, van papier naar digitaal en van besloten naar openbaar en verbonden. Het soort data en de manier van registreren verandert eveneens, door nieuwe inzichten en meer (technische) mogelijkheden. De trend is om steeds meer gegevens te registreren, zoals informatie over auteursrechthebbenden en gedetailleerde beschrijvingen van de fysieke conditie van objecten. Daarnaast wordt geëxperimenteerd met manieren om ook kennis over de collectie van buiten de organisatie vast te leggen.

Deze veranderende inzichten, wensen en mogelijkheden gecombineerd met verschillende registratiemethoden, invoer vanuit oude systemen en simpelweg typfouten, maken dat er sprake kan zijn van vervuilde, inconsistente, ontbrekende, of onpraktisch geregistreerde data. Dit maakt dat archieven/objecten minder goed vindbaar zijn, en dat zoekresultaten onvolledig of onbetrouwbaar zijn.

De bruikbaarheid van de gevonden collectie-informatie is afhankelijk van de juistheid, volledigheid, helderheid en ondubbelzinnigheid van de vastgelegde informatie. Betere registratie maakt het makkelijker om verbanden te leggen binnen de collectie maar ook om verschillende collecties aan elkaar te verbinden, wat een van de doelstellingen is van het nieuwe collectieplatform dat binnen Architectuur Dichterbij ontwikkeld wordt.

Onze aanpak

Het verbeteren van de datakwaliteit pakken we op twee manieren aan. Enerzijds hebben we de handmatige inspectie en correctie. Het doel van deze methode is om de huidige gegevenskwaliteit, vooral in Axiell Collections te verbeteren en toekomstige richtlijnen te formuleren die specialisten helpen om gegevensvelden in te vullen. Dit heeft direct betrekking op het interne gebruik van de gegevens binnen het Nieuwe Instituut. Tegelijkertijd streven we ernaar om problemen met de datakwaliteit en met de gegevenskwaliteit in onze LOD op te sporen. We richten ons alleen op de openbaar gemaakte gegevens, wat een aanvulling is op de eerste taak. We hebben een systematische aanpak voorgesteld en gevolgd om problemen met gegevenskwaliteit in onze LOD te ontdekken en hier (semi)-geautomatiseerde oplossingen voor te bieden. In dit artikel leggen we de twee strategieën uit om de gegevenskwaliteit te verbeteren.

Interne data verbeteren

Data aanpassen vergt veel afstemming met de betrokken medewerkers (collectiebeheerders, invoerders, domeinexperts) om tot een duidelijk en consistent plan te komen. Welke informatie willen we vastleggen en hoe? Welke richtlijnen houden we aan zodat informatie altijd op dezelfde manier wordt vastgelegd? Wat wordt als storend ervaren bij dagelijks gebruik?

Hier komen verschillende soorten wensen uit voort, zoals data naar een ander veld verplaatsen, opties in keuzelijstjes verminderen, velden verwijderen. Dit gaat om zowel de collectiedatabase zelf, als om de “hulplijsten”- de authority data sources - zoals de Thesaurus en Personen&Instellingen. Waar de collectiedatabase de kern vormt van collectiebeheer en dus veel aandacht krijgt, raken deze lijsten vaak onzichtbaar vervuild.

De authority data sources bevatten meer informatie over de termen (bijv. persoonsgegevens) zijn gecontroleerd en handmatig samengesteld. Het zijn bronnen van informatie om te gebruiken in de beschrijvingen van collecties en vergroten de consistentie van toegepaste data en daarmee vindbaarheid. In de collectiedatabase ontstaan problemen meestal door informatie die in verkeerde velden terechtkomt, bijv. door verschil in inzicht, fouten, of gewijzigde standaarden. Bij de authority data sources zijn er legio mogelijke problemen:

  • Ruis door legacy data: data uit een oud systeem die ooit is overgezet naar het registratiesysteem, uit een tijd met andere handleidingen en andere mogelijkheden.
  • Termen/namen die nergens in gebruik zijn.
  • Data errors: fouten volgens de software.
  • Ontbrekende informatie waardoor niet eenduidig is vast te stellen welke term er precies bedoeld wordt. Bijvoorbeeld personen met een algemene achternaam en maar één voorletter, zonder geboorte/sterfdata.
  • Termen die maar één of een aantal keer gebruikt zijn. Zoeken met thesauri is pas nuttig als termen vaker gebruikt worden. Vaak staan dit soort termen er op meerdere schrijfwijzen in. Deze moeten dus worden samengevoegd.
  • Ontwikkelingen zoals het beschikbaar komen van een geografische thesaurus. De geografische gegevens die eerst in de gewone thesaurus geregistreerd werden, moeten dan verplaatst dan wel verwijderd worden.  

Uit deze inventarisatie komen veel kleine deelprojectjes voort die deels wel met tools zoals zoek/vervang of OpenRefine kunnen worden aangepakt, maar waar ook veel handwerk in zit. Sommige slagen zijn snel en simpel te maken, zoals thesaurusrecords verwijderen die aan geen enkel ander record gekoppeld zijn. Andere vragen meer werk, zoals wanneer er in de collectiedatabase informatie van meerdere velden naar andere velden moet worden overgezet om vervolgens een thesaurusterm te kunnen verwijderen. Logischerwijs is het veel handwerk om alle niet-gestandaardiseerde data aan te passen om tot een gestandaardiseerde situatie te komen.

Verrijken – Linked Open Data

Externe bronnen hebben soms meer informatie over de termen in onze collectiedatabase. Door te koppelen aan deze bronnen, kunnen we informatie binnenhalen in ons interne collectieregistratiesysteem. Zo kunnen bijvoorbeeld geboorteplaatsen, sterfdata en familierelaties toegevoegd worden aan persoonsrecords vanuit RKDartists. Aan trefwoorden kunnen de scope notes van de Art and Architecture Thesaurus toegevoegd worden. Andere potentiële externe bronnen om aan te koppelen zijn de TGN of Geonames voor plaatsen en Wikidata. Door de extra informatie worden minder fouten gemaakt bij de invoer, omdat de term eenduidiger is. Informatie uit een externe bron die niet in ons interne systeem zit, kan via een koppeling wel direct getoond worden op het collectieplatform.

Verrijking via OpenRefine

Koppelen aan externe bronnen is de laatste jaren veel eenvoudiger geworden door de verbeterde functionaliteit van OpenRefine en het Termennetwerk (RCE). We laden de dataset in OpenRefine en via de “reconcile” functie kunnen alle bronnen van het Termennetwerk benaderd worden en automatisch gematched. Onze ervaring is wel dat lang niet alle matches kloppen. Wij reconcilen daarom kansrijke subsets, bijvoorbeeld de set personen van wie er al een geboortedatum aanwezig is. Er is iets van informatie nodig over de persoon om te kunnen zeggen of de match juist is, alleen de naam is niet genoeg – behalve bij heel bijzondere namen. Elke match wordt gecontroleerd, voordat de URI en eventuele extra informatie in ons collectieregistratiesysteem geïmporteerd worden. Mochten we op een set stuiten waarbij na een uitgebreide steekproef blijkt dat de automatisch toegekende matches (vrijwel) allemaal juist zijn, dan is een import zonder totale check zeker een optie. Tot nu toe is dit nog niet het geval geweest.

Verrijking via AI-closed-beta

AI-closed-beta is een initiatief van de Axiell Group (onze leverancier van het collectiebeheersysteem) samen met vijf musea en instituten om erfgoeddata te verrijken. Nieuwe Instituut is de enige Nederlandse instelling die deelnam aan de closed-beta. De AI-closed-beta liep van oktober 2023 tot juli 2024 en omvat vier iteraties. Het doel van de AI-closed-beta is om automatisch Named Entities uit collecties te extraheren en deze te koppelen aan entiteiten uit Wikidata. De verrijking ging via de authority data sources en in het kader van het verrijken van de Archieven-database werden entiteiten uit het veld "titel" van archiefrecords gehaald en gekoppeld aan Wikidata. Axiell Group heeft de koppelingstaak uitgevoerd met behulp van verschillende AI-technieken, waaronder Named Entities-detectie en automatische koppeling.

Om de resultaten van de ontwikkelde tool te valideren, heeft Axiell Group een validatieset voorbereid die handmatig door het team van het Nieuwe Instituut (domeinexperts) werd geverifieerd. Alleen records die handmatig als 'correct gekoppeld' zijn geverifieerd, mogen worden teruggeschreven naar ons collectiebeheersysteem. Deze strategie garandeert dat er geen ruis in de bestaande records wordt geïntroduceerd. Daarnaast worden de teruggeschreven records geïdentificeerd als "AI-generated" in het notitievak. Dit maakt het mogelijk om alle AI-gegenereerde velden indien nodig te wissen en maakt ook het onderscheid tussen handmatig ingevoerde velden en automatisch gegenereerde velden duidelijk.

Data Cleaning Initiative (DCI)

Aangezien het verbeteren van de datakwaliteit verschillende taken met verschillende reikwijdten omvat, zijn we eind 2023 gestart met het Data Cleaning Initiative (DCI)-project. Dit project is opgezet om alle taken met betrekking tot datakwaliteit te standaardiseren en te beheren via een uniform kader met duidelijke activiteiten, reikwijdte en aanpak.

DCI is een systematische aanpak die erop gericht is om problemen met de gegevenskwaliteit te ontdekken en op grote schaal op te lossen (alles in één keer) door gebruik te maken van patronen in het voorkomen van een specifiek probleem. Deze aanpak repareert niet alleen gegevensonderbrekingen, maar maakt ook gebruik van semantische webtechnologieën om huidige gegevenscatalogi te verbeteren en verrijken. DCI onderzoekt gegevens en biedt oplossingen aan beide kanten: Axiell Collections en LOD.

DCI omvat momenteel vier soorten taken, variërend van gegevensopschoning tot entiteitskoppeling, maar kan in de toekomst worden uitgebreid om andere taken te dekken. DCI omvat de interactie van verschillende teamspelers met verschillende achtergronden (domeinexperts en technische achtergrond). We hebben een limiet gesteld van 12 sprints die in 2024 moeten worden uitgevoerd, maar het concept heeft geen tijdslimiet. Deze limiet is ingesteld om metingen zoals productiviteit en tracking te faciliteren.

DCI heeft twee concrete doelstellingen

  • Een voorstel om de catalogi die meer algemeen gerelateerde gegevens bevatten, op te splitsen in kleinere, nauw gerelateerde gegevens. Dit maakt de semantische groepering van de oorspronkelijke catalogi in het collectiebeheersysteem mogelijk. Een semantische groep is een set records die dezelfde betekenis delen, zoals personen, boeken en artikelen.
  • Opschoning- en verrijkingsstrategieën die we toepassen op de resulterende semantische categorieën om de gegevenskwaliteit van de erfgoedcollecties te verbeteren.

We stellen vier groepen gegevensopschoning- en verrijkingstaken voor in de context van DCI. We definiëren deze hoofdcategorieën als:

  • Gegevensopschoning: Deze categorie omvat alle taken met betrekking tot primitieve gegevensopschoning. Bijvoorbeeld het omgaan met inconsistenties zoals het gebruik van verschillende formaten of het aanpakken van ontbrekende waarden. Dit laatste kan van invloed zijn op de richtlijnen voor het invullen van deze metadata door domeinexperts, bijvoorbeeld door het ontdekken van een potentieel verplicht veld.
  • Entiteitsresolutie: Deze categorie richt zich op het ontdekken en groeperen van vergelijkbare entiteiten. Aangezien alle gegevens handmatig door domeinexperts worden ingevoerd, kunnen zij verschillende representaties gebruiken om dezelfde entiteit te beschrijven, bijvoorbeeld "Doesburg, Theo van" en "Doesburg, Th. Van".
  • Entiteitskoppeling: Deze groep koppelt interne records van onze erfgoedcollecties aan externe bronnen of kennisgrafieken (KG's), zoals Wikidata. Bijvoorbeeld "Doesburg, Theo van" zou worden gekoppeld aan "wd:Q160422".
  • Entiteitsverrijking: Deze categorie heeft tot doel externe eigenschappen en stukjes informatie op te halen die in externe bronnen bestaan maar niet in het lokale collectiebeheersysteem. Bijvoorbeeld het opslaan van de afbeelding van Van Doesburg uit Wikidata in onze Axiell Collections.

Resultaat en conclusies

DCI heeft ons geholpen om voor het einde van Q2 van 2024 18 gegevensproblemen te ontdekken die tot een van de vooraf gedefinieerde DCI-categorieën behoren, ofwel tot gegevensopschoning of verrijking. Ongeveer 3 problemen zijn uitgesteld na overleg met domeinexperts, 4 problemen zijn al opgelost en de rest is nog in behandeling. Daarnaast benutten we DCI om de mogelijkheid van automatische koppeling aan externe bronnen te verkennen, zoals het Nationaal Archief, het Stadsarchief Amsterdam en het Rijksmuseum.

Daarnaast hebben we, als een neveneffect van het DCI, een posterpaper ingediend voor de SEMANTiCS-conferentie om de aanpak van het DCI bij het Nieuwe Instituut te presenteren. We geloven dat dit de hele erfgoedgemeenschap ten goede komt, omdat het gegeneraliseerde uniforme kader door elk instituut kan worden overgenomen en het onderwerp van dataschoonmaak nog niet vaak wordt besproken, maar wel in opkomst is en de huidige interesse van de gemeenschap aantrekt. Onze inzending is geaccepteerd en we presenteren onze paper in september 2024.

Nieuwsbrief

Ontvang als eerste uitnodigingen voor onze events en blijf op de hoogte van komende tentoonstellingen.