Het archief van de toekomst
Het verleden gezien door kunstmatige ogen
25 september 2020
Hoe kijkt een Kunstmatige Intelligentie naar een digitaal archief? Ziet ze verbanden die wij niet zien? Welke patronen legt ze bloot? Kan een Kunstmatige Intelligentie een gids zijn, een curator? Weet ze beter wat we zoeken dan wij zelf? Is het een gereedschap of een orakel? Samen met het Nieuwe Instituut en VPRO Tegenlicht deed ontwerper en kunstenaar Richard Vijgen de afgelopen maanden onderzoek naar deze vragen. Aan de hand van een deel van de Rijkscollectie voor Nederlandse Architectuur en Stedenbouw van Het Nieuwe Instituut en het archief van 20 jaar Tegenlicht televisie-uitzendingen deed Vijgen een ontwerpend onderzoek naar de mogelijke rol van Kunstmatige Intelligentie bij het ontsluiten en presenteren van digitale erfgoed collecties.
Hoewel Kunstmatige Intelligentie (K.I.) inmiddels gemeengoed is en op vele gebieden wordt toegepast en onderzocht blijft het vaak ongrijpbaar. In de meeste gevallen is K.I. een black box waar je iets in kunt stoppen en waar vervolgens (meestal) iets bruikbaars uit komt. Een playlist op Spotify, de stemcommando's van Siri en Alexa en een zelfsturende Tesla, ze werken vaak verassend goed. Maar K.I. is ook de gezichtsherkennings-software die zwarte vrouwen niet als persoon herkent of het algoritme van de bank dat steeds dezelfde mensen een lening weigert zonder dat iemand weet waarom. Vaak is het zelfs voor de ontwikkelaars onmogelijk te herleiden waarom een K.I. een beslissing nam. Een beslissing die werd genomen in één van de honderden onzichtbare lagen van het getrainde neurale net. We kijken naar K.I. met een mengeling van bewondering en angst. Wat is het knap! Als het zich maar niet tegen ons keert! Zonder het te begrijpen, zonder perspectief op begrip.
Ook binnen de erfgoedsector wordt K.I. al veelvuldig toegepast in het kader van automatisering van transcriptie, vertaling, annotatie en classificatie. Over het algemeen vinden deze ontwikkelingen plaats aan de achterkant, als assistent van de archivaris en de curator. Maar welke rol kan K.I. hebben aan de voorkant tussen het archief en het publiek? Hoe kan een K.I. zorgen voor een nieuwe publiekservaring die bovendien transparant is, zichzelf demystificeert en een gelijkwaardige relatie tussen Kunstmatige en Menselijke Intelligentie veronderstelt?
Dit onderzoek gaat over de vraag hoe het Archief van de toekomst eruit kan zien. Hoe kan K.I. bijdragen aan de ontsluiting van een digitaal archief en tegelijkertijd een nieuw perspectief bieden op de interactie met en beleving van digitale archieven in brede zin?
Binnen dit onderzoek zijn bestaande K.I. technieken zoals visuele object- en patroonherkenning, tekstanalyse en classificatie toegepast op de archieven van _Tegenlicht _en de Rijkscollectie voor Nederlandse Architectuur en Stedenbouw van Het Nieuwe Instituut. Daarbij is gekeken naar twee aspecten;
- Hoe draagt K.I. bij aan nieuwe vormen van publieksbeleving van het archief?
- Hoe kan de rol die K.I. speelt zichtbaar gemaakt of verbeeld worden?
Objectherkenning
De eerste stap in het onderzoek gaat in op objectherkenning. Met behulp van een reeds getraind model (COCO) kunnen objecten in 80 verschillende categorieënCategorien uit de COCO dataset zijn bijvoorbeeld: persoon, auto, trein, lepel, giraffe herkend worden. Hierbij wordt gebruik gemaakt van YOLO v3 (You Only Look Once)https://pjreddie.com/darknet/yolo/, een populair _neuraal netwerk _gericht op objectherkenning. Het algoritme bekijkt alle afleveringen van _Tegenlicht _uit seizoen 2018 en tekent een kader om ieder herkend object. In een gemiddelde Tegenlicht uitzending wisselen pratende mensen en meer cinematografische scenes elkaar af en het algoritme blijkt in staat om personen en algemene objecten te detecteren en te labelen.
Hier blijkt ook de beperking van de 80 categorieën die het model kan herkennen. De classificatie is weliswaar vrij nauwkeurig maar ook erg algemeen. Een vervolg stap hierop was een test met een breder getraind model dat op basis van ImageNet 9K 9000 verschillende classificaties omvat en daarmee meer onderscheid kan maken.
Tegelijkertijd blijkt dat het model met meer verschillende categorieën ook sneller fouten maakt. Zoals wanneer het bomen in een park aanziet voor broccoli. Ook worden classificaties soms ook te algemeen. Zo worden de bergbeklimmers in onderstaand beeld de ene keer als persoon herkend, maar ook als 'living thing' of 'organism'.
Deze uitkomsten roepen de vraag op hoe het Neurale Netwerk tot een classificatie komt. Dit kan zichtbaar gemaakt worden met behulp van _Class Activation Maps. _Een Class Activation Map laat zien welke "neuronen" geactiveerd worden bij de herkenning van een beeld. Op een kleurschaal van blauw naar rood wordt zichtbaar welk deel van het beeld het netwerk het meest activeert, waarbij blauw het minst actief is en rood het meeste. In onderstaand beeld is te zien dat het Imagenet9K model het meest geactiveerd wordt door de drie meest rechtse figuren. Het landschap zelf activeert nauwelijks. Dit is te verklaren doordat het model getraind is op alledaagse objecten waarbij personen meer voor de hand liggen dan besneeuwde berglandschappen.
Telkens wanneer het model iets herkent wordt daaraan een zekerheidspercentage gekoppeld. Door de drempelwaarde van dit percentage heel hoog in te stellen 'ziet' het algoritme minder, door het laag in te stellen ziet het meer maar maakt het ook meer fouten. Uit deze eerste experimenten blijkt dat wat een K.I. in de vorm van een neuraal net ziet, sterk afhangt van de data waarmee het model getraind is. Door verschillende modellen te gebruiken kan een K.I. verschillende dingen 'zien'.
Een model trainen
Op basis van een selectie van 100.000 beelden uit de digitale collectie van de Rijkscollectie voor Nederlandse Architectuur en Stedenbouw van Het Nieuwe Instituut is onderzocht hoe een neuraal net getraind kan worden en een model gemaakt kan worden dat patronen uit de selectie kan herkennen.
De beelden uit de selectie zijn oorspronkelijk gesorteerd op architect en bevatten voornamelijk tekeningen en enkele foto's. Voor dit experiment is gebruik gemaakt van een selectie van 11 architecten en werd het neuraal net getraind tot een foutmarge van 14% is bereikt. Dit wil zeggen dat van alle beelden die het neuraal net ziet 14% aan de verkeerde architect wordt toegeschreven en 86% aan de juiste. Hoewel de tekeningen visueel vaak vrij dicht bij elkaar liggen is de classificatie verrassend effectief. Door de trainingsdata verder op te schonen, in de vorm van foto's verwijderen, kan die foutmarge nog verder worden verkleind.
In een zogenaamde Confusion Matrix is te zien welke architecten verkeerd geclassificeerd worden. Deze matrix maakt duidelijk dat af en toe een tekening van Cuypers voor een Berlage wordt aangezien of een Dudok voor een Blom. Te verwachten is dat een model op basis van foto's in staat zou kunnen zijn om ook in foto's of video het werk van een architect te herkennen.
Ordening
Een andere toepassing van beeldherkenning en analyse richt zich op het ordenen van het archief. Hiervoor is gebruik gemaakt van de selectie van 100.000 afbeeldingen waarbij het archief in twee stappen geordend wordt. In stap een werden alle beelden geclassificeerd (op basis van een algemeen model) en formeel geanalyseerd op basis van kleur. Vervolgens wordt een ordening gemaakt waarbij de meest gelijkende beelden bij elkaar in de buurt worden geplaatst doormiddel van een T-SNE algoritme (t-distributed Stochastic Neighbor Embedding) en in een grid geplaatst.De vertaling van T-SNE naar een grid gebeurt met behulp van RasterFairy van Mario Klingemann Het resultaat is een abstract beeld dat bestaat uit kleine afbeeldingen waarop ingezoomd kan worden om de individuele afbeelding te zien in haar nieuwe context. Doordat de organisatie is gebaseerd op zowel beeldherkenning en analyse kunnen er verrassende combinaties en verbanden ontstaan die op basis van metadata zoals jaartal, locatie of stijl niet gemaakt zouden worden.
Generative Adversarial Network
Als laatste experiment is het werk van twee architecten, Piet Blom en Theo van Doesburg, gebruikt om een Generative Adversarial Network te trainen. Hierbij worden twee neurale netwerken tegen elkaar uitgespeeld. Het ene netwerk probeert het werk van een bepaalde architect zo goed mogelijk te herkennen terwijl het andere probeert om uit het niets een beeld te produceren dat lijkt op het werk van de betreffende architect. In het begin lukt dat niet, zijn de beelden willekeurig en worden ze door het herkenningsalgoritme afgekeurd. Na een tijdje is het echter steeds beter in staat om een beeld te genereren dat kan doorgaan voor bijvoorbeeld een tekening van Van Doesburg, maar dat nooit door van Doesburg gemaakt is. De uitkomst daarvan is visueel interessant maar werpt ook allerlei inhoudelijke vragen op; wie is de auteur van dit beeld? Is het een nieuw werk van het algoritme, van de architect of een visuele samenvatting van diens werk?
Beeld gegenereerd met behulp van Generative Adversarial Network op basis van het archief van Theo van Doesburg.
Beeld gegenereerd met behulp van Generative Adversarial Network op basis van het archief van Piet Blom.
Conclusies
De term Kunstmatige Intelligentie staat ter discussie. Is het niet beter te spreken over Aanvullende Intelligentie? Is Kunstmatige Intelligentie een valse belofte? Wat is intelligentie? Is er werkelijk sprake van begrip?
De technieken die in dit onderzoek gebruikt zijn, zijn allemaal gebaseerd op patroonherkenning. Door grote hoeveelheden informatie kan een neuraal netwerk zo getraind worden dat het statistisch steeds waarschijnlijker wordt dat het een beeld goed kan herkennen. Hoewel dat meer doet denken aan een Pavlov reactie dan aan intelligentie en is er geen sprake van begrip, levert dat bruikbare toepassingen op. En geeft veel ruimte voor vervolgonderzoeken. Een voorbeeld is de mogelijkheid om op basis van een foto de architect van een gebouw te kunnen noemen.
Dat het trainingsmodel bepaalt wat een K.I. kan herkennen zal een computerwetenschapper niet verbazen. Toch is het zinvol om dit in publiekstoepassingen zichtbaar en inzichtelijk te maken. Met welke ogen kijkt een algoritme, op basis waarvan is het getraind? Hoeveel onzekerheid staat het toe bij het classificeren? Variabelen die voor heel verschillende uitkomsten kunnen zorgen. Variabelen die misschien wel door een gebruiker gekozen kunnen worden. Dit zou een K.I. minder een black box maken en meer een gereedschap. Het zou de relatie tussen mens en machine enigszins gedemystificeren. Ook het visualiseren van tussenstappen, zoals Class Activation Maps kunnen daarbij van pas komen.
Een Generative Adversarial Network kan op het oog een nieuw ontwerp van Van Doesburg genereren, maar wat is de betekenis daarvan? Is het werkelijk een nieuw werk? Wie is de auteur? Van wie is het auteursrecht? Ook hierbij zou het een misvatting zijn om een scheppende kracht toe te kennen aan het algoritme. Het kan gezien worden als een poging om de essentie te destilleren uit het werk van de architect en daarop variaties te maken.
Dat Kunstmatige Intelligentie een rol zal spelen in de publiekservaring van het archief van de toekomst ligt voor de hand. Of dat is in de vorm van een orakel of een gereedschap is een ontwerpvraag. Neurale netwerken zijn intrinsiek gelaagd en diffuus. Een gebruiksvriendelijke interface draagt het risico in zich de techniek te mystificeren en de gebruiker in een passieve rol te plaatsen. K.I. als gereedschap vraagt meer inspanning van de gebruiker maar plaatst deze in een actievere, intelligentere rol.