Back to top

Massadigitalisering is topsport. Ik hoor het mensen soms zeggen op erfgoedconferenties: digitaliseren, dát hebben we inmiddels wel onder de knie. De praktijk blijkt toch weerbarstiger. Ja, heb je het over beeldkwaliteit en scannen, daar is er veel voortgang geboekt de afgelopen jaren. Maar scannen is natuurlijk maar een deel van het verhaal.

Sinds 2012 beschikken we over de Metamorfoze Preservation Imaging Guidelines 1.0. De grote scanbedrijven in Nederland kennen deze richtlijnen. Sommigen hebben inmiddels hun productieproces of delen daarvan hierop aangepast. Ook de apparatuur is veel beter geworden. Hoewel je altijd wel in zekere zin overgeleverd bent aan de professionaliteit van de scanoperator. Geen enkele richtlijn kan op tegen een slordige werknemer bij het digitaliseringsbedrijf.

Van kast tot kast

Maar digitaal beschikbaar en bruikbaar maken gaat verder dan alleen scannen. In het project TRIADO werken wij aan een workflow ‘van kast tot kast’. Ofwel, hoe transformeer je zo efficiënt mogelijk circa vier strekkende kilometer grotendeels getypt papier - tot een digitaal ‘bruikbaar’ archief voor onderzoekers en andere geïnteresseerden? Dat is een geweldig uitdagende puzzel. Want elke actie die je verzint, heeft consequenties in termen van werk en dus geld en tijd. Het gaat immers over ongeveer 28 miljoen afzonderlijke bladzijden. 

Een ander punt dat nog wel eens vergeten wordt, is de impact van massadigitalisering op de organisatie. De zwakste schakel in de keten van digitalisering en beschikbaarstelling bepaalt de snelheid waarmee het materiaal gebruikt kan worden. Je kunt gigantische hoeveelheden per maand digitaliseren, maar als alles vervolgens in een lange wachtrij moet worden gezet om het online te presenteren, heb je een probleem. Massadigitalisering vergt veel van de digitale huishouding van een instelling. En dan heb ik het nog niet over de vaak kostbare onderneming om alles op lange termijn in de lucht te houden.

Digitaliseringsfabrieken

Massadigitalisering is niet nieuw. In Nederland kennen we bijvoorbeeld Naturalis (zie de video hieronder), het Historische Krantenproject van de KB, Beelden voor de Toekomst, en DTR van het Nationaal Archief. In het buitenland heb je gespecialiseerde ‘digitaliseringsfabrieken’ in Mo i Rana (Nationale Bibliotheek van Noorwegen), Fransta (Nationale Bibliotheek en Nationaal Archief van Zweden) en Mikkeli (Nationale Bibliotheek) van Finland. Het lijkt erop dat het ‘industrieel’ digitaliseren (zie rapport Stadsarchief Amsterdam) van erfgoedcollecties vooral een ‘Nordic’-onderneming is. Ik zie eindeloze bossen, bevroren meren, verdwaalde moose en te midden van dit alles de rokende schoorstenen van de digitaliseringsfabrieken! 

 

In ons voorlopige digitaliseringsproces voor het project TRIADO onderscheiden we grofweg de onderstaande onderdelen. Dit is een vrij generieke lijst. Onder andere  bij de Koninklijke Bibliotheek wordt er in grote lijnen zo gewerkt. 

  1. Voorbewerking
  2. Scannen
  3. Voorbewerking voor OCR’en
  4. OCR’en
  5. Terugontvangst en controle
  6. Opslag digitaal

De problemen van grootschalige digitalisering

Het digitaliseren van archieven heeft zijn eigen specifieke problemen, zeker als je het grootschalig aanpakt. Zo is de volgorde van bladzijden vaak veel minder vanzelfsprekend dan in een boek of een krant. Het papier is soms fragiel, van verschillende afmetingen en in slechte conditie. Waar een boek, een tijdschrift en een krant al vaak duidelijke eenheden zijn, is het in een archief – zeker als je digitaliseert – lastig om geautomatiseerd de individuele documenten eruit te pikken. In TRIADO gaan we experimenteren met auto-classificatie-software, waarmee je op basis van fysieke kenmerken (bijv. gebruik van bepaald font, specifieke lay-out, etc.) documenten kunt onderscheiden.

Je ziet in digitaliseringsprojecten steeds meer de aandacht verschuiven van scannen naar nader ontsluiten. Een scan is leuk, maar je kunt er nog zo weinig mee. Er gebeurt op dit moment ontzettend veel rondom data-verrijking en post-correctie van OCR-tekst. In TRIADO gaan we hiermee ook uitgebreid experimenteren in 2018. Hier liggen prachtige mogelijkheden om de data die verzameld wordt in NOB-projecten zoals de WO2 Thesaurus (met bijvoorbeeld uitgebreide lijsten van concentratiekampen) en de Personenportal WO2 (met bijvoorbeeld namen van slachtoffers, verzetsmensen, etc.) aan te wenden. Met als uiteindelijk doel methodieken te vinden om de toegang tot een van de belangrijkste WO2-archieven in Nederland – het Centraal Archief Bijzondere Rechtspleging – te verbeteren.  Het is een dankbare klus; want nu zijn de dossiers alleen maar doorzoekbaar op de naam van de verdachte.  De tussentijdse resultaten brengen we via deelrapporten naar buiten. We gaan een spannende tijd tegemoet.