HTR
På min praktik med Riksarkivet arbetar jag med ett självständigt projekt där jag intervjuar användare av arkiv för att se vad de tänker och tycker om Handwritten-Text-Recognition. HTR är en digital teknik som transkriberar handskriven text till maskinläsbar text, vilket inte bara gör den krångliga, snea, hundratals års gamla texten mer läsbar men också sökbar för datorer. Detta betyder att användare som söker efter specifik information som namn i en kyrkobok kan låta datorn göra arbetet instant, istället för att själva sitta och läsa igenom alla register.
Nuläget
Feedbacken från användare som jag har intervjuat har hittills varit väldigt ömsesidig gällande användbarheten av HTR. Just nu kan man inte transkribera handskrivna texter utan att mata in mer mängder text än vad användarna vill söka igenom. Om man letar efter ett namn som kan finnas på 10 sidor så har man bara dem 10 sidorna att träna HTR-modellen på. Detta räcker tyvärr inte till för att transkriptionen ska vara läsbar, den behöver mycket mer data för att kunna konvertera texten till datatext.
HTR har än så länge bara kunnat användas av större projekt ledda av flera forskare som dessutom måste lägga in mycket tid på att rama in texten i HTR-programmet Transkribus. Plattformen har inte förmågan att själv hitta var rader börjar och slutar, så det arbetet hamnar på människors manuella arbete likaså som den initiella manuella transkriptionen som behöver göras. Datorn måste ha transkriberad text för att kunna jämföra och veta när den gör rätt och fel, vilket då har betytt att endast större projekt har använt HTR då de har tillgång till mer arbetskraft som anställda och frivilliga i allmänheten.
Framtiden
Transkribus mål är att få in så mycket data av användare (som från forskningsprojekt i t.ex Riksarkivet, Finska Riksarkivet, Universitet i Nederländerna, Gustafs Hand) att man inte behöver lägga någon tid alls på att träna en modell eller rama in textrader. När detta sker skulle Transkribus, som är ett projekt som utvecklar HTR, kunna användas för att enkelt söka igenom vilket material man än har, så länge man har en digital bild på texten att ladda upp i deras program. Man skulle då inte längre behöva spendera flera timmar på att analysera dålig handskrift från 1400-talet bara för att finna att man letar i fel dokument.
Denna användbarhet skulle såklart inte bara hjälpa humanister, utan forskare utav alla slag. I de nästkommande inläggen kommer jag berätta om svaren jag fått av dem jag har intervjuat.
/ H