Digitalisering

Från Wiki-Rötter
(Omdirigerad från OCR)
Hoppa till navigering Hoppa till sök
Digitaliserad bild på födelseattest från Buenos Aires 1952
Datorer.png

Digitalisering är en process där analoga signaler (variabla storheter) omvandlas till digitala signaler (siffror), t.ex. genom avfotografering med digitala kameror eller inskanningsapparatur. Digital information har fördelen att den kan kopieras exakt i flera led utan att försämras, överföras över långa avstånd samt sökas och bearbetas i datorer.

Betydelse för släktforskningen

Digitalisering har på senare år betytt mycket för släktforskningen på flera avgörande sätt, och släktforskning utan dator är helt otänkbart i dagens läge.

  • Datorns inträde i släktforskningen - Genom persondatorn har släktforskaren fått tillgång till ett mycket skarpt verktyg som kan användas på många sätt. Man kan nu lagra, sortera, bearbeta, och publicera mängder med data.
  • Internets inträde i släktforskningen - När Internet kom fick släktforskarna helt nya och avgörande möjligheter att publicera egen forskning, söka reda på andras släktforskning och utbyta kunskaper och åsikter i diskussionsfora som Anbytarforum och Arkivguidens Forum.
  • Databasernas inträde i släktforskningen - Ingen släktforskare klarar sig längre utan CD- och DVD-skivor med omfattande digitaliserade databaser. Tillgängligheten är oändligt mycket större, och det har blivit arkivens och museernas största uppgifter att göra sina samlingar lättillgängliga genom digitalisering och internetpublicering.
  • De skannade kyrkböckernas inträde i släktforskningen - När Genline tog initiativ till att skanna de svenska kyrkböckerna påbörjades en ny epok i släktforskningens historia. Nu behövde släktforskarna inte längre springa på biblioteken och beställa mikrokort, utan kunde sitta hemma vid köksbordet och läsa kyrkböckerna direkt i sina persondatorer. Arkiv Digital tog 2005 initiativet till nyfotografering i färg av alla kyrkböcker för att öka läsbarheten då man arbetar med dator via Internet. Många av de nyfotograferade volymerna är restaurerade sedan mormonernas filmning på 50 och 60-talen och har därför i högre grad moderna och tydliga innehållsförteckningar.

Att förvara den mängd information som rymdes i ett stort bibliotek i en liten dosa på nyckelringen, det är digitaliseringens förtjänst, och kanske kan förklara begreppet på bästa sätt.

Digitalisering av text

Även om digitalisering omfattar all sorts information (som ljud, fotografier och temperaturmätningar) så avses oftast inmatningen i datorer av skrivna dokument. Den enklaste formen av digitalisering är avskrift med vanligt tangentbord, vilket ofta är gott nog. Men speciellt för historiska dokument uppstår lätt frågan: Är avskriften korrekt?

Därför föredrar man att alltid först göra en digital bild av dokumentet, sida för sida. Sedan år 2000 har detta revolutionerats av digitalkamerans genombrott. Tidigare användes alltid en långsammare skanner. Bilden har fördelen att exakt och trovärdigt återge en textsida. Nackdelen är att bildens innehåll inte blir direkt sökbar som ett textdokument.

Ett textigenkänningsprogram, vanligen kallat OCR (optical character recognition), kan tyda tryckt text i en digital bild. Att automatiskt tolka handskrift är vanligen omöjligt, utan texten måste skrivas av för hand. Även för tryckt text har den automatiska textigenkänningen problem med frakturstil, ovanliga typsnitt, äldre stavning och ovanliga namn, kanske just de namn som man har störst nytta av att kunna söka efter. Därför måste även automatiskt tolkad text korrekturläsas av människor för att bli helt tillförlitlig och användbar.

Olika digitaliseringsprojekt skiljer sig i hur de finansieras och i vilka slags dokument de digitaliserar (böcker, brev, födelseregister) men också i vilka av de ovan uppräknade momenten som utförs (se nedan). Projektens omfattning räknas i antalet sidor. För att jämföra med arkiv kan man som en tumregel räkna med 20.000 sidor per hyllmeter. Nordisk familjebok i 38 band omfattar 29.000 sidor (770 sidor per band) eller cirka 1,5 hyllmeter. Arkiv Digital omfattar 50 miljoner sidor (cirka 2.500 hyllmeter). Krigsarkivet innehåller 72.000 hyllmeter.

Referenser