En blogg från Högskolan i Borås

tisdag 28 februari 2012

Textfångst och OCR


I programmets valbara kurs Textkodning av kulturarvet behandlas bl.a. frågan om hur man med hjälp av OCR (teckenigenkänning) omvandlar en inscannad sida ur en tryckt bok till maskinläsbar text som sedan kan t.ex. XML-kodas. Det finns också metoder för att låta en mjukvara känna igen hela segment i en inskannad och OCR:ad text och själv tilldela segmenten lämplig kod. Om detta och mycket annat föreläste David Hansson (Karolinska institutet, se bilden) och Gunilla Wiberg (Kungliga biblioteket) för en internationell kurs i februari, och de spelar in en särskild dubbelföreläsning om dessa ämnen som ljudfil för kursen Textkodning av kulturarvet.

Inga kommentarer:

Skicka en kommentar