En blogg från Högskolan i Borås

måndag 23 maj 2011

Studenter djupkodar digitaliserade böcker

Som del av en examinationsuppgift inom programmets valbara kurs "Textkodning av kulturarvet" arbetar några studenter just nu med att "förädla" digitaliserade böcker i projekt som E-books on Demand (Umeå universitetsbibliotek) samt Google Books genom att märka upp transkriberade texter hämtade från dessa projekt med XML-tillämpningen Text Encoding Initiative (TEI).

Texterna är OCR-ade på maskinell väg och behöver därför korrigeras manuellt innan de sedan kan kodas (likaledes manuellt) med TEI. För böcker tryckta i t.ex. frakturstil kan sådant korrekturarbete vara omfattande, eftersom OCR-tolkning ännu inte är särskilt vass på fraktur.

Uppgiften är ett exempel på hur mycket förädlings- och återanvändningsarbete som är möjligt att göra ovanpå de stora bankerna av digitaliserade böcker som f.n. byggs upp världen över.