En blogg från Högskolan i Borås

måndagen den 23:e maj 2011

Studenter djupkodar digitaliserade böcker

Som del av en examinationsuppgift inom programmets valbara kurs "Textkodning av kulturarvet" arbetar några studenter just nu med att "förädla" digitaliserade böcker i projekt som E-books on Demand (Umeå universitetsbibliotek) samt Google Books genom att märka upp transkriberade texter hämtade från dessa projekt med XML-tillämpningen Text Encoding Initiative (TEI).

Texterna är OCR-ade på maskinell väg och behöver därför korrigeras manuellt innan de sedan kan kodas (likaledes manuellt) med TEI. För böcker tryckta i t.ex. frakturstil kan sådant korrekturarbete vara omfattande, eftersom OCR-tolkning ännu inte är särskilt vass på fraktur.

Uppgiften är ett exempel på hur mycket förädlings- och återanvändningsarbete som är möjligt att göra ovanpå de stora bankerna av digitaliserade böcker som f.n. byggs upp världen över.

0 kommentarer:

Skicka en kommentar