En blogg från Högskolan i Borås

måndag 4 oktober 2010

ordfrekvensverktyg


Ett sätt att skaffa sig en uppfattning om innehållet i ett elektroniskt dokument man överväger att läsa, t.ex. en längre webbartikel, är att låta ett program undersöka vilka ord som förekommer mest i dokumentet. Samma verktyg kan också användas för att skaffa sig (ibland överraskande!) information om det ord- och termbruk man själv har i sina skrivna texter.

Ett av de mer kända verktygen är Wordle, vars attraktionskraft bl.a. ligger i att frekvensresultatet presenteras i grafisk form, med en bokstavsstorlek som motsvarar frekvensgraden. Se exemplet här intill från en analys av Monty Pythons sketch om "silly walks".

Men det finns betydligt mer kraftfulla verktyg om man vill gå på djupet, analysera trender, återanvända resultatet i andra sammanhang, använda olika stoppordslistor (eliminera redovisning av "intetsägande" ord som och, men, det etc) osv - ett sådant har nyligen utvecklats av Geoffrey Rockwell och Stéfan Sinclair och heter Voyeur - ta gärna en smygtitt på det ;-)

Inga kommentarer:

Skicka en kommentar