Gå till innehållet. Gå till navigation

Språkteknologi.se

Personliga verktyg
Du är här: Förstasidan Nyheter Digitaliserade böcker möjliggör spännande språkforskning

Digitaliserade böcker möjliggör spännande språkforskning

Dokumentåtgärder

Efter att Google digitaliserat 4 procent av världens böcker och offentliggjort dem i form av en sökbar korpus, är det nu möjligt att titta på språkliga fenomen som tidigare inte gått att undersöka.

Över 5 miljoner böcker och 500 miljarder ord finns i den databas som Google har skapat genom att digitalisera cirka 4 procent av världens böcker. Hela 361 miljarder av orden är engelska, vilket ger språkforskare unika möjligheter att följa språkets utveckling från 1500-talet och framåt.

En forskare i Slovenien har använt korpusen för att ta reda på de populäraste 1-, 2-, 3-, 4- och 5-ordiga fraserna mellan åren 1520 och 2008. Resultaten finns publicerade på hans webbplats, där man exempelvis kan läsa att den populäraste femordsfrasen år 1520 var ”the pope and his followers”.

Läs mer i Technology Review.

av redaktionenSenast ändrad 2013-01-30 08:59

Driven av Plone, Open Source Content Management System

Denna webbplats följer följande standarder: