Gå till innehållet. Gå till navigation

Språkteknologi.se

Personliga verktyg

Lexikon och datasamlingar

Dokumentåtgärder
Lexikon och datasamlingar omfattar både ordböcker och uppslagsverk, såväl på svenska som tvåspråkiga och enspråkiga lexikon på andra språk. Hit räknar vi även s.k. korpusar, samlingar av texter där de olika orden bestämts till funktion och innehåll.

Korpusar

En korpus (från latinets corpus, kropp) är inom lingvistiken en samling språkliga data som kan användas vid språkforskning, vanligen en stor samling texter eller transkriptioner av talat språk.

Följande saker utmärker vanligen en korpus:

  • den innehåller naturligt språkbruk, autentiska texter som helst är representativa för en texttyp, genre, författare, tidsperiod e.d.
  • den är stor, det vill säga den innehåller ett omfattande språkligt material
  • den är datorläsbar, så att det går lätt att söka i och bearbeta materialet.

Genom att använda en korpus kan forskaren studera hur språket faktiskt används (till skillnad från introspektion, då forskaren utgår helt från sin egen språkkänsla). Ju större och mer representativ korpusen är, desto bättre visar den hur språket används. Å andra sidan är en korpus alltid av begränsad (ändlig) storlek, medan själva språket ger möjlighet till oändligt många satser. Fullständigt representativ kan därmed en korpus aldrig bli. Man måste därför vara medveten om att korpusen bara ger ett urval av språket ifråga och inte hela sanningen. Metoden att använda korpusar för språkstudier kallas korpuslingvistik.


Olika typer av korpusar

Den enklaste korpusen innehåller bara ren text. Mer avancerade korpusar är annoterade (eller taggade) med extra information. Vanligast är ordklass- och böjningsformsinformation, så kallad part-of-speech-taggad text. Orden kan också vara annoterade med till exempel sin grundform (lemma), grammatiska funktion (subjekt, predikat etc.), semantiska kategori (personnamn, plats, tid etc.). En korpus där meningarna är annoterade med någon typ av hierarkisk struktur kallas för en trädbank. Specialiserade korpusar kan vara märkta med till exempel stavfel och grammatiska fel, till och med med rättelser av felen. Ofta är varje text i korpusen dessutom annoterad med metadata som anger till exempel källhänvisning, författare, tid, stil etc.

Det är också vanligt med parallellkorpusar som innehåller samma texter på två eller flera språk. Helst ska det finnas länkar mellan samma mening på de olika språken och gärna också länkar mellan de ord i meningarna som motsvarar varandra på de olika språken.

Vidare skiljer man på balanserade korpusar, som är sammansatta med eftertanke på ett sätt så att texterna är representativa för något (en tidsperiod, en stilnivå, en författare e.d.), och opportunistiska korpusar, som helt enkelt är sammansatta av allt material som man kunnat få fram.

Här är exempel på några kända korpusar:

  • Brown Corpus, en balanserad, ordklasstaggad engelskspråkig korpus med 1 miljon ord från 1961
  • BNC, British National Corpus, en balanserad, ordklasstaggad brittisk korpus med över 100 miljoner ord, sammansatt på 1990-talet
  • SUC, Stockholm-Umeå Corpus, en balanserad, ordklasstaggad svensk korpus med 1 miljon ord sammansatt på 1990-talet
  • Parole, en automatiskt ordklasstaggad svensk korpus med nära 20 miljoner ord, sammansatt på 1990-talet.

Många svenska korpusar finns på Språkbanken och Projekt Runeberg.

Vissa av dessa korpusar kan laddas ner i sin helhet. Andra går att söka i på webben. En vanlig sökmetod för korpusar är konkordanssökning där användaren söker efter ett ord eller en fras och får alla förekomster i korpusen presenterade i sitt sammanhang (ofta med en förekomst per rad där sökordet står mitt på raden).


Användning av korpusar

Det finns mängder av användningsområden för en korpus. Några exempel är:
  • konstruktion av lexikon och flerspråkiga ordböcker
  • samling av statistik för språkteknologiska tillämpningar (ordfrekvenser, bokstavsfrekvenser, ordklassfrekvenser etc.)
  • lingvistiska studier av syntax och semantik.
  • stilistisk och språkhistorisk forskning
av Viggo KannSenast ändrad 2006-03-20 16:04

Driven av Plone, Open Source Content Management System

Denna webbplats följer följande standarder: