Gå till innehållet. Gå till navigation

Språkteknologi.se

Personliga verktyg
Du är här: Förstasidan Mer om olika teknik- och tillämpningsområden Skrivhjälpmedel Automatisk språkgranskning av svensk text

Skrivhjälpmedel

Dokumentåtgärder
Skrivhjälpmedel omfattar program, som kan erbjuda olika former av språklig hjälp, t.ex. ordbehandlingsprogram som kontrollerar stavning, avstavning, grammatik och stil.

Automatisk språkgranskning av svensk text


Automatisk språkgranskning ger en mängd fördelar för skribenten vilket medför att stavnings- och grammatikkontroll har blivit ett viktigt skrivverktyg för många skribenter. De främsta fördelarna med datorn som språkgranskare är att den är outtröttlig, tillgänglig och snabb. Man kan få sin text språkgranskad just i den stund man skriver den.

Språkgranskningsverktyg för svenska

De senaste årens forskning och utveckling inom området har lett fram till att det finns minst tre olika verktyg för grammatisk kontroll av svensk text. Språkteknikföretaget Lingsoft har utvecklat ett kommersiellt verktyg för grammatikkontroll, Grammatifix, som bl.a. finns i Microsoft Word 2000. Det har också utvecklats olika forskningsprototyper, t.ex. Scarrie vid Institutionen för lingvistik vid Uppsala Universitet och Granska vid Institutionen för numerisk analys och datalogi vid Kungliga Tekniska Högskolan i Stockholm. Den fortsatta texten kommer i stort att beskriva hur språkgranskningsverktyget Granska är uppbyggt och hur programmet fungerar när det körs på olika typer av text.

Oupptäckta fel och fragmentarisk granskning

Trots teknikens kommersiella mognad återstår många problem att lösa, t.ex. att endast ett begränsat urval av feltyper upptäcks. Den grammatiska analysen är i dagens system otillräcklig för en mer generell analys som skulle kunna upptäcka mer oförutsägbara fel. Till gruppen oförutsägbara fel hör ord som saknas i satsen, t.ex. det saknade ordet "i" i "Hon har inte åkt skidor fjällen". Felstavade ord som ger en annan "korrekt" betydelse är också svåra att upptäcka t.ex. "ska" som har stavats som "sak" i satsen "Jag sak spela fotboll imorgon".

Granska och andra verktyg inriktar sig på att upptäcka vissa typer av frekventa fel som är kända på förhand t.ex. kongruensfel som "en liten hus" och särskrivningar som "ett cykel ställ". Dagens verktyg gör i många fall en ganska fragmentarisk granskning även av de feltyper som programmen säger sig klara. Om ett fel upptäcks beror i många fall på vilken den språkliga omgivningen är till felet. Om omgivningen är full av andra fel är det svårt för programmet att identifiera någon konstruktion att utgå ifrån. Om omgivningen består av grammatiskt och semantiskt komplicerade konstruktioner som programmet inte förmår analysera kommer ganska många fel att undgå upptäckt. Programmen fungerar bäst på texter med förhållandevis enkelt språk och med något enstaka fel per mening.

Någon fullständig grammatisk kontroll är inte möjlig så länge inte datorn vet vad texten handlar om. Ett fel kan vara rätt i ett visst sammanhang, och en korrekt konstruktion kan vara fel i ett annat sammanhang. Feldetektionens giltighet beror i många fall på den språkliga stil och kultur som finns för en viss texttyp. Det är t.ex. stor skillnad mellan texter skrivna av sportjournalister och texter skrivna av utrikeskorrespondenter, vilket den undersökning som presenteras nedan också bekräftar.

Språkgranskningsprogrammet Granska

Språkgranskningsprogrammet Granska kombinerar en grundläggande morfologisk analys baserad på ett stort lexikon med statistik. I lexikonet finns det information om ordens möjliga ordklasstillhörigheter och böjningar. Ordet "man" kan t.ex. tolkas som både pronomen och substantiv, och med hjälp av statistik kan Granska välja den sannolikaste tolkningen i den språkliga omgivningen. När varje ords tolkning i texten har bestämts, granskas texten med hjälp av cirka 300 regler. En del regler gör en mer generell analys av delar av meningen; denna analys kan sedan användas av andra regler. De flesta reglerna är dock av typen granskningsregler som försöker upptäcka grammatiska fel genom att ange olika tänkbara felmönster.

Utvärdering av Granska

Granska eftersöker 10 grova feltyper och det verkar som om programmet är bäst på att upptäcka fel i verbkedjan, t.ex. "Han har spelar fotboll". I min licentiatavhandling "Automatisk språkgranskning av svensk text" fokuserade jag dock främst på följande tre feltyper:

  • Inkongruens i nominalfrasen: ett litet villa
  • Särskrivna sammansättningar: ett cykel ställ
  • Inkongruens i predikativ: skogen är gröna

Gemensamt för de olika feltyperna är att det är svårt att överhuvudtaget göra en rimlig analys av satser som innehåller fel. Var och en av dessa feltyper medför också olika problem när de skall eftersökas. Regler som eftersöker inkongruens i nominalfrasen måste t.ex. kunna hantera att artiklar som "den" skall tolkas som självständiga pronomen som i satsen "Då utlöste den nya hot". Programmet måste också hålla reda på de omgivande orden och se att satsen "Då utlöstes den nya hot" är ogrammatisk. När det gäller särskrivna sammansättningar är kanske den främsta svårigheten att många särskrivna sammansättningar kan tolkas som korrekta fraser, t.ex. "han hittade en tom flaska" och mer fantasirika "En ljus hårig sjuk sköterska satt vid en bar disk".

Inkongruens i predikativ (predikatsfyllnad) kräver att Granska kan hantera längre beroenden som mellan "Mannen" och "galna" i satsen "Mannen på taket i den lilla byn i Norrbotten är galna". Detta kräver en mer avancerad språklig analys som medför en ökad risk för felaktiga analyser.

I min licentiatavhandling undersökte jag hur Granska fungerade på 201 019 ord från fem olika texttyper. De fem texttyperna var sportnyheter, utrikesnyheter, myndighetstext, populärvetenskap och uppsatser från gymnasium och högskola. Jag fann att åtta av tio fel av typen inkongruens i nominalfraser upptäcktes av Granska. Fyra av tio felrapporter var korrekta, men detta varierade kraftigt beroende på texttyp. I utrikesnyheter var de flesta detektionerna från programmet falska, medan sju av tio detektioner i gymnasie- och högskoletetexterna var korrekta.

Särskrivna sammansättningar var svårare för Granska att upptäcka. Endast fem av tio fel upptäcktes och fyra av tio felrapporter var korrekta. Även för denna feltyp varierade granskningsresultatet kraftigt mellan olika texttyper. I utrikesnyheterna fanns det inte en enda särskriven sammansättning, vilket medförde att programmets uppgift kunde liknas vid att leta efter en nål i en höstack som inte innehåller en nål. Gymnasie- och högskoletexterna innehöll däremot ganska många fel, och Granska upptäckte fyra av tio fel. Sju av tio felrapporter var korrekta vilket får anses vara ett bra resultat. Att Granska trots allt inte upptäckte fler beror i många fall på att många oupptäckta särskrivningar upprepades många gånger i texterna.

Inkongruens i predikativ är en svår feltyp att upptäcka utan att programmet ger ifrån sig falska alarm. Granska upptäckte 7 av 10 fel, men endast 3 av 10 felrapporter var korrekta. Resultatet var återigen bäst på gymnasie- och högskoletexter med något fler korrekta felrapporter.

Granska fungerar alltså bäst på texter som innehåller ganska många fel. Det bekräftas även av en magisteruppsats i datorlingvistik av Lena Öhrman. Öhrman visade att Granska fungerade lovande på texter skrivna av andraspråksinlärare, framförallt var de falska alarmen ganska få. Många fel undgick dock upptäckt och en mer specifik anpassning av Granska till denna användargrupp är en utmaning för framtiden.

Testa Granska: http://www.nada.kth.se/theory/projects/granska/demo.html

av Ola KnutssonSenast ändrad 2006-01-18 14:30

Driven av Plone, Open Source Content Management System

Denna webbplats följer följande standarder: