Gå till innehållet. Gå till navigation

Språkteknologi.se

Personliga verktyg
Du är här: Förstasidan Mer om olika teknik- och tillämpningsområden Textanalys En beräkningsmodell för språklig betydelse

Textanalys

Dokumentåtgärder
Textanalys är enkelt uttryckt hur datorn tolkar texter, hur den kan förstå vilka grammatiska och kontextuella funktioner olika ord fyller och hur den kan representera en texts innebörd. Här presenteras även textgenerering, hur datorn skapar en text från en beskrivning av vad som ska uttryckas.

En beräkningsmodell för språklig betydelse

Vektorbaserad semantisk analys är en teknik för att beräkna ords betydelsemässiga likhet utifrån deras förekomst i text. Tekniken går ut på att man tittar på hur orden fördelar sig över texter i relation till varandra, och man antar att ord som har liknande fördelningsmönster också har liknande betydelse. Mer konkret så görs detta med hjälp av statistiska beräkningsmodeller som först tilldelar varje ordtyp i texten en slumpmässig och gles mångdimensionell vektor som vi kan kalla för ordets "representationsvektor". Skälet för att använda denna representationsform är att den är naturlig samt att den har många beräkningsmässiga fördelar.

Nästa steg är att beräkna och skapa representationer för ordens fördelningsmönster, vilket görs på följande sätt: varje gång ett givet ord förekommer i texten lägger man ihop representationsvektorerna för orden som omger det och bildar på så vis "kontextvektorer" för varje ordtyp i texten. Dessa kontextvektorer kan sägas representera ordens fördelningsmönster genom att vara summan av de kontexter eller sammanhang som orden förekommer i. Beräkningen av ordens fördelningsmönster kan göras på två sätt. Antingen lägger man, som ovan, ihop representationsvektorerna för ett litet antal omgivande ord, eller så lägger man ihop representationsvektorerna för de stycken eller dokument som ordet förekommer i. Skillnaden mellan dessa två beräkningsmetoder är att de tycks vara kapabla att beräkna och representera olika typer av betydelse. I det förra fallet tycks det vara mening - det som ordet betyder - som representeras och i det andra fallet tycks det vara innehåll - det som ordet handlar om.

Det är dock viktigt att påpeka att kontextvektorernas betydelseinnehåll inte består i representationen som sådan, för vektorerna i sig betyder ingenting utan är endast en intern representationsform. Betydelseinnehållet består snarare i relationerna mellan kontextvektorerna. Det är genom att jämföra dem med varandra som man kan beräkna semantisk likhet mellan ord. Matematiskt görs detta genom att beräkna avståndet mellan vinklarna hos kontextvektorerna. Ju mindre avståndet är, desto mer betydelsemässigt närbesläktade antas orden vara. Detta antagande har visat sig vara välgrundat eftersom systemet har lyckats lösa ett standardiserat synonymtest (TOEFL) som normalt används för att testa ordförståelse hos människor.

Tekniken kan även användas för informationssökning. Tanken är att möjliggöra sökning baserad på innehåll genom att generera relevanta sökbegrepp utifrån användarens fråga. Exempelvis ger systemet resultat som att "båt" är relaterat till "skepp" och "fartyg". Genom att träna systemet på flerspråkiga databaser innehållande texter som är översättningar av varandra kan man generera begrepp som har relevans över flera språk. På så sätt kan "båt" relateras till "boat" och "bateau" med samma metoder som tidigare använts för ett språk, vilket även möjliggör flerspråkig informationssökning.

Forskningsmässigt är tekniken betydelsefull eftersom den utgör en metod för att studera hur språklig betydelse kan beräknas med utgångspunkt i olika textuella strukturer. Hittills har metoden endast använts för att studera ordens statistiska fördelningsmönster över stora textmängder. Detta utgör dock endast en bråkdel av texters strukturella komplexitet. Även andra strukturella relationer i text, t.ex. mer avancerade statistiska mönster, lingvistiska strukturer som morfologi, dependensstrukturer och djupkasus, kan visa sig vara betydelsefulla för ändamålet att beräkna och representera språklig betydelse. Hypotesen är att olika textuella strukturer är betydelsebärande på olika sätt och i olika grad. Detta studium av olika textuella strukturers betydelseinnehåll underlättar vår förståelse av språklig betydelse som ett oföutsägbart och dynamiskt fenomen. Dessutom utgör representationsformen, tack vare dess flexibla och "relativistiska" karaktär, en potentiell modell av mänsklig semantisk kunskap.

Forskningen kring vektorbaserad semantisk analys syftar därför dels till att undersöka hur man kan implementera människoliknande semantisk kunskap i datorer, dels till att förstå språklig betydelse som ett emergent och strukturellt betingat fenomen. På ett mer teoretiskt plan berör forskningen själva meningsbegreppet och dess plats inom lingvistiska teorier.

1 2 3
av Magnus SahlgrenSenast ändrad 2006-02-28 10:00
Nyheter
Skype pratar franska och tyska 2015-06-25
VR söker forskningssekreterare med erfarenhet av datadriven forskning 2015-06-25
Flera svenska centrum i Swe-Clarin 2015-06-02
Doktorand- och postdoktjänster i Göteborg 2015-06-02
Lektor i språkteknologi sökes till Helsingfors universitet 2015-06-02
Fler nyheter
« December 2017 »
Ti On To Fr
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
 

Driven av Plone, Open Source Content Management System

Denna webbplats följer följande standarder: