Gå till innehållet. Gå till navigation

Språkteknologi.se

Personliga verktyg

Informationshantering

Dokumentåtgärder
Informationshantering omfattar informationssökning med hjälp av mänskligt språk, både lokalt i t.ex. ett register och på Internet. Hit räknas både problem som har att göra med hur frågor ställs, hur informationen lagras, hur sökning sker och hur svaren presenteras.

Informationssökning

Främst bland tekniker och källan till de flesta kända tillämpningar i branschen är probabilistisk informationsökning - forskningsfältet bakom dagens sökmotorer.

Informationsökningsalgoritmer grundar sig på att ord i text är lätta att identifiera och räkna. De första någorlunda systematiska formella ansatserna att använda ordstatistik publicerades på sena femtitalet av pionjärern Hans-Peter Luhn. Tanken är att ord som har rimlig förekomststatistik är mest informativa i en text: de vanligaste orden i en text är inte innehållsbärande ("och", "att", "det" "är") och de ovanliga mest slumpmässiga förekomster eller brus.

Termfrekvenser - tf

Detta bygger de flesta idag använda informationssökningssystem på. Ord som förekommer i en text viktas efter antalet förekomster. Detta viktningsmått brukar fantasifullt nog kallas för tf efter termfrekvens. För denna text blir en sådan tabell:

     19 att
16 i
15 är
14 och
11 som
11 en
10 på
10 ord
10 för
...

Stopplistor

De första orden är inte så användbara. En lista på orden i fallande frekvensordning ger en ganska god bild av textens innehåll, men bara om språkets vanligaste ord filtrerats bort. Vi konstruerar en sådan lista, en stopplista, genom att lägga in alla hjälpverb och konjunktioner, prepositioner, pronomen och andra slutna ordklasser. Om de orden tar bort ur den här textens tabell får vi den nya tabellen:

     10 ord
7 text
6 dokument
5 orden
5 förekommer
3 tf
3 speciellt
3 lista
3 algoritmerna
...

och den ger onekligen en del vinkar om vad denna text handlar om.

Termers särskiljningsförmåga - idf

Att konstruera en stopplista kan vara arbetskrävande och hur man än gör riskerar resultatet bli alltför anpassat till någon viss textmängd och alltför ad-hoc. Ett sätt att automatiskt ordna termer eller ord efter sin särskiljningsförmåga är att räkna hur många dokument de förekommer i. Ett ord som förekommer i nästan alla dokument är mindre speciellt än ett som bara förekommer i ett par. Det går att konstruera ett enkelt mått baserat på den observationen genom att invertera mängden dokument ordet förekommer i. Då får ord som "och" och "är" låg vikt och ord som "osteoporos" hög vikt i en generell samling dokument. Och om alla texter i samlingen handlar om benskörhet kommer "osteoporos" får låg vikt - för då förekommer ordet i nästan alla dokument. Måttet kallas för idf efter inverse document frequency och brukar vägas ihop med tf - kombinationen brukar kallas för tf.idf.

Relevansåterkoppling

Relevansåterkoppling eller relevance feedback är en teknik som grundar sig på att användaren bedömer dokument som först levereras som svar på sökfrågan och bockar för några speciellt bra eller speciellt dåliga. Orden i de förbockade dokumenten kan sedan användas för att förbättra sökfrågan.

Svaga sidor

Algoritmerna ovan är behagligt enkla att sätta sig in i och triviala att implementera - resultatet för ett system baserat på dem blir pålitligt, begripligt och mediokert. Det finns flera svaga sidor som är inbyggda i algoritmerna - och vi tar upp flera av dem under diskussionen om flerspråkighet, men i korthet är problemet den att algoritmerna bygger på antagandet att enkla ord är bra innehållsmarkörer i text.

I själva verket är enkla ord både för grova och för finkorniga. Dels kan ord vara flertydiga, så att ett sökord hämtar dokument som visar sig vara irrelevanta: en sökning efter "bank" hittar både vägbanker och finansiella institut; dels har ord ofta synonymer så att ett sökord inte hämtar alla relevanta dokument: en sökning på "bil" hittar inte automobiler, fordon, bussar, kärror eller droskor, fast de skulle kunna vara relevanta.

De algoritmer som skisserats ovan tar inte heller hänsyn till ordens relation till omgivande ord och till hela texten: ords betydelse varierar med kontexten på ett sätt som inte går att modellera utan djupare förståelse för texten och språket. Ett ord kan förekomma ofta i en text utan att vara viktigt för texten; ett ord kan förekomma ett fåtal gånger och ändå vara centralt. För att kunna göra den sortens distinktioner krävs omfattande språklig analys - något som bara de senaste åren börjat bli möjlig.

av Jussi KarlgrenSenast ändrad 2006-02-23 16:39

Driven av Plone, Open Source Content Management System

Denna webbplats följer följande standarder: