Gå till innehållet. Gå till navigation

Språkteknologi.se

Personliga verktyg
Du är här: Förstasidan Mer om olika teknik- och tillämpningsområden Informationshantering Automatisk nyckelordsindexering

Informationshantering

Dokumentåtgärder
Informationshantering omfattar informationssökning med hjälp av mänskligt språk, både lokalt i t.ex. ett register och på Internet. Hit räknas både problem som har att göra med hur frågor ställs, hur informationen lagras, hur sökning sker och hur svaren presenteras.

Automatisk nyckelordsindexering

Det övergripande målet med forskning inom informationssökning är att göra digital information åtkomlig och framförallt att hjälpa användare att hitta de dokument som är de mest relevanta för deras informationsbehov. Sedan datorernas intåg görs texter oftast sökbara genom att ett index automatiskt skapas över dessa. Detta index bygger på ordförekomsterna i de dokument som finns i den samling man vill ha tillgång till. Varje ords frekvens beräknas, dels i själva texten (termfrekvens), dels relativt hela dokumentsamlingen (inverterad termfrekvens) – ett ord som förekommer i många dokument är inte lika urskiljande som ett som förekommer i färre dokument. Ett vanligt sätt att sammanföra olika förekomster av samma begrepp är trunkering, där ordet kortas för att inte variationen av ändelser ska leda till att ordformerna tolkas som olika termer. Till exempel kan "bilar", "bilism" och "bil" representeras som "bil*", där stjärnan står för något ordslut, vilket som helst. Vid sökning anger användaren ett eller flera ord som speglar sökbehovet. Dessa matchas sedan mot de indexerade texterna, och en lista med förmodat relevanta dokument presenteras för användaren.

Ord som förekommer i en text är dock inte nödvändigtvis den bästa representationen, då ett ord kan ha flera betydelser och samma begrepp kan uttryckas med olika termer. I många fall kan en bättre representation (ur en användares perspektiv, vars mål är att hitta relevanta dokument) vara att ett litet antal nyckelord anges för varje dokument, vilka alltså beskriver vad dokumentet handlar om. På så sätt riskerar man till exempel inte att ord som nämns förbigående i texten leder sökningen fel, utan nyckelorden speglar enbart det ämne eller ämnen som faktiskt behandlas. Nyckelorden kan också visas upp för en användare och då fungera som en kompakt sammanfattning av en text. I detta fall är det viktigt att termerna är begripliga, och en trunkerad term som t.ex. "äppl" är då inte tillfredsställande.

Innan det fanns datorer som kunde lagra och genomföra de ovan beskrivna beräkningarna på stora mängder data var just nyckelordsindexering det vanligaste sättet att representera texter på. Detta gjordes – och görs fortfarande i viss utsträckning – av professionella indexerare. Den stora mängden av alla texter saknar dock manuellt satta nyckelord, och att indexera dessa för hand är varken praktiskt eller ekonomiskt möjligt. Det kan därför vara önskvärt att låta automatisera nyckelordsindexeringen.

Vilka ord som är de bästa nyckelorden för en text kan inte bedömas objektivt, utan detta varierar från användare till användare och från uppgift till uppgift. Inte ens professionella indexerare är konsekventa, då de termer som föredras varierar indexerare emellan och även mellan olika indexeringstillfällen. Hur lämpliga nyckelordskandidater ser ut går inte heller att definiera enhälligt, och detta är dessutom språkspecifikt. Generellt kan dock sägas att nomen är starka kandidater. För engelska tycks nominalfraser bestående av minst två ord vara ett bra alternativ, där frasen kan bestå antingen av flera nomen alternativt av nomen tillsammans med adjektiv eller determinerare. För svenska skulle dock alltför många kandidater filtreras bort om man enbart tog hänsyn till flerordingar. Detta eftersom svenskan har gott om sammansatta ord. Antalet förekomster av de enskilda termerna kan också vara signifikant, men en texts längd är dock avgörande för hur intressant termfrekvensen är i sammanhanget.

Nyckelord kan vara ord som förekommer i texten, de kan begränsas till ord i en tesaurus (en domänspecifik begreppshierarki) eller till en uppsättning termer specificerade av en användare. I de fall då ord väljs direkt ur texten är det fråga om nyckelordsextraktion. I annat fall så härleds nyckelorden. Härledning kan i sin tur ske på olika plan. Till exempel kan singularisformen anges, även om enbart pluralformen för ett visst ord förekommer i texten. Härledning kan uppnås genom automatisk lingvistiskt analys. Denna kan också utgöra grunden för att hitta de ordklasser som är av intresse, samt för att hitta presentabla former på nyckelorden. En mer sofistikerad form av härledning är att ange en mer generell term för ett antal termförekomster (till exempel bollsport istället för tennis, fotboll och brännboll). För detta krävs någon form av tesaurus. Härledningar av olika typer kan också kombineras.

Att automatisera nyckelordsindexering är en stor utmaning, särskilt som det inte finns några klara rätt eller fel. Att nyckelord kan vara till hjälp för användare av söksystem är dock motivation nog för att söka automatisera nyckelordstilldelning, med målet att få ett resultat som liknar en profesionell indexerares.

av Anette HulthSenast ändrad 2005-11-16 02:51

Driven av Plone, Open Source Content Management System

Denna webbplats följer följande standarder: