Gå till innehållet. Gå till navigation

Språkteknologi.se

Personliga verktyg

Informationshantering

Dokumentåtgärder
Informationshantering omfattar informationssökning med hjälp av mänskligt språk, både lokalt i t.ex. ett register och på Internet. Hit räknas både problem som har att göra med hur frågor ställs, hur informationen lagras, hur sökning sker och hur svaren presenteras.

Historik

Att hitta information i en samling dokument kan vara knivigt. Bokhyllor och andra samlingar brukar vara ordnade efter någon lättbegriplig princip: bokstavsordning efter författare eller titel, eller färg på bokryggen, till exempel. Men om flera användare använder en samling eller om den är för stor för läsaren att ha överblick måste den vara organiserad så att det med någon metod går att hitta dokument, både redan kända sådana och nya.

Traditionella bibliotek brukar ha dokumenten i hyllor efter några få grovt tillyxade kategorier - men hur väl valt ett sorteringskriterium än är kommer det inte att räcka för alla informationsbehov. Ofta behövs någon annan slags ordning, och de flesta bibliotek har också index över sina böcker, ordnade på flera sätt. Förutom författarindex och titelindex brukar det finnas ämnesordindex, som ger en finkornigare klassifikation av dokumenten än de vanliga bibliotekskategorierna. Index skrevs ursprungligen på kort - och här har informationsteknologin tidigt kommit till användning, för kortindex begränsas naturligtvis av att de är besvärliga att underhålla på papper.

Med datorer behöver inte ämnesordindex begränsa sig till några få förvalda kategorier. Orden som används som dokumentetiketter kan hämtas ur en större fördefinierad samling nyckelord eller från dokumenttitlar, ur sammanfattningar, och på senare tid, efter att minne blivit billigt, ur själva dokumenttexten - det som kallas för fulltextsökning eller fritextsökning.

När dokumenten representeras av en liten mängd nyckelord är söksystemets uppgift ganska tydlig: om någon söker efter ett visst ord levereras alla dokument med det ordet och inga andra, osorterat. Sökord kan kombineras för att skapa mer komplexa sökvillkor som

("grafisk" ELLER "visuell") OCH "programmering" OCH "utbildning"

som ger en väldefinierad träffbild på en nyckelordsbaserad databas. Söksystem som grundar sig på den här sortens mängdlärebaserade resonemang brukar kallas för Booleska, och sätts i motsatsställning till sannolikhetsbaserade eller probabilistiska system som tar hänsyn till ords förekomststatistik i text.

Bibliotekssystem som ju ursprungligen grundar sig på kortindex och inte på fulltextsökning brukar än idag vara Booleska; de flesta system för sökning på WWW är baserade på sökning i hela texter, och brukar vara probabilistiska.

av Jussi KarlgrenSenast ändrad 2005-11-16 02:42

Driven av Plone, Open Source Content Management System

Denna webbplats följer följande standarder: