Gå till innehållet. Gå till navigation

Språkteknologi.se

Personliga verktyg

Informationshantering

Dokumentåtgärder
Informationshantering omfattar informationssökning med hjälp av mänskligt språk, både lokalt i t.ex. ett register och på Internet. Hit räknas både problem som har att göra med hur frågor ställs, hur informationen lagras, hur sökning sker och hur svaren presenteras.

Informationsextraktion

(Information Extraction) är ett med informationssökning närbesläktat forskningsområde. Till skillnad från informationssökning, där svaret på en sökfråga oftast är en lista med dokument, så är svaret på en extraktionsuppgift själva de fakta eller relationer som eftersöks. Forskningsområdet har i hög grad definierats genom konferensserien MUC (Message Understanding Conferences) finansierad av Förenta Staternas statsförvaltning.

Informationsextraktion handlar om automatisk textförståelse, men förståelse bara av en mycket begränsad domän.

Ett exempel på en extraktionsuppgift skulle kunna vara det följande.

Ta fram all information om alla förändringar på högre poster inom företag.

Följande information är relevant:

  • Vilken post gäller det?
  • Vilket är företaget?
  • Vilka personer är inblandade?
  • Har personen tillträtt eller lämnat posten?
  • Av vilken anledning?
  • Från eller till vilket företag och vilken post flyttar personen?

En ganska oproblematisk text som uttrycker den här sortens information skulle kunna lyda:

Gudrun Strävling, 42, utsågs igår till ny styrelseordförande i Eckym Ropos Inc. Hon efterträds på posten som VD i Assam Pärks AB av Pär Nilefjärs, tidigare chef för affärsområdet bromsklossar.

Målet för extraktionen är att hitta denna information och göra den entydig i något format, t.ex. i tabulerad form, för vidare bearbetning:

Händelse_1
Post: styrelseordförande
Företag: Eckym Ropos Inc.
Börjar_jobb:
Person: Gudrun Strävling
Från_jobb: Händelse_2:Post
Lämnar_jobb: ?
Händelse_2
Post: VD
Företag: Assam Pärks AB
Börjar_jobb:
Person: Pär Nilefjärs
Från_jobb: Händelse_3:Post
Lämnar_jobb: Händelse_1:Börjar_jobb:Person
Händelse_3
Post: chef för affärsområdet bromsklossar
Företag: Händelse_2:Företag
Börjar_jobb: ?
Lämnar_jobb: Händelse_2:Börjar_jobb:Person

Problem

Det faktum att språk är så rikt på variation och flertydigt gör att uppgiften inte på något sätt är trivial; en och samma sak kan uttryckas på ett oförutsägbart antal olika sätt. Det dominerande sättet att lösa uppgiften på är att steg för steg generalisera texten till en nivå på vilken man kan formulera generella mönster för det som eftersöks. För att klara av denna uppgift används en rad olika tekniker.

Igenkänning och kategorisering av namn

Ofta handlar extraktionsuppgiften om att hitta relationer mellan olika personer, organisationer, platser och artefakter och således är ofta namn inblandade. Ett system måste kunna identifiera dessa namn och kunna kategorisera dem efter typ. Både kunskapsbaser, mönstermatchningsmetoder och maskininlärningsmetoder har använts för att lösa detta problem och med sådana metoder uppnår man idag resultat som är i nivå med mänsklig förmåga. Liknande problemområden är igenkänning och klassificering av tidsuttryck, valutauttryck och andra numeriska uttryck. I det ovanstående exemplet är det nödvändigt att rätt kunna identifiera och klassificera namnen på personerna och företagen.

Taggning och parsning

För att kunna generalisera texten och identifiera nominalfraser och verbfraser samt deras huvudord krävs förmodligen åtminstone någon ordklasstaggning och något slags ytlig parsning av texten. Efter det här steget kan texten förenklat ha reducerats till:

  • PERSON UTSES till POST i FÖRETAG. PERSON EFTERTRÄDAS på POST i FÖRETAG av PERSON.

Av de generaliserade delarna skapas någon struktur i vilken deras ytform och inre struktur med modifierare bevaras.

Transformationer

När man kommit till en sådan nivå så kan man skriva generella mönster som kan stämmas mot den abstraherade texten i exemplet. Ännu bättre blir det om man automatiskt genomför transformationer av mönstren så att det även täcker både aktiva och passiva satser samt olika typer av bisatser:

  • NÅGOT UTSER PERSON till POST
  • PERSON, UTSEDD till POST
  • PERSON, som NÅGOT UTSETT till POST
  • PERSON, som UTSETTS till POST etc...

Referenslösning

I exemplet krävs det någon sorts anafortolkning för att systemet ska förstå att 'Hon' och Gudrun pekar på samma referent. Referenslösningen är delvis oberoende av den specifika uppgiftens natur.

Semantiska hierarkier, domänspecifika semantiska typologier

Något slags semantiska hierarkier kan användas för att i mönstren hänvisa till grupper av verb eller semantiskt besläktade entiteter. Hierarkin måste förmodligen vara domänspecifik och anpassas till den aktuella extraktionsuppgiften.

Inferenser

Det krävs uppgiftsspecifika regler för inferenser som kan dras ur texten. I exemplet ovan innebär till exempel 'att efterträdas av någon' också att man har lämnat en post, vilket man även har gjort om man är 'tidigare chef'.

Diskursanalys och koreferens

Ett system måste kunna hantera det faktum att en och samma händelse kan omtalas i olika delar av en text och sammanvävas med andra händelser. Ovan meningsnivå måste, utöver anafortolkning, även relationer mellan olika textdelar redas upp.

av Kristofer FranzénSenast ändrad 2005-11-16 02:48

Driven av Plone, Open Source Content Management System

Denna webbplats följer följande standarder: