Gå till innehållet. Gå till navigation

Språkteknologi.se

Personliga verktyg
Du är här: Förstasidan Mer om olika teknik- och tillämpningsområden Lexikon och datasamlingar Datorläsbara lexikon och ordböcker

Lexikon och datasamlingar

Dokumentåtgärder
Lexikon och datasamlingar omfattar både ordböcker och uppslagsverk, såväl på svenska som tvåspråkiga och enspråkiga lexikon på andra språk. Hit räknar vi även s.k. korpusar, samlingar av texter där de olika orden bestämts till funktion och innehåll.

Datorläsbara lexikon och ordböcker

Ordböcker ger information om språket och uppslagsverk (encyklopedier) ger information om världen. Båda typerna kan kallas lexikon.

Lexikon är en viktig resurs både för människor och för språkteknologiska tillämpningar, men människor och program ställer väldigt olika krav på hur lexikonen ska vara uppbyggda. Människor noterar förmodligen inte ens inkonsekvenser i ett lexikon (till exempel något så enkelt som att substantiv noteras med "subs." ibland och med "subst." ibland) men det kan ha en avgörande betydelse för hur program ska kunna utnyttja lexikonet. Se nedan om lagring av lexikon.

Information i lexikon

Det finns många olika typer av lexikon. I språkteknologin är ordböcker mer intressanta än uppslagsverk. Även ordböcker kan innehålla helt olika typer av information. Den allra enklaste ordboken är en ren ordlista. Mer informativa ordböcker kan bland annat tillföra följande extra information om varje ord:

  • stavningsvarianter
  • betydelse (man brukar skilja på definitioner och förklaringar)
  • illustration (bild eller animation som visar ordets betydelse)
  • ämnesområde
  • stilnivå, bruk, vanlighet i språket
  • synonymer, antonymer (motsatsord) och andra typer av semantiskt relaterade ord, till exempel hypernymer (generalisering, fordon är till exempel en hypernym till cykel)
  • etymologi (ursprung)
  • ordklass, genus etc., böjningsmönster som ordet tillhör
  • lemma och böjningsformer, förledsform i sammansättningar
  • sammansättningsgränser, avstavning
  • konstruktionsmönster, det vill säga hur ordet används tillsammans med andra ord
  • uttal (fonetisk skrift eller inspelning)
  • avledningar och sammansättningar som bygger på ordet
  • idiom (fasta fraser) som innehåller ordet
  • exempel på hur ordet används i olika sammanhang
  • översättning (i flerspråkiga lexikon).


Olika typer av lexikon med exempel

Inget lexikon innehåller all information ovan, utan lexikon brukar vara specialiserade. Här är ett par exempel på viktiga typer av lexikon.
Svenska ordböcker
SAOL, Svenska akademiens ordlista, innehåller alltid viss uttalsinformation, ordklass, böjningsformer, avledningar och sammansättningar. Ibland förekommer stavningsvarianter, förklaringar, stil, bruk och exempel.
SAOB, Svenska akademiens ordbok, är den informationsrikaste svenska ordboken. Den innehåller nästan all information ovan som kan representeras som text utom översättningar och illustrationer. Informationen är dock mycket svårtolkad för ett program.
Wiktionary, en ordbok som byggs i samarbete mellan alla intresserade Internetanvändare, innehåller olika mycket information om olika ord.
Flerspråkiga lexikon
Lexin är samlingsnamnet på ett drygt dussin flerspråkiga lexikon mellan svenska och olika invandrarspråk. Uttal (fonetisk skrift och ljud), förklaringar, bild, ordklass, böjningsformer, konstruktionsmönster, sammansättningar, avledningar, idiom, exempel och översättningar finns i allmänhet med i Lexin.
Termlistor
TNC Terminologicentrum har utvecklat mängder av termlistor, det vill säga ofta flerspråkiga listor över termer inom ett ämnesområde, ibland med definitioner eller förklaringar.
Datatermlistan är ett exempel på en termlista för dataspråket som är under ständig utveckling av Datatermgruppen.
Synonymlexikon
Folkets synonymlexikon är ett fritt tillgängligt synonymlexikon för svenska språket. Det skapades och utvecklas alltjämt av folket, det vill säga vem som helst som vill hjälpa till.
Ordnät
Wordnet beskriver många olika semantiska relationer mellan engelska ord.
Uppslagsverk
Nationalencyklopedin, det mest kända moderna svenska uppslagsverket.
Wikipedia är ett uppslagsverk som skapas av Internetanvändare på samma sätt som Wiktionary.

Sökning i lexikon och lagring av lexikon

I ett lexikon i bokform är användaren begränsad till alfabetisk uppslagning av själva uppslagsorden. Lexikon på datorn går ofta att söka i på betydligt mer sofistikerade sätt, till exempel sökning efter ord och fraser som förekommer i något informationsfält, ungefärlig sökning (så att felstavningar tillåts) eller sökning efter alla ord som passar ett visst mönster (med trunkeringstecken e.d.).

Det finns lexikonprogram som kan installeras på den egna datorn. Dessa kostar ofta en hel del pengar. Det finns flera gratislexikon på webben, men dessa är oftast bara tillgängliga on-line, på så sätt att användaren kan göra en sökning på webben och få se en webbsida med svaret, ett utdrag ur lexikonet. Några lexikon går att ladda hem gratis, ibland med ett tillhörande lexikonprogram, ibland bara som en databas.

Språkteknologiska tillämpningar behöver oftast lexikon lagrade som en databas, så att de snabbt kan göra många sökningar. Det finns också tillämpningar som slår upp i lexikon över Internet, ofta med särskilda tillämpningsprogramgränssnitt, till exempel med s.k. web services.

Det finns ett av många accepterat lagringsformat för datorlexikon. Det bygger på det generella uppmärkningsspråket XML och heter TEI, Text Encoding Initiative XML dictionary tag set. Detta lagringsformat är dock mycket innehållsrikt och ger möjlighet att lagra samma information på många olika sätt. Det är egentligen avsett för lexikon som ska tryckas. Om det ska användas framgångsrikt även för lexikon för språkteknologiska tillämpningar så måste det specificeras ytterligare. Ett försök till det har gjorts i det nordiska samarbetsprojektet Nordisk nätordbok.

Konstruktion av lexikon

Med lexikografi avser man det traditionella hantverket för lexikonkonstruktion, då en eller flera lexikografer sätter ihop ett lexikon för hand. Det är mycket arbetsintensivt och kostar därmed stora summor pengar.

Därför har det utvecklats olika metoder för automatiserad framtagning av lexikon. Ofta gör man då statistisk analys av korpusar för att extrahera den information som man ska ha med i lexikonet. För flerspråkiga lexikon använder man gärna parallellkorpusar, korpusar där samma text finns på flera språk. Man kan också använda andra flerspråkiga lexikon (för att bygga ett svenskt-japanskt lexikon kan man till exempel utgå från ett svensk-engelskt och ett engelsk-japanskt lexikon). Alla statistiska metoder genererar fel, så någon typ av kontroll, automatisk eller manuell eller båda två, behövs i allmänhet för att det producerade lexikonet ska vara användbart.

Ett tredje sätt att bygga lexikon på är genom samarbete mellan riktigt många personer. Webblexikonen Wikipedia och Wiktionary får vem som helst utöka med ny information. Folkets synonymlexikon har byggts genom att en statistisk metod föreslår en massa synonympar och Internetanvändare får avgöra om förslagen är bra eller dåliga synonymer.

Språkteknologiska tillämpningar

Några exempel på språkteknologiska tillämpningar där lexikon är viktiga är
  • maskinöversättning
  • stavningskontroll och grammatikgranskning
  • informationssökning.
av Viggo KannSenast ändrad 2006-03-07 13:20
Nyheter
Skype pratar franska och tyska 2015-06-25
VR söker forskningssekreterare med erfarenhet av datadriven forskning 2015-06-25
Flera svenska centrum i Swe-Clarin 2015-06-02
Doktorand- och postdoktjänster i Göteborg 2015-06-02
Lektor i språkteknologi sökes till Helsingfors universitet 2015-06-02
Fler nyheter
« December 2017 »
Ti On To Fr
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
 

Driven av Plone, Open Source Content Management System

Denna webbplats följer följande standarder: