LiLa:s labbank: Att använda stora språkmaterial i forskning och undervisning

Att använda stora språkmaterial i forskning och undervisning

Det är sedan länge ett etablerat tillvägagångssätt att använda stora språkmaterial i forskning och undervisning och med stöd av datorteknikens genombrott och snabba utveckling har många nya sätt för att både samla in, organisera och undersöka språk skapats. Inom språkvetenskapen är korpuslingvistik ett eget sådant fält med många tillämpningar och en korpus är helt enkelt en samling av språk, vanligtvis text eller skriftspråk men även talspråk eller språk som används i sociala medier. I en korpus kan språkdata märkas upp, eller annoteras, med information som kan användas för strukturerade sökningar. På så sätt kan man få reda på hur ord eller fraser används i förhållande till andra ord eller fraser och även göra sökningar om hur språkfenomen används över tid eller i jämförelser mellan olika typer av texter eller till och med mellan olika språk.

Detta är givetvis av stort intresse för språkvetare men även för andra ämnen. Genom korpusmetoder kan man ta reda på hur innehåll som begrepp, benämningar och namn eller andra innehållsliga aspekter kommer till uttryck vilket är användbart i många vetenskapliga discipliner. Idag finns en mängd insamlade och organiserade korpusar på flera språk som kan användas i forskning och undervisning. Ofta erbjuder sådana korpussamlingar sökmöjligheter genom integrerade gränssnitt och verktyg. Men med den snabba AI-utvecklingen finns också möjlighet att använda Large Language Models (LLM:s) och andra maskininlärningstekniker för att söka direkt i text- och språkmaterial.

I den här modulen finns möjlighet att göra laborationer som tar fasta på grunderna i att söka i stora språksamlingar. Vi introducerar dels laborationer som göras i etablerade korpusresurser, dels sådant som kan göras med olika AI-verktyg med stöd av egen kodning.

Om resurser

Språkbanken Text är en forskningsinfrastruktur för språkliga data och en språkteknologisk forskningsenhet. Genom Språkbanken Text finns flera stora korpussamlingar med både modernt och historiskt textmaterial samt olika verktyg för att söka i samlingarna. Det mest använda är Korp som möjliggör sökningar efter enskilda ord eller fraser med resultatinformation i form av konkordanser, statistik och mönster för användning. Genom Korp går det att söka i exempelvis urval av nyhetstexter, sociala medier eller myndighetstexter.

[länkar till Språkbanken Text, Korp och olika resurser. Länkar till utbildningsfilmer]

Sketch Engine är en onlinebaserad korpustjänst som erbjuder korpussamlingar på ett 90-tal språk där svenska och de flesta andra EU-språken ingår bland många andra. Sketch Engine erbjuder standardiserade grundverktyg för sökningar och bearbetning i alla sina korpusresurser. Det går dessutom att ladda upp eget textmaterial för bearbetning med samma verktyg vilket är en fördel.

[länkar till Sketch Engine. Länkar till utbildningsfilmer från Sketch Engine samt våra egna filmer]

[Exempel på laborationer med korpuslingvistiska grundbegrepp]

Hur ofta förekommer ord i ett textmaterial?

Att räkna ord är inte lika trivialt som det låter. Att kartlägga ords vanlighet eller ovanlighet i en samling texter kan ge viktig information om både orden och om deras kontext för språkvetare men också för forskare från andra ämnen. Likaså är sökningar på ords frekvens i en korpussamling ett sätt att få indikationer om användning över tid eller i vissa typer av texter, exempelvis för att se när ord för ett visst begrepp börjar användas eller också försvinner.

Språkbanken Text/Korp

Lära sig att orientera bland korpusar och att söka efter ett visst ord (substantiv) i grundform för att se skillnad mellan absolut och relativ frekvens. Söka på samma ord med för- och efterled för att lista sammansättningar och använda funktionen Statistik.

Sketch Engine

Använd funktionen wordlist för att se vilka ord som är vanliga i en stor korpus med svenskt material > främst stoppord.

Vilka ord förekommer ofta tillsammans?

Ord hänger ihop med andra ord för att skapa fraser, meningar och längre texter i alla språk. De förekommer dock inte slumpmässigt tillsammans utan styrs av grammatiska regelbundenheter samt även av semantiska, betydelsegrundade, mönster. Sådana mönster är relevanta att kartlägga för att kunna beskriva hur ord uttrycker värderingar eller attityder. Det kan också vara ett sätt för att beskriva återkommande fasta mönster i ordanvändning som exempelvis metaforer eller stilfigurer.

Språkbanken Text/Korp

Söka efter ett visst ord i en given korpus för att lära sig använda funktionen Ordbild. Därefter jämföra samma ord i en annan korpus. Kan göras för att illustrera skillnader över tid och mellan olika textmaterial.

Sketch Engine

Använda funktionen Word Sketch för att se hur ett visst ord används. Kan göras på svenska eller andra språk.

Använda funktionen Word Sketch Difference för att jämföra användning av två semantiskt närliggande ord.

Vilka ord är särskilt viktiga i en text eller samling av texter?

Nyckelord kan vara många saker. I ett språkteknologiskt sammanhang är nyckelord sådana ord som har högre frekvens än förväntat i en text eller samling texter. Ofta är det ord som kan förväntas, exempelvis ord som handlar om ekonomi i en budgetplanering eller i andra fackspråksbetonade texter, men inte alltid. Att undersöka statistiskt belagda i texter eller andra språkmaterial är därför en användbar metod för både språkvetare och andra forskare.

Språkbanken Text/Korp

Inget bra förslag än.

Sketch Engine

Använda funktionen Keywords för att se vilka ord som har prominens i en korpus. Överkurs är att ladda upp en egen exempeltext (som kan ingå i labben) för att se hur olika ord har olika nyckelordstyngd.

[dessutom… förslag på ytterligare resurser]

Litteraturtips om grundläggande handböcker och artiklar med exempelfall

Tips på andra externa resurser som korpussamlingar (BNC etc.), användbar programvara (AntConc etc.).

Kanske behövs en egen resursdel för LLM:s?

Senast ändrad: måndag, 2 december 2024, 11:32