Welcome to Delicate template
Header
Just another WordPress site
Header

Praktik på CLASP

december 6th, 2023 | Posted by Ott in Okategoriserade

5/12

Praktik arbete inom området för datalingvistik och språkteknologi. Praktikplatsen på CLASP vid den humanistiska fakulteten, ingår en del olika arbeten och uppgifter vars syfte är att genomföra språkvetenskapliga analyser, identifiera och notera datanmängder. Detta arbete kallas för annotation. CLASP (the center for linguistic theory and studies in probability) är centrum för språkteori och sannolikhetstudier med fokus på forskning kring tillämpning av probabilistiska  och informationsteoretiska metoder för analys av naturligt språk. Forskning och arbete sker på engelska språket i verksamheten och består av en multi kulturell och multispråklig forskare och medarbetare.

Mitt arbete sker främst självständigt där jag får en längre uppgift av handledaren och arbetar med den. Uppgifterna består av teoretiska delar där det är viktigt att läsa på kring forskningen och metoden samt instruktioner om vad man är ute efter. Det finns en del olika forskningsgrupper med olika projekter här på FloV, där alla är en del av CLASP och arbetar med huvudämnet ”machine learning”

Jag vill även tillägga det, att all arbete och analys sker på engelska och utgår ifrån den engelska språken i forskningssyfte. Därmed kan det förekomma att jag i bloggen refererar till grammatiska och språkliga begrepp på den engelska språket, eftersom det var blivit en sådan vana att arbeta och kommunicera på engelska här på CLASP.

Det är en väldigt modern och intressant område där lingvistik och språk kombineras med teknologi och analytiska förmågor. Jag har arbetat med främst två stora uppdrag varav den första handlade om att identifiera gemensamma referenser (coreference resolution) hos en dataset som kombinerar bilder och texter. Datan utgår alltså ifrån att tolka av bilder och kombinera det med texter. Arbetet kräver att programmera texterna i någon typ av programmeringssystem och notera dess gemensamma referenser i form av ”mentions”

Det man letar efter i detta arbete är ”subjects and objects” i en mening, där ingår indifinite noun phrases, Definite Noun phrases, pronouns / Demonstrative pronouns and names. Kodningen innebär identifiering av syntactic constituents in the original text. Check correct and incorrect outputs as (positive + or negative -), check if there are unidetinfied mentions.

Det är är ett exempel på arbetet som genomfördes för projektet ”coreference resolution”

Det var faktisk svårt att förstå och komma igång i början så, mycket tid ägnades åt att samtala med handledaren, skifta fram och tillbaka till den teoretiska hjälpmedel boken (Speech and Language Processing, An introduction to natural language Processing, Computational linguistics, and speech recognition) samt dubbelchecka och korrigera den genomförda annotation flera gånger för att sedan låta den bearbetas igen av coreference systemet.

Den gemensamt grunden för arbetet inom forskningen kring Machine learning är, oavsett vilken del av datalingvistik som projketet syftar på, handlar det om att kunna få datorn lära sig datan, förstå samt beaterbeta mönstern. Då genomför man tester av hur det går att identifiera språkliga fenomen genom datan för att ta reda på om den fungerar på samma sätt som mänskligheten gör eller är det ens möjlig att uppnå den nivån av intellektuell AI?

Jag kommer senare under veckan att beskriva den andra uppdraget som jag har haft och gå mer på djupet om varför den projektet genomförs. Personligen är den mer intressant för mig eftersom jag är en språkentusiast och metaphor identification lärde mig inse många saker kring språket vi använder.

/SN

You can follow any responses to this entry through the RSS 2.0 You can leave a response, or trackback.

Leave a Reply

E-postadressen publiceras inte. Obligatoriska fält är märkta *