Specialepris
30.10.2024
af
Freja Lillevang Sørensen
Foto: Kasper Løjtved/Djøf
Tre af årets vindere af Djøfs specialepris har med et opfindsomt eksperiment undersøgt, om AI kan gøre karaktergivning mere konsistent. Resultatet er markant.
Har du også siddet med følelsen af at have brugt hele juleferien på en eksamensopgave, der så ikke fik den karakter, den fortjente? Så er din oplevelse næppe unik. De seneste år har undersøgelser vist, at identiske eksamensopgaver bedømmes vidt forskelligt, afhængigt af censorøjnene der ser.
Det fænomen ønskede tre studerende ved Politik og Administration på Aalborg Universitet at gøre op med, da de skrev det speciale, der netop er blevet kåret som en af de tre vindere af Djøfs Specialepris 2024.
Anne Balsby Roersen, der på kandidaten har læst specialiseringen Social Data Science, og Line Højris Revsbech og Maria Laursen, der begge har læst specialiseringen Ledelse & Forvaltning, besluttede i oktober sidste år, at de gerne ville skrive deres afsluttende opgave sammen – og emnet havde to af dem allerede været i berøring med tidligere.
”Fra Aalborg Universitet er vi vant til at arbejde sammen om projekter på hvert semester. Anne og jeg havde allerede skrevet vores bachelor sammen, og Line og jeg havde arbejdet sammen gennem hele kandidaten,” fortæller Maria Laursen.
Den bacheloropgave, Anne Balsby Roersen og Maria Laursen skrev i fællesskab, kredsede også om variansen i karaktergivning. Her fik de 51 dansklærere i folkeskolen til at bedømme den samme opgave – og de resultater, de fik, talte deres eget tydelige sprog: Den samme danskopgave blev nemlig vurderet til alt mellem karakteren 02 og karakteren 12. Bachelorprojektet gav de to blod på tanden til at undersøge emnet yderligere, fortæller Maria Laursen:
”Alle kan relatere til uretfærdigheden i, at éns opgave kan få så forskellige karakterer, afhængigt af hvilken lærer man har. Det handler jo ikke om, at de lærere, der sidder og bedømmer, ikke er kompetente. Det handler bare om, at de skal have nogle flere redskaber.”
Redskaber, der ifølge de tre studerende måske kan komme fra en sprogmodel.Ledige stillinger
I specialeprojektet satte Anne Balsby Roersen, Line Højris Revsbech og Maria Laursen sig for at undersøge såkaldt ”støj” i karaktergivningen. Altså fejl, der opstår tilfældigt og usystematisk, i modsætning til bias.
Gruppens eksperiment blev lavet med 93 dansklærere fra folkeskolen. Som første step skulle lærerne vurdere danskopgaven og give den en karakter, hvorefter de blev præsenteret for en LL-models (Large Language Model) vurdering af samme opgave.
Derfra fik halvdelen af dansklærerne at vide, at det var en lærer, der havde været medbedømmer på opgaven, mens den anden gruppe fik at vide, at det var en LL-model. Til sidst skulle lærerne give opgaven en endelig karakter, hvor de kunne vælge at bruge medbedømmerens vurdering.
”Vi delte det sådan op, for ifølge vores teori har folk mindre tillid til AI end et andet menneskes bedømmelse. Og det viste sig også, at selvom der var tale om præcis samme bedømmelse, var der mindre tillid til LL-modellens bedømmelse end en menneskelig medbedømmers,” fortæller Anne Balsby Roersen.
I sidste ende havde det dog ikke betydning for den endelige karaktergivning. Eksperimentet viste nemlig, at støjniveauet faldt betydeligt for begge grupper, når lærerne skulle bedømme opgaven efter at have set medbedømmerens karaktergivning og begrundelse: Variansen – det vil sige spredningen i de karakterer, lærerne gav for den samme opgave – faldt nemlig med 37% fra dansklærernes første vurdering til deres anden og endelige vurdering.
”Vi var overraskede over, hvor meget støj der igen viste sig at være i karaktergivningen; samme opgave fik mellem 4 og 12 i samlet karakter,” fortæller Maria Laursen.
Det var ikke tilfældigt, at Anne Balsby Roersen, Line Højris Revsbech og Maria Laursen valgte at undersøge karaktergivningen i netop folkeskolen. I deres øjne er der nemlig et paradoks i, at folkeskolens afgangseksamen i stigende grad har betydning for elevernes mulighed for at komme på gymnasiet – og at der samtidig kun er afsat én lærer til at bedømme elevernes skriftlige eksamensopgaver.
Med regeringens planer om at oprette en ny uddannelse kaldet epx er emnet potentielt endnu mere aktuelt. Ambitionen med epx-uddannelsen er nemlig at give 11.500 flere unge mulighed for at gå på et gymnasium – men samtidig vil adgangskravet til de øvrige treårige gymnasier blive skærpet.
”Når karaktererne i folkeskolen betyder mere og mere, og vi samtidig sparer på de beslutningsprocesser, der er i og omkring aktørerne i folkeskolen, må man begynde at se på måder at løse udfordringerne på,” siger Anne Balsby Roersen.
Anne Balsby Roersen, Line Højris Revsbech og Maria Laursen er ikke i tvivl om, at deres speciale er kommet så langt, fordi de har arbejdet sammen. Kombinationen af kompetencer var i deres øjne et drømmescenarie, fordi de kunne bringe fagligheder i spil på både det tekniske og forvaltningsmæssige område.
Når Maria Laursen ser tilbage på sit specialesemester, kan hun slet ikke forestille sig at have skrevet speciale alene.
”Line er superstærk på teori, Anne på det metodiske, mens jeg kan bidrage med noget helt tredje. Det har givet en stærk synergieffekt,” fortæller hun. Line Højris Revsbech nikker og supplerer:
”Vores faglige forskelligheder har også betydet, at vi har lært af hinanden på tværs og kunnet belyse emnet fra flere forskellige vinkler. Det har været afgørende for vores arbejdsproces, at vi har kunnet stole på og hvile i hinandens styrker på den måde.”
I sin begrundelse for at tildele de tre kandidater fra Aalborg specialeprisen skrev juryen bl.a.:
“Specialet er kendetegnet ved en stor grad af mod i sit emnevalg, metode og udformning.
Vi i juryen var imponeret over den innovative tilgang i metoden og hvordan specialet sætter fokus på støj i karaktergivning, et emne der er yderst relevant for alle, der er i berøring med uddannelsessystemet.
Specialet er velskrevet, logisk opbygget og underbygger med høj faglighed sine pointer, så man som læser rives med af det modige eksperiment, som er specialets omdrejningspunkt.
En så høj grad af mod, faglighed og relevans kan kun belønnes med en speciale-pris.”