Mener NM-regler ikke ble fulgt: – Sykt skuffet
En person anklager vinnerlaget i NM i KI for å hardkode i en agent-oppgave. Arrrangøren avviser juks. – Standardpraksis og ikke i strid med reglene.
Forrige uke ble NM i KI arrangert for første gang for alle, med Oljefond-sjefen som hovedtaler.
Vinnerduoen fikk hele 500.000 kroner, da de vant både førsteplass og U23-kategorien.
I etterkant har arrangøren motatt en klage fra en av deltakerne på hvordan vinnerlaget løste en av oppgavene.
– Jeg mener det er kritikkverdig at arrangøren ikke har catchet dette, sier Mathias Sandnes, som sendte inn klagen, til kode24.
– Juryens vurdering er at dette ikke er juks, sier arrangør Erik Nymo Bohne i Astar Consulting til kode24.
Dette er anklagen
Oppgaven var å lage en regnskapsagent som bruker API-et til Tripletex for å utføre oppgaver som å lage ordre, fakturere og lage årsoppgjør.
Men klageren mener vinnerne bommet:
– De har løst Tripletex-oppgaven med 30 delvis hardkodede skills for Claude Code, altså ikke bygd en generaliserende agent, sier Sandnes til kode24.
Han viser til vinnerlagets kodelager på github der det ligger 30 SKILL.md-filer.
– Koden deres er full av hardkodet informasjon, rekkefølge på logiske steg og quirks, spesifikke for akkurat disse 30 oppgavene, sier han.
Dette mener han bryter NM-regelen om å ikke bruke «hardkodet eller forhåndsberegnede svar som ikke reflekterer genuine modellegenskaper».
Ønsker ærlig resultat
Videre mener han å lese av vinnernes dokumentasjon at de bruker «score reverse-engineering» for å finne mønster i hvordan hver oppgave vurderes.
– De bygger i konsekvens et system som ikke kan løse nye, usette regnskapsoppgaver, mener Sandnes.
– Jeg mener ikke «senke» noen her. Jeg vil bare at resultatet skal være så ærlig som mulig. Men vinnerlaget har brutt reglene for konkurransen og arrangøren har ikke klart å plukke det opp, sier han.
– Ikke juks
Arrangøren postet selv om behandlingen av klagen på Slack-en til NM i KI fredag formiddag.
De bekrefter overfor kode24 at de har mottatt en formell klage og at denne er behandlet av en jury opp mot regelverket.
– Juryens vurdering er at dette ikke er juks, skriver Erik Nymo Bohne i Astar Consulting til kode24.
– Dette er prompt engineering
Han peker på at den aktuelle regelen forbyr ferdigberegnede svar på spesifikke testoppgaver.
– Teamets instruksjonsfiler beskriver hvordan man løser en type oppgave, ikke hva svaret på en bestemt oppgave er. KI-modellen leser instruksjonene og løser hver oppgave selv i sanntid, fortsetter han, og konkluderer:
– Å gi en KI-agent detaljerte instruksjoner eller skills er standardpraksis og ikke i strid med reglene sier Bohne.
På Slack skriver han at «dette er prompt engineering, ikke hardkodede svar».
– Normal konkurransepraksis
Juryen har også behandlet anklagen om «score reverse-engineering».
– Lagene mottar oppgavetekster og vedlegg når evalueringssystemet kaller endepunktet deres. Det er slik oppgaven fungerer, og alle lag ser de samme inputene.
Han påpeker at hvilke felter som valideres og hva som gir poeng aldri har vært publisert eller tilgjengelig for noen lag.
– Å iterere på løsningen basert på score-feedback fra submissions er normal konkurransepraksis, ikke reverse-engineering av evalueringslogikk, sier Bohne.
Tydeliggjør reglene
I Slackkanalen skriver Bohne videre at de «tar rettferdighet på alvor, og vi setter pris på at deltakere melder inn bekymringer».
– Tilbakemeldingen vil bli brukt til å formulere tydeligere regler for fremtidige konkurranser, skriver han.
Likevel er klageren ikke fornøyd. Han påpeker at det kan være både prompt engineering óg hardkoding samtidig.
– Reglene er solide. Det er bare at de brytes åpenlyst. Jeg er kritisk til arrangøren som ikke opprettholder egne regler, og åpenbart ikke har sett nøye nok på leveranser. Jeg er ikke ute etter å «ta» noen her. Jeg er bare sykt skuffa, sier Sandnes og fortsetter:
– Hvordan skal vi forholde oss til regler neste gang, hvis man kan dokumentere at man bryter de, men arrangøren fortsatt ikke tar det på alvor, spør han.
Vinnerlaget svarer
kode24 har bedt vinnerlaget om en kommentar. De viser til regelverket og skriver følgende:
– Den hardkodede dataen er inne i SKILL.md-filene og er ikke den faktiske responsen. Agenten leser SKILL.md-filene og skaper så sin egen respons. Responsen i seg selv er derfor ikke hardkodet eller forhåndslaget, forklarer Thobias Melfjord Knudsen.
– Ifølge arrangørenes jury har vi ikke begått noen regelbrudd. Hva mer behøver å bli sagt, spør Jardar Iversen.
Arrangøren har følgende kommentar:
– Vi respekterer at Sandnes er uenig. Vi har gjort en grundig vurdering av anklagene og står ved konklusjonen, sier Erik Nymo Bohne og Mikael Steenbuch.