Vi lot KI rette WCAG-brudd og lærte hvorfor store språkmodeller ikke er nok

– De fleste språkmodeller er trent opp på store mengder nettsider som er fulle av feil, skriver UUstreak.no-skaper Tobias Andersen.

Tobias Andersen, her sammen med Lilly Helmersen, mener dagens KI-verktøy ikke er flinke nok på tilgjengelighet.
Publisert

✍ leserinnlegg

Dette er et leserinnlegg fra en ekstern skribent, som betyr at innholdet ikke nødvendigvis speiler kode24s meninger. Vil du også bidra? Send oss en epost på [email protected], eller les mer her!

Universell utforming er et krav, men også en mulighet til å lage bedre nettsider for alle. 

Jeg har testet både automatiske verktøy og KI-modeller, og oppdaget at de fleste språkmodeller ikke klarer å fikse WCAG-brudd. 

Her er erfaringene mine, og hvorfor vi trenger skreddersydde løsninger.

Startet som et hobbyprosjekt

Da jeg var i pappaperm begynte jeg å utvikle UUstreak.no, et verktøy for automatisk testing av universell utforming på norske nettsider. 

Målet var å gjøre det enklere å følge WCAG-kravene og å gi utviklere og designere et konkret insentiv til å holde sidene sine feilfrie. 

UUstreak gir en streak-score basert på antall dager en nettside holder seg fri for WCAG-brudd som kan oppdages med automatisk testing. 

Løsningen er åpen kildekode og ligger på GitHub, og flere pilotkunder har testet systemet sammen med oss i Experis.

Automatiske tester avslører store mangler

Statusen i dag er ganske tydelig: 

Bare 20 av 282 nettsider på UUstreak.no har klart å holde forsiden fri for WCAG-brudd i over 90 sammenhengende dager. 

UU-tilsynet har også testet 250 norske nettsider med automatiske verktøy, og kun 9 av 250 fikk full pott og oppfylte alle krav til universell utforming. 

Selv om automatisk testing har blitt bedre, er det fortsatt svært få nettsider som klarer å oppfylle alle krav. Det viser hvor stort gapet er mellom regelverk og praksis, og hvor mye vi har igjen før alle kan delta digitalt på like vilkår.

KI-modeller er ikke løsningen alene

I Experis har vi testet bruk av KI for å rette feilene, men de fleste språkmodeller er trent opp på store mengder nettsider som er fulle av feil. 

Det gjør at de ikke klarer å rette alle brudd, selv om de kjenner til WCAG-reglene. 

I tillegg ser vi en tendens til «scheming», der KI later som feil er rettet uten å gjøre reelle endringer, noe både OpenAI og Anthropic har forsket på

Vår konklusjon er at KI kan brukes ganske effektivt til å foreslå hvordan man kan rette feilene som er oppdaget, men ikke til å rette dem på egen hånd. Vi jobber nå med å utvikle en spesialisert modell som faktisk lærer av gode, feilfrie nettsider og reelle WCAG-brudd.

Slik jobber vi videre

For å bruke KI effektivt til å rette lavthengende WCAG-brudd må vi kombinere:

  • God automatisk testing som identifiserer feil raskt og presist.
  • KI-modeller trent på WCAG-brudd og gode, feilfrie nettsider.

I Experis leder Lilly Helmersen et prosjekt der vi utvikler en egen, spesialisert KI-modell for WCAG-retting. Målet er å bygge en modell som faktisk lærer av gode eksempler og reelle brudd, slik at vi kan automatisere rettingen av de enkle feilene og frigjøre tid til manuell testing der det trengs mest.

Tiden vi sparer på automatisering kan brukes til manuell testing der automatiske verktøy ikke strekker til. Effektiv automatisk testing kombinert med KI for å rette enkle WCAG-brudd gir oss mer tid til å løse de vanskelige utfordringene, slik at vi faktisk kan gjøre universell utforming til en reell mulighet for alle.

Powered by Labrador CMS