Bruk av AI-modeller via AI-selskapenes API-er kan fort bli dyrt, i hvert fall hvis du har en tjeneste med mye trafikk.
Nå melder Google at de lanserer implisitt caching for Gemini API – altså API-et som gir utviklere tilgang til selskapets Gemini-modeller. Det skriver TechCrunch.
Det betyr at det kan bli billigere å bruke Gemini-API-ene, litt avhengig av hvordan du bruker dem.
75 prosent besparelse
Google skriver at de allerede i mai i 2024 introduserte eksplisitt kontekst-caching, noe som ifølge Google kan gi kostnadsbesparelser på 75 prosent.
- Mens du med eksplisitt caching måtte sette opp cachingen manuelt, vil implisitt caching fungere uten at du behøver å gjøre noe.
- Caching i forbindelse med kall til Gemini API-ene fungerer ved å cache "input tokens", som er dataene du sender til modellene og som modellene bruker for å lage en eller annen respons som sendes tilbake.
- Med eksplisitt caching kan du sende noe innhold til modellen én gang, og så referere til cachen for de etterfølgende forespørslene.
– Implisitt caching gir kostnadsbesparelser til utviklerne uten at de trenger å opprette en eksplisitt cache, oppsummerer Google.
Gir ingen garantier
Google skriver at det bare er ved bruk av eksplisitt caching at de kan garantere kostnadsbesparelser.
– Når du sender en forespørsel til en av Gemini 2.5-modellene, og forespørselen har et felles prefiks med en tidligere forespørsel, er den kvalifisert for et cache-treff.
– I så fall vil vi dynamisk overføre kostnadsbesparelsen til deg, med en tilsvarende 75 prosent rabatt på token-forbruket.
For å øke sjansen for at forespørselen gir et cache-treff med implisitt caching, anbefaler Google at du har innhold som gjentar seg først i forespørselen. Andre ting – som spørsmål fra en sluttbruker – bør legges til slutten av prompten.
