Hvad er prompt caching? Spar tokens og penge med Claude

Prompt caching er en af de mest direkte måder at reducere både svartid og API-udgifter, når du arbejder med Claude i større skala. Med den rette opsætning kan du spare op til 90 % på cachede input-tokens — og få hurtigere svar i samme ombæring.

Hvad er prompt caching?

Normalt sendes hele din prompt til Anthropics servere ved hvert API-kald, og Claude behandler den fra bunden hver gang. Med prompt caching gemmer Anthropic en del af prompten i en hurtig cache på serverne i op til fem minutter. Næste gang du sender et kald med den samme begyndelse, genbruger Claude den cachede del i stedet for at behandle den igen.

Resultatet er to fordele på én gang: lavere latens (cache-hits er markant hurtigere) og lavere pris (cachede input-tokens koster kun 10 % af den normale pris).

Hvordan virker det teknisk?

Prompt caching aktiveres via cache_control-feltet i din API-request. Du sætter et breakpoint i din beskedstruktur — alt frem til breakpointet kan caches.

import anthropic

client = anthropic.Anthropic()

system_prompt = '''
Du er en hjælpsom assistent specialiseret i dansk erhvervsret.
[...lang juridisk baggrundsviden, 10.000 tokens...]
'''

response = client.messages.create(
    model="claude-opus-4-5",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": system_prompt,
            "cache_control": {"type": "ephemeral"}
        }
    ],
    messages=[
        {"role": "user", "content": "Hvad er reglerne for ansættelseskontrakter?"}
    ]
)

print(response.usage)
# cache_creation_input_tokens: 10000 (første kald)
# cache_read_input_tokens: 10000 (efterfølgende kald inden for 5 min)

Besparelsen i tal

Normale input-tokens: Fuld pris
Cache-skrivning (første kald): 25 % dyrere end normal pris — men betales kun én gang
Cache-læsning (efterfølgende kald): 90 % billigere end normal pris

Regnestykket er enkelt: hvis du sender den samme lange kontekst 10 gange i løbet af fem minutter, betaler du fuld pris for ét kald og 10 % for de resterende ni.

TTL og fornyelse

Cachen har en TTL (Time to Live) på fem minutter. Hvert cache-hit fornyer TTL’en, så cachen lever videre, så længe den bruges aktivt. Hvis der går mere end fem minutter uden et hit, slettes cachen, og næste kald genopbygger den.

I praksis betyder det, at du bør sikre hyppige kald i intensive sessioner — eller acceptere, at cachen genopbygges efter pauser.

Hvornår giver det mening?

Prompt caching er bedst i disse scenarier:

Lang systemprompt: Har du en detaljeret rolleinstruktion på 5.000+ tokens, der sendes ved hvert kald, er caching oplagt.
Store dokumenter der genbruges: Analyse af en 50-siders rapport fordelt på 20 spørgsmål? Cach dokumentet, skift kun spørgsmålet.
Mange kald med samme kontekst: Chatbots med lang samtalehistorik, batch-behandling af enslydende opgaver.

Omvendt giver caching ingen fordel, hvis hver prompt er unik — så betaler du blot 25 % ekstra for cache-skrivning uden at hente gevinsten hjem.

Vigtige begrænsninger

Cache-breakpoints skal placeres i begyndelsen af prompten, ikke midt i. Du kan have op til fire samtidige breakpoints. Cachen er serverbaseret og deles ikke på tværs af forskellige API-nøgler.

Prompt caching er tilgængeligt på Claude Haiku, Sonnet og Opus via direkte API. Tjek Anthropics dokumentation for den seneste prisoversigt, da den opdateres løbende.

Udgivet

21. maj 2026

Blog

mirapass

Tags:

Claude API, pris optimering, prompt caching, tokens