Del 4: Test og iteration af dit Skill

Selv det bedst planlagte Skill vil sjældent fungere perfekt fra første forsøg. Triggering kan være unøjagtig, instrukserne kan være tvetydige, og edge cases dukker altid op. Denne del viser dig, hvordan du systematisk tester og itererer dine Skills, indtil de er robuste og pålidelige.

De tre testniveauer

Niveau 1: Manuel test

Den hurtigste måde at få et første indtryk på. Åbn Claude Code, installer dit Skill, og afprøv disse scenarier:

  • Positiv test: Bed om præcis det, Skill’et er designet til. Aktiverer Claude Skill’et?
  • Negativ test: Bed om noget beslægtet, men uden for Skill’ets scope. Undlader Claude at aktivere det?
  • Edge case test: Bed om Skill’et med uklare eller ufuldstændige oplysninger. Håndterer det dette gracefully?

Hold en simpel log over dine tests: hvad du bad om, hvad Claude gjorde, og om det var korrekt.

Niveau 2: Scriptet test

Når du har identificeret de vigtigste testscenarier, kan du automatisere dem med et simpelt shell-script eller Python-script, der sender foruddefinerede prompts og sammenligner outputtet med forventede mønstre:

#!/usr/bin/env python3
# test_skill.py – simpel scriptet test
import subprocess, sys

tests = [
    ("Kan du lave en SEO-analyse af mirapass.dk?", "seo-audit"),
    ("Skriv et blogindlæg om Python tips", "draft-blog-post"),
    ("Hvad er vejret i dag?", None),  # ingen Skill skal aktiveres
]

for prompt, expected_skill in tests:
    # Kald Claude Code CLI med prompten og fang outputtet
    result = subprocess.run(
        ["claude", "-p", prompt, "--output-format", "json"],
        capture_output=True, text=True, timeout=60
    )
    # Analyser om det forventede Skill blev aktiveret
    skill_used = parse_skill_from_output(result.stdout)
    status = "OK" if skill_used == expected_skill else "FEJL"
    print(f"{status}: '{prompt[:50]}...' -> {skill_used}")

Niveau 3: Programmatisk test med skill-creator

Det indbyggede skill-creator Skill i Claude Code kan hjælpe dig med at generere, evaluere og benchmarke Skills automatisk. Aktivér det med:

Brug skill-creator til at teste mit "seo-audit" Skill med 5 varierede prompts
og vurder triggering-nøjagtighed.

skill-creator kan generere testprompts, køre dem og give dig en præcisionscore, som du kan bruge som baseline, når du itererer.

Signaler på under- og over-triggering

Under-triggering – tegn at se efter:

  • Claude besvarer en oplagt Skill-opgave med en generisk svar i stedet for at køre Skill’et
  • Brugere skal eksplicit nævne Skill’ets navn for at aktivere det
  • Skill’et aktiveres kun ved ét meget specifikt formuleringsforsøg

Over-triggering – tegn at se efter:

  • Skill’et aktiveres ved tilfældig omtale af relaterede emner
  • Claude forsøger at køre et tungt Skill ved simple, kortfattede spørgsmål
  • Skill’et konkurrerer med og “vinder over” mere passende Skills

Iterationsprocessen

Brug denne cyklus til kontinuerlig forbedring:

  1. Test: Kør dine testscenarier (niveau 1, 2 eller 3)
  2. Identificér problemet: Er det triggering, instruktionsklarhed eller output-kvalitet?
  3. Formulér hypotesen: “Jeg tror, Skill’et under-triggerer fordi description er for teknisk”
  4. Foretag ét ændring ad gangen: Skift enten description ELLER en instruktion ELLER tools – ikke alt på én gang
  5. Gentest: Kør de samme testscenarier igen
  6. Dokumentér: Notér hvad der ændrede sig, og opdater metadata-versionen

Tips til robuste Skills

  • Definer fallback-adfærd: Hvad gør Skill’et, hvis det mangler nødvendig information? Spørg brugeren, sæt en standardværdi eller afbryd gracefully.
  • Håndtér tomme inputs: Beskriv eksplicit, hvad Claude skal gøre, hvis brugeren ikke angiver et emne, fil eller URL.
  • Brug afsnit-overskrifter i instrukserne: Det gør det langt nemmere for Claude at navigere i lange SKILL.md-filer.
  • Hold instrukserne aktuelle: Når du ændrer en arbejdsproces, opdatér Skill’et. Et forældet Skill er værre end intet Skill.
  • Versionér altid: Bump versionnummeret i metadata, selv ved mindre ændringer. Det gør det muligt at rulle tilbage.

Hvornår er et Skill “færdigt”?

Et Skill er klar til distribution, når det:

  1. Konsistent aktiveres ved de 5 vigtigste triggersætninger
  2. Konsistent ikke aktiveres ved 5 out-of-scope sætninger
  3. Producerer acceptable outputs på alle dine positive testcases
  4. Håndterer de to mest sandsynlige edge cases gracefully

Perfekt er fjenden af godt. Et Skill, der virker 90 % af tiden, er ekstremt værdifuldt – du kan altid forbedre det videre baseret på reel brug.

Næste del i serien: Del 5: Distribution og deling


Udgivet

i

af

Tags: