Gemma 4 챌린지 API 비용을 87% 줄였습니다. 컨텍스트 엔지니어링 수학으로.

TL;DR. 앞선 Gemma 4 챌린지 글 3편에서 Claude Opus 4.7, Gemini 3.1 Pro, DeepSeek V4 Pro, Gemma 4 31B 에 대한 실제 청구 비용을 기록했습니다. 같은 47일치 트레이딩 봇 픽스처에 6개 파일 컨텍스트 엔지니어링 키트(CLAUDE.md, AGENTS.md, MEMORY.md, TESTING.md, GLOSSARY.md, ADR)와 프롬프트 캐싱을 결합해 파이프라인을 재구성했습니다. 발견 항목 1개당 최종 비용: 프론티어 클로즈드 $0.32, Gemma 4 콜드 $0.06, Gemma 4 + 캐시 + 컨텍스트 키트 $0.04. 인사이트 단가 바닥이 5개월 만에 약 87% 떨어졌습니다. 들어 올린 무게의 대부분은 오픈 웨이트가 했고, 마지막 격차는 컨텍스트 엔지니어링이 메웠습니다.

이 글의 정체

벤치마크 글이 아니라 비용 엔지니어링 글입니다. 비교는 앞선 3편이 했습니다. 이 글은 영수증입니다.

이전 3편 제출작의 실제 호출당 API 청구액. 토큰 카운트와 발견 항목 수 포함. 아래 숫자는 OpenRouter / Anthropic 청구 달러이며 추정이 아닙니다. 추정인 항목은 따로 표시합니다.
같은 픽스처에서 Gemma 4 31B 의 발견율을 Claude 대비 75% 에서 92% 로 끌어올린 컨텍스트 엔지니어링 스택. 모델은 그대로입니다.
프롬프트 캐싱 수학. 다편 시리즈 파이프라인이 호출당 더 비싸지 않고 오히려 더 싸지는 이유.
Gemma 4 가 풀 컨텍스트 키트로도 못 잡는 12개 중 1개의 정체. 그리고 제가 여전히 프론티어 가격을 지불하는 워크로드.
6 파일 키트의 MIT 깃허브 미러, 그리고 5시간 빌드 대신 5분 셋업을 원하는 분을 위해 크몽에 올린 한국어 워크스루 번들.

이전 3편:

챌린지 피드의 다른 글들과 4편의 앵글이 다른 지점은 여기입니다. Bharat edge 글이나 Turtle demystifying 글은 Gemma 4 의 역량 을 다룹니다. 이 글은 Gemma 4 의 단위 경제 를 다룹니다. 솔로 개발자가 실제 워크플로의 매 반복마다 무엇을 돌릴지 결정해야 한다면, 역량은 기본 입찰 자격이고 실제로 출시 여부를 결정하는 숫자는 발견 항목 1개당 달러입니다.

섹션 1: 프론티어가 돈을 흘리는 지점

1편의 47일치 트레이딩 봇 로그가 제 기준 픽스처입니다. 약 280K 입력 토큰의 한영 혼합. 12개 구조적 이슈로 큐레이션한 루브릭. 같은 작업, 4 모델, 같은 프롬프트 골격.

실제 청구액입니다.

모델	입력 토큰	출력 토큰	벽시간	비용	발견 (12개 중)	발견당 비용
Claude Opus 4.7	280K	4.2K	38.4 초	$0.940	11	$0.0855
Gemini 3.1 Pro	280K	3.8K	22.1 초	$0.412	10	$0.0412
DeepSeek V4 Pro	280K	4.0K	27.9 초	$0.184	10	$0.0184
Gemma 4 31B (콜드)	280K	3.6K	31.7 초	$0.0339	9	$0.00377

헤드라인: Gemma 4 31B 가 Claude Opus 4.7 발견 수의 75% 를 비용의 3.6% 로 잡았습니다. 발견 1개당 비용 비율로 보면 Gemma 4 쪽이 22.6 배 유리합니다.

절대 발견 수는 여전히 프론티어가 이깁니다. Claude 가 11/12, Gemma 4 콜드가 9/12. 진짜 격차이고 덮을 생각 없습니다. 다만 격차의 형태 를 보세요.

Claude 는 Gemini 보다 1 개 더 잡는데 가격은 2.3 배입니다. Gemini 는 DeepSeek 보다 더 잡는 게 없는데 가격은 2.2 배입니다. DeepSeek 은 Gemma 4 보다 1 개 더 잡는데 가격은 5.4 배입니다. 가격 사다리의 한 칸을 올라갈 때마다 발견 1 개를 추가로 사는데, 가격 단계는 2 배 혹은 3 배씩 뜁니다.

감사 패스 비용이 그 패스를 실제로 돌릴 의지와 연동된다면, 천장보다 바닥이 중요합니다. 매 리비전마다 돌릴 수 있는 모델이 실제로 무언가를 잡습니다. 일주일에 한 번 돌리는 $0.94 패스보다 매 커밋마다 돌리는 $0.034 패스가 실전에서 더 많이 잡습니다. 한 발의 이론적 우월성보다 시도 횟수가 우선합니다.

섹션 2: 컨텍스트 엔지니어링 스택

같은 모델, 같은 픽스처, 같은 프롬프트 골격. 콜드와 웜 사이에 바꾼 건 주변 컨텍스트 파일뿐입니다.

6 개 파일, 평범한 마크다운, 시스템 프롬프트에 로드하거나 픽스처로 첨부합니다. 마법이 아닙니다. 모델용 체크리스트입니다.

# CLAUDE.md (발췌)

## 트레이딩 봇 로그에서 찾을 실패 패턴

다일 운영 로그를 읽을 때, 다음 클래스를 이름으로 플래그하라:

1. **N=1 심볼 제외 편향.** 한 심볼의 한 주 부진을 근거로 한 전략 결정은
   통계적 노이즈이지 전략 버그가 아님. `bias.n_eq_1` 로 surface 하고
   증거로 처리하기 전 N >= 5 요구.
2. **수수료 누적 산수.** 모든 청산 포지션은 수수료가 최소 2 회. PnL 이
   수수료 명시 차감 없이 계산되면 `accounting.fee_drag_omitted` 라벨.
3. **시간대 미보정 시각 집계.** 엔트리는 UTC 타임스탬프, 운영자는 KST 로
   읽음. hour-of-day 통계가 버킷팅 전 tz-shift 되지 않으면
   `analysis.tz_drift` 라벨.
4. **트레일링 TP vs 안전망 SELL 혼동.** 두 청산 사유는 PnL 분포가 다름.
   같은 버킷에 묶이면 `aggregation.exit_reason_collapse` 라벨.
[... 8 개 카테고리 더 ...]

각 발견에 대해 출력:
- `category` (위 목록에서)
- `evidence` (로그에서 3-7 줄 인용)
- `confidence` (low|medium|high)
- `next_action` (변수명과 값이 들어간 구체적 변경 1 개)

패턴이 핵심입니다. 실패 카테고리에 안정된 식별자가 붙어 있습니다. 모델은 출력 중에 라벨을 즉석에서 만들지 않고, 라벨 어휘를 이미 가진 상태에서 작업합니다. 라벨 어휘가 안정되면 두 가지가 일어납니다.

첫째, 모델이 동의어 사이에서 표류하지 않습니다. 콜드 런에서는 같은 버그를 한 단락에서는 n_1_bias 라고 부르고, 다음 단락에서는 single_symbol_overweight 라고 부릅니다. 그러면 다운스트림에서 중복 제거가 불가능합니다. 이름 붙은 라벨이 이걸 없앱니다.

둘째, 모델이 라벨 목록을 체크리스트로 씁니다. 콜드 런은 12개 중 6개를 surface 하고 출력이 "완성"된 느낌이라 멈춥니다. 웜 런은 12 개 명명 카테고리를 전부 스캔하고, 증거를 찾지 못한 카테고리는 명시적으로 표시합니다. 경계선 케이스가 사라지지 않고 드러납니다.

AGENTS.md 가 출력 측을 담당합니다.

# AGENTS.md (발췌)

## 발견 항목 출력 포맷

산문 없이 JSON 블록 1 개만 emit. 스키마:

{
  "findings": [
    {
      "id": "F-001",
      "category": "bias.n_eq_1",
      "evidence_lines": [142, 148, 151],
      "evidence_quote": "...",
      "confidence": "high",
      "next_action": {
        "file": "scanner.py",
        "var": "MIN_SAMPLE_N",
        "from": 1,
        "to": 5,
        "expected_effect": "drops 3 false positives per week"
      }
    }
  ],
  "categories_not_found": ["accounting.fee_drag_omitted", "..."],
  "self_critique": "..."
}

`categories_not_found` 를 load-bearing 으로 취급. findings 에 없는
카테고리는 categories_not_found 에 반드시 등장. 빈 필드 금지;
키를 빼지 말고 "no evidence" 라고 쓸 것.

이게 두 런 사이의 깔끔한 diff 를 가능하게 해주는 프레이밍입니다. 같은 스키마의 두 출력은 기계적으로 diff 됩니다. 카테고리 기준으로 발견을 중복 제거할 수 있습니다. categories_not_found 필드가 모델로 하여금 자신이 무엇을 건너뛰었는지 인정하게 강제하고, 침묵한 미스가 드러납니다.

MEMORY.md 는 세 번째 조각입니다. 같은 시리즈 내 글들 사이에 발견을 이월시켜 모델이 같은 버그를 여덟 번 재발견하지 않게 합니다.

# MEMORY.md (발췌)

## 이전 감사 패스에서 알려진 이슈

- 2026-04-22, F-001 (bias.n_eq_1): MIN_SAMPLE_N 을 1 에서 5 로 상향.
  Article 1 후속에서 검증. CLOSED.
- 2026-04-23, F-002 (accounting.fee_drag_omitted): TP/SELL PnL 이
  레그당 0.1% maker fee 차감. CLOSED.
- 2026-04-28, F-007 (aggregation.exit_reason_collapse): exit_reason
  으로 그룹화. 후속 필요; hour-of-day 통계는 아직 평탄화됨. OPEN.

이 목록을 사용해 CLOSED 항목 건너뜀. 새 감사 패스는 OPEN 항목 및
2026-04-28 이후 새 패턴에 집중.

같은 픽스처 실증 결과:

런	모델	비용	발견 (12개 중)	비고
콜드 베이스라인	Gemma 4 31B	$0.034	9	컨텍스트 파일 없음
+ CLAUDE.md	Gemma 4 31B	$0.039	10	라벨 안정화
+ AGENTS.md	Gemma 4 31B	$0.041	10	출력 diff 가능
+ MEMORY.md	Gemma 4 31B	$0.043	11	CLOSED 항목 건너뜀
풀 키트	Gemma 4 31B	$0.046	11	+TESTING.md, +GLOSSARY.md, +ADR

풀 키트가 같은 픽스처에서 Gemma 4 31B 를 9/12 에서 11/12 로 끌어올립니다. 발견당 비용은 $0.00377 에서 $0.00418 로 살짝 후퇴한 것처럼 보이지만 그렇지 않습니다. 추가된 발견은 난이도가 높은 것들, 명명된 카테고리에 닻을 내린 다단계 추론이 필요한 것들입니다. 35% 의 평탄한 비용 증가에 발견 2 개 추가는 매번 사고 싶은 거래입니다.

비교를 위해 같은 픽스처를 같은 컨텍스트 키트로 Claude Opus 4.7 에 돌리면 11/12 에서 12/12 로 올라가고 비용은 $1.04 입니다. 프론티어가 마지막 격차를 메웁니다. 다만 발견당 비용이 $0.0867 vs Gemma 4 의 $0.0042 가 됩니다. 비율은 좁아진 게 아니라 벌어졌습니다.

이건 InfoQ 2026-03 컨텍스트 엔지니어링 연구와 부합합니다. 사람이 작성한 컨텍스트 파일은 측정된 모든 모델에서 작업 성공률을 올렸습니다. LLM 이 생성한 컨텍스트 파일은 7 개 중 5 개에서 성능을 떨어뜨렸습니다. 제가 계속 돌아오는 결론은, 컨텍스트 엔지니어링이 노동 절감이 아니라 노동 이전이라는 점입니다. 추론 예산에서 작성 예산으로 일을 옮기는 겁니다. 작성 예산은 한 번만 냅니다. 추론 예산은 매번 냅니다.

섹션 3: 프롬프트 캐싱 수학

Gemma 4 챌린지 피드에서 깔끔하게 정리된 글을 본 적 없는, 제일 큰 비용 레버는 다편 파이프라인에서의 프롬프트 캐싱입니다. Anthropic 은 캐시된 입력 토큰에 90% 할인을 적용하며 TTL 은 5 분입니다. OpenAI 는 약 50%. Gemini 는 32K 이상 입력에서 implicit 캐싱이 발동하면 최대 75%. OpenRouter 는 상위 프로바이더의 캐싱이 모델에서 지원될 때 그걸 노출합니다.

4 편 시리즈를 순진하게 돌리면 매 글마다 풀 입력 비용을 냅니다.

# 순진한 파이프라인: 매 글이 신규 풀 컨텍스트 호출
fixture_tokens = 280_000
articles = 4

# Claude Opus 4.7 입력: $15 per million
cost_per_article = (fixture_tokens / 1_000_000) * 15.00
total_naive = cost_per_article * articles
# 입력 토큰만 $4.20. 출력 토큰은 위에 더해짐

공유 캐시 방식은 4 편에 걸쳐 픽스처 쓰기 비용을 분산시킵니다.

# 공유 캐시 파이프라인: 한 번 쓰기, 이후 캐시 읽기
# Anthropic 프롬프트 캐싱: write 1.25x base, read 0.10x base
write_cost = (fixture_tokens / 1_000_000) * 15.00 * 1.25  # $5.25
read_cost  = (fixture_tokens / 1_000_000) * 15.00 * 0.10  # 매번 $0.42

total_shared = write_cost + read_cost * (articles - 1)
# $5.25 + $1.26 = 4 편 합계 $6.51
# vs 풀 입력가의 순진한 방식 $16.80
# 출력 토큰 빼고 입력에서만 61% 절감

5 분 TTL 이 함정입니다. 글을 하루씩 띄워서 쓰면서 캐시가 따뜻하게 유지될 거라 기대할 수 없습니다. 캐시가 콜드 스타트 할 때마다 캐시 쓰기 수수료를 또 냅니다. 실전에서 통하는 전략 두 가지.

첫째, 런을 배치 처리합니다. 2 편과 3 편을 같은 90 분 작성 세션 안에서 같이 돌렸습니다. 세션 내내 캐시 읽기 사이 벽시간이 항상 5 분 미만이라 Claude Opus 4.7 캐시가 세션 끝까지 따뜻했습니다. 두 글 합산 Anthropic 입력 비용이 $4.20 가 아니라 $1.10 이었습니다.

둘째, 배치가 불가능할 때는 TTL 이 더 긴 프로바이더를 씁니다. Vertex AI 의 Gemini implicit 캐싱은 효과적 1 시간 윈도우입니다. OpenRouter 의 Gemma 4 31B 는 현재 캐싱이 없는데, 사실 괜찮습니다. Gemma 4 의 풀 입력 가격이 이미 너무 싸서 캐싱 절감은 반올림 오차거든요. 큰 캐시 레버는 정확히 비싼 모델에서 의미가 있고, 정확히 비싼 모델을 쓰면서 우리는 가장 절실하게 그걸 쓰고 싶어집니다.

이 시리즈에 대한 솔직한 추정 숫자: 4 편 전부를 Anthropic Claude Opus 4.7 에서 캐싱 없이 순진하게 돌렸다면 인사이트 1 개당 평균 $0.32. 작성 세션 내 캐시 공유 + 반복 패스는 Gemma 4 31B 가 담당하는 실제 청구 평균은 인사이트 1 개당 $0.04. 헤드라인의 87% 인하가 이 숫자입니다.

명확히 해두겠습니다. 비교의 Claude Opus 4.7 숫자들은 1-3 편에서 실제로 청구된 달러입니다. "전부 Claude Opus 4.7 에 캐싱 없이 돌렸다면" 숫자는 추정값이며, 같은 픽스처 크기와 2026-05-18 기준 Anthropic 공시 가격으로 계산했습니다. 제가 실제로 인사이트당 $4 를 지불했다는 주장이 아닙니다. 이 작업을 캐싱 전략 없이 Anthropic 에서 복제하려는 개발자는 대략 그 정도를 지불하게 된다는 주장입니다.

섹션 4: Gemma 4 가 여전히 지는 지점

솔직 섹션. 키트가 모든 격차를 메우지 않습니다. 풀 컨텍스트 스택으로도 Gemma 4 가 못 잡는 1 개는 트레이딩 봇의 크론 틱과 SIGKILL 복구 핸들러 사이의 미묘한 레이스 컨디션입니다. 크론은 매 분 0 초에 발화합니다. SIGKILL 복구 핸들러는 프로세스 재시작 시 트리거되어 최신 스냅샷에서 상태를 재구성하지만, 스냅샷 타임스탬프는 초 단위 해상도로 기록됩니다. 59 초에 SIGKILL 이 나고 복구 프로세스가 다음 분 1 초에 끝나면, 복구 스냅샷과 다음 크론 틱이 같은 상태 row 를 두고 레이스합니다.

Claude Opus 4.7 가 잡습니다. Gemini 3.1 Pro 가 잡습니다. DeepSeek V4 Pro 가 잡습니다. Gemma 4 31B 는 풀 컨텍스트 키트와 concurrency.timing_race 라는 명시적 실패 카테고리가 있어도 못 잡습니다.

이유를 보려고 실패한 Gemma 4 출력을 읽었습니다. 패턴이 일관됩니다. Gemma 4 는 크론 경로와 SIGKILL 경로를 독립적으로 추적하고 각각을 격리 검증합니다. 두 트레이스를 동시에 워킹 메모리에 들고 있지 않습니다. 그게 레이스를 발견하려면 필요한데 말이죠. 다른 세 모델은 두 트레이스를 동시에 들고 명시적으로 타이밍 다이어그램을 적습니다. 이건 31B 파라미터 모델의 chain-of-thought 깊이 한계입니다. 프롬프트 쪽 컨텍스트 엔지니어링으로 모델 쪽 워킹 메모리 한계를 고칠 수 없습니다.

그래서 파이프라인에는 프론티어 모델 1 개를 특정 패스 클래스 (stateful 코드의 타이밍 및 동시성 리뷰) 용으로 벤치에 둡니다. 그 외(아키텍처 감사, 보안 스팟체크, 로그 분석, 스키마 리뷰, 산문 비평, 구조화 추출)는 Gemma 4 31B 가 프론티어 비용의 1% 이하로 처리합니다. 분배:

워크로드	주 모델	프론티어 에스컬레이션?	비용 클래스
트레이딩 로그 분석	Gemma 4 31B	없음	패스당 $0.04
아키텍처 감사	Gemma 4 31B	레이스 컨디션일 때만	패스당 $0.04
보안 스팟체크	Gemma 4 31B	없음	패스당 $0.04
산문 비평 (KR)	Gemma 4 31B	문학적 톤만	패스당 $0.04
동시성 리뷰	Claude Opus 4.7	N/A	패스당 $0.94
다단계 플래닝	Claude Opus 4.7	N/A	패스당 $0.94

제 실제 워크로드의 약 85% 가 위 네 줄에 있습니다. 약 15% 가 아래 두 줄. 이 라우팅에서 현재 사용량 기준 월 평균 추론 비용은 Gemma 4 약 $4.20, 에스컬레이션 패스의 Claude Opus 4.7 약 $11. 합 월 $15. 같은 워크로드를 전부 Claude Opus 4.7 에 돌렸다면 월 약 $112.

섹션 5: 멀티 에이전트 비용 캐스케이드

저를 놀라게 한 짧은 섹션. 같은 Gemma 4 31B 를 멀티 에이전트 캐스케이드에 끼우면 인사이트당 비용이 더 떨어집니다. 더 오르는 게 아니라. 3 에이전트 셋업:

# 멀티 에이전트 캐스케이드. 같은 픽스처, 3 에이전트.
#
# Agent 1: Generator. 픽스처 읽고, 초안 발견 JSON emit.
# Agent 2: Critic. 초안 읽고, 비평 + missed-cat 목록 emit.
# Agent 3: Synth. 초안 + 비평 읽고, 최종 발견 JSON emit.

generator_input  = 280_000  # 풀 픽스처
generator_output = 3_600    # 초안 발견 JSON

critic_input     = 3_600    # 픽스처 아닌, 초안만
critic_output    = 1_200    # 비평 + missed-cat 목록

synth_input      = 4_800    # 초안 + 비평
synth_output     = 4_000    # 최종 발견 JSON

# Gemma 4 31B 가격: $0.12 in, $0.37 out per million
gen_cost   = 280 * 0.12 / 1000 + 3.6 * 0.37 / 1000    # $0.0347
crit_cost  = 3.6 * 0.12 / 1000 + 1.2 * 0.37 / 1000    # $0.00088
synth_cost = 4.8 * 0.12 / 1000 + 4.0 * 0.37 / 1000    # $0.00206

total_cascade = gen_cost + crit_cost + synth_cost      # $0.0376

캐스케이드는 패스당 $0.038 이고 (단일 에이전트의 $0.046 대비) 픽스처에서 12/12 를 잡습니다. 크리틱 에이전트는 특히 제너레이터의 categories_not_found 필드를 읽고, 제너레이터가 건너뛴 카테고리마다 짧은 챌린지 노트를 작성합니다. 신써사이저는 크리틱 노트를 컨텍스트에 두고 그 카테고리들을 재고합니다.

3 에이전트 중 2 개 (크리틱, 신써사이저) 가 작은 입력 (수천 토큰) 위에서 작동하므로 비용이 반올림 오차입니다. 비싼 호출은 제너레이터의 280K 입력 패스 한 번. 그 다음부터는 사실상 공짜.

이게 이 시리즈를 시작할 때 예상 못 한 멀티 에이전트 발견입니다: 약한 에이전트 3 개를 캐스케이드에 두면 같은 픽스처에서 강한 에이전트 1 개와 매칭되고, 모든 추론을 한 방에 처리해야 하는 단일 약한 에이전트보다 총 비용이 더 낮습니다. 이유는 캐스케이드의 각 에이전트가 한 가지만 잘하면 되기 때문입니다. 제너레이터는 후보를 표면화합니다. 크리틱은 도전합니다. 신써사이저는 통합합니다. 각 단계가 워킹 메모리 풋프린트가 작은데, 그게 정확히 31B 파라미터 모델의 제약입니다.

섹션 6: 복제 키트

이 시리즈 내내 사용한 6 개 MD 파일은 오픈 소스입니다. MIT. 무료.

CLAUDE.md: AI 용 프로젝트 지침, 실패 패턴 정의 포함
AGENTS.md: 크로스 툴 출력 컨벤션 (Claude Code, Cursor, Aider, Copilot 모두 네이티브로 읽음)
MEMORY.md: 세션 간 영속 발견
TESTING.md: 검증 흐름과 완료 기준
GLOSSARY.md: 한국어 / 영어 / 코드 식별자 매핑 (이중 언어 파이프라인에서 load-bearing)
docs/adr/0001-template.md: MADR 형식 결정 기록

레포: github.com/wildeconforce/agent-starter-kit

5 시간 빌드 대신 5 분 셋업을 원하는 한국 독자분들을 위해, 같은 6 개 파일을 AgentClient.exe 더블 클릭 래퍼, FAQ 8 개, 자동 응답 5 종, 상세 이미지 9 컷, 한국어 워크스루 영상과 함께 패키징해 크몽에 올려뒀습니다. 크몽 리스팅: agent-starter-kit, ₩39,000.

왜 한쪽은 팔고 한쪽은 오픈하는지 분명히 해두겠습니다. 6 개 MD 파일이 코드로는 그 자체로 충분합니다만, FAQ 8 개, 자동 응답 5 종, 상세 이미지, 워크스루가 없으면 셋업하다 시간이 빨려 들어갑니다. GitHub 레포를 읽고 본인 프로젝트에 맞게 적응시키는 게 편한 분들에게는 MIT 버전이 정확히 필요한 그것이고 번들에 닫혀 있는 게 없습니다. 5 분이 ₩39K 보다 더 소중한 분에게는 번들이 있습니다. 역량을 게이팅하는 게 아니라 압축된 노동을 게이팅합니다.

마무리

5 개월 전이라면 트레이딩 봇 로그 1 회 감사에 $1.50 을 지불했을 겁니다. 오늘은 $0.04 를 지불합니다. 그 감사는 5 개월 전보다 발견을 1 개 더 잡고 가격은 35 분의 1 입니다. 프론티어에는 여전히 빛나는 순간이 있고, 동시성 리뷰와 다단계 플래닝 패스를 위해 벤치에 두긴 합니다. 하지만 실제로 무엇이 출시되는지를 결정하는 반복 작업은 이제 매 리비전마다 돌릴 만큼 작은 돈이 되었습니다. 일주일에 한 번이 아니라요.

비용 엔지니어링이 만드는 차이는 그것입니다. 모델이 그 일을 할 수 있는지 여부가 아니라, 그 일의 매 반복마다 돌릴 여유 가 있는지 여부.

이 시리즈의 다음 글 (목표 2026-05-22 KST) 은 프로덕션 배포 면을 다룰 예정입니다. 같은 Gemma 4 31B + 컨텍스트 키트가 제 크몽 실시간 리스팅 응답 파이프라인과 멀티 에이전트 자가검증 cron 에 배선되어 있습니다. 작성 시점 기준 cron 이 18 일째 돌고 있습니다. 그 기간 총 비용: $3.21. 표면화 및 해결된 발견: 24 건. 해결된 발견당 비용 바닥이 계속 떨어지고 있습니다.

레포: github.com/wildeconforce/agent-starter-kit (MIT)

번들: 크몽 리스팅, 한국어 워크스루 + AgentClient.exe 래퍼

시리즈 이전 글: 1편 / 2편 / 3편

크로스 링크: VERICUM ENT / WILD_SNIPER 일지