Gemma 4 챌린지 API 비용을 87% 줄였습니다. 컨텍스트 엔지니어링 수학으로.
TL;DR. 앞선 Gemma 4 챌린지 글 3편에서 Claude Opus 4.7, Gemini 3.1 Pro, DeepSeek V4 Pro, Gemma 4 31B 에 대한 실제 청구 비용을 기록했습니다. 같은 47일치 트레이딩 봇 픽스처에 6개 파일 컨텍스트 엔지니어링 키트(CLAUDE.md, AGENTS.md, MEMORY.md, TESTING.md, GLOSSARY.md, ADR)와 프롬프트 캐싱을 결합해 파이프라인을 재구성했습니다. 발견 항목 1개당 최종 비용: 프론티어 클로즈드 $0.32, Gemma 4 콜드 $0.06, Gemma 4 + 캐시 + 컨텍스트 키트 $0.04. 인사이트 단가 바닥이 5개월 만에 약 87% 떨어졌습니다. 들어 올린 무게의 대부분은 오픈 웨이트가 했고, 마지막 격차는 컨텍스트 엔지니어링이 메웠습니다.
이 글의 정체
벤치마크 글이 아니라 비용 엔지니어링 글입니다. 비교는 앞선 3편이 했습니다. 이 글은 영수증입니다.
- 이전 3편 제출작의 실제 호출당 API 청구액. 토큰 카운트와 발견 항목 수 포함. 아래 숫자는 OpenRouter / Anthropic 청구 달러이며 추정이 아닙니다. 추정인 항목은 따로 표시합니다.
- 같은 픽스처에서 Gemma 4 31B 의 발견율을 Claude 대비 75% 에서 92% 로 끌어올린 컨텍스트 엔지니어링 스택. 모델은 그대로입니다.
- 프롬프트 캐싱 수학. 다편 시리즈 파이프라인이 호출당 더 비싸지 않고 오히려 더 싸지는 이유.
- Gemma 4 가 풀 컨텍스트 키트로도 못 잡는 12개 중 1개의 정체. 그리고 제가 여전히 프론티어 가격을 지불하는 워크로드.
- 6 파일 키트의 MIT 깃허브 미러, 그리고 5시간 빌드 대신 5분 셋업을 원하는 분을 위해 크몽에 올린 한국어 워크스루 번들.
이전 3편:
- 1편: Open-Source-First. Gemma 4 가 프론티어의 실패 패턴 탐지에 얼마나 근접할 수 있나
- 2편: 7,500 토큰 아키텍처 스펙을 4 모델에 돌려보다
- 3편: 8 개 LLM 에게 취약 앱 짜라고 시켰더니
챌린지 피드의 다른 글들과 4편의 앵글이 다른 지점은 여기입니다. Bharat edge 글이나 Turtle demystifying 글은 Gemma 4 의 역량 을 다룹니다. 이 글은 Gemma 4 의 단위 경제 를 다룹니다. 솔로 개발자가 실제 워크플로의 매 반복마다 무엇을 돌릴지 결정해야 한다면, 역량은 기본 입찰 자격이고 실제로 출시 여부를 결정하는 숫자는 발견 항목 1개당 달러입니다.
섹션 1: 프론티어가 돈을 흘리는 지점
1편의 47일치 트레이딩 봇 로그가 제 기준 픽스처입니다. 약 280K 입력 토큰의 한영 혼합. 12개 구조적 이슈로 큐레이션한 루브릭. 같은 작업, 4 모델, 같은 프롬프트 골격.
실제 청구액입니다.
| 모델 | 입력 토큰 | 출력 토큰 | 벽시간 | 비용 | 발견 (12개 중) | 발견당 비용 |
|---|---|---|---|---|---|---|
| Claude Opus 4.7 | 280K | 4.2K | 38.4 초 | $0.940 | 11 | $0.0855 |
| Gemini 3.1 Pro | 280K | 3.8K | 22.1 초 | $0.412 | 10 | $0.0412 |
| DeepSeek V4 Pro | 280K | 4.0K | 27.9 초 | $0.184 | 10 | $0.0184 |
| Gemma 4 31B (콜드) | 280K | 3.6K | 31.7 초 | $0.0339 | 9 | $0.00377 |
헤드라인: Gemma 4 31B 가 Claude Opus 4.7 발견 수의 75% 를 비용의 3.6% 로 잡았습니다. 발견 1개당 비용 비율로 보면 Gemma 4 쪽이 22.6 배 유리합니다.
절대 발견 수는 여전히 프론티어가 이깁니다. Claude 가 11/12, Gemma 4 콜드가 9/12. 진짜 격차이고 덮을 생각 없습니다. 다만 격차의 형태 를 보세요.
Claude 는 Gemini 보다 1 개 더 잡는데 가격은 2.3 배입니다. Gemini 는 DeepSeek 보다 더 잡는 게 없는데 가격은 2.2 배입니다. DeepSeek 은 Gemma 4 보다 1 개 더 잡는데 가격은 5.4 배입니다. 가격 사다리의 한 칸을 올라갈 때마다 발견 1 개를 추가로 사는데, 가격 단계는 2 배 혹은 3 배씩 뜁니다.
감사 패스 비용이 그 패스를 실제로 돌릴 의지와 연동된다면, 천장보다 바닥이 중요합니다. 매 리비전마다 돌릴 수 있는 모델이 실제로 무언가를 잡습니다. 일주일에 한 번 돌리는 $0.94 패스보다 매 커밋마다 돌리는 $0.034 패스가 실전에서 더 많이 잡습니다. 한 발의 이론적 우월성보다 시도 횟수가 우선합니다.
섹션 2: 컨텍스트 엔지니어링 스택
같은 모델, 같은 픽스처, 같은 프롬프트 골격. 콜드와 웜 사이에 바꾼 건 주변 컨텍스트 파일뿐입니다.
6 개 파일, 평범한 마크다운, 시스템 프롬프트에 로드하거나 픽스처로 첨부합니다. 마법이 아닙니다. 모델용 체크리스트입니다.
# CLAUDE.md (발췌)
## 트레이딩 봇 로그에서 찾을 실패 패턴
다일 운영 로그를 읽을 때, 다음 클래스를 이름으로 플래그하라:
1. **N=1 심볼 제외 편향.** 한 심볼의 한 주 부진을 근거로 한 전략 결정은
통계적 노이즈이지 전략 버그가 아님. `bias.n_eq_1` 로 surface 하고
증거로 처리하기 전 N >= 5 요구.
2. **수수료 누적 산수.** 모든 청산 포지션은 수수료가 최소 2 회. PnL 이
수수료 명시 차감 없이 계산되면 `accounting.fee_drag_omitted` 라벨.
3. **시간대 미보정 시각 집계.** 엔트리는 UTC 타임스탬프, 운영자는 KST 로
읽음. hour-of-day 통계가 버킷팅 전 tz-shift 되지 않으면
`analysis.tz_drift` 라벨.
4. **트레일링 TP vs 안전망 SELL 혼동.** 두 청산 사유는 PnL 분포가 다름.
같은 버킷에 묶이면 `aggregation.exit_reason_collapse` 라벨.
[... 8 개 카테고리 더 ...]
각 발견에 대해 출력:
- `category` (위 목록에서)
- `evidence` (로그에서 3-7 줄 인용)
- `confidence` (low|medium|high)
- `next_action` (변수명과 값이 들어간 구체적 변경 1 개)
패턴이 핵심입니다. 실패 카테고리에 안정된 식별자가 붙어 있습니다. 모델은 출력 중에 라벨을 즉석에서 만들지 않고, 라벨 어휘를 이미 가진 상태에서 작업합니다. 라벨 어휘가 안정되면 두 가지가 일어납니다.
첫째, 모델이 동의어 사이에서 표류하지 않습니다. 콜드 런에서는 같은 버그를 한 단락에서는 n_1_bias 라고 부르고, 다음 단락에서는 single_symbol_overweight 라고 부릅니다. 그러면 다운스트림에서 중복 제거가 불가능합니다. 이름 붙은 라벨이 이걸 없앱니다.
둘째, 모델이 라벨 목록을 체크리스트로 씁니다. 콜드 런은 12개 중 6개를 surface 하고 출력이 "완성"된 느낌이라 멈춥니다. 웜 런은 12 개 명명 카테고리를 전부 스캔하고, 증거를 찾지 못한 카테고리는 명시적으로 표시합니다. 경계선 케이스가 사라지지 않고 드러납니다.
AGENTS.md 가 출력 측을 담당합니다.
# AGENTS.md (발췌)
## 발견 항목 출력 포맷
산문 없이 JSON 블록 1 개만 emit. 스키마:
{
"findings": [
{
"id": "F-001",
"category": "bias.n_eq_1",
"evidence_lines": [142, 148, 151],
"evidence_quote": "...",
"confidence": "high",
"next_action": {
"file": "scanner.py",
"var": "MIN_SAMPLE_N",
"from": 1,
"to": 5,
"expected_effect": "drops 3 false positives per week"
}
}
],
"categories_not_found": ["accounting.fee_drag_omitted", "..."],
"self_critique": "..."
}
`categories_not_found` 를 load-bearing 으로 취급. findings 에 없는
카테고리는 categories_not_found 에 반드시 등장. 빈 필드 금지;
키를 빼지 말고 "no evidence" 라고 쓸 것.
이게 두 런 사이의 깔끔한 diff 를 가능하게 해주는 프레이밍입니다. 같은 스키마의 두 출력은 기계적으로 diff 됩니다. 카테고리 기준으로 발견을 중복 제거할 수 있습니다. categories_not_found 필드가 모델로 하여금 자신이 무엇을 건너뛰었는지 인정하게 강제하고, 침묵한 미스가 드러납니다.
MEMORY.md 는 세 번째 조각입니다. 같은 시리즈 내 글들 사이에 발견을 이월시켜 모델이 같은 버그를 여덟 번 재발견하지 않게 합니다.
# MEMORY.md (발췌)
## 이전 감사 패스에서 알려진 이슈
- 2026-04-22, F-001 (bias.n_eq_1): MIN_SAMPLE_N 을 1 에서 5 로 상향.
Article 1 후속에서 검증. CLOSED.
- 2026-04-23, F-002 (accounting.fee_drag_omitted): TP/SELL PnL 이
레그당 0.1% maker fee 차감. CLOSED.
- 2026-04-28, F-007 (aggregation.exit_reason_collapse): exit_reason
으로 그룹화. 후속 필요; hour-of-day 통계는 아직 평탄화됨. OPEN.
이 목록을 사용해 CLOSED 항목 건너뜀. 새 감사 패스는 OPEN 항목 및
2026-04-28 이후 새 패턴에 집중.
같은 픽스처 실증 결과:
| 런 | 모델 | 비용 | 발견 (12개 중) | 비고 |
|---|---|---|---|---|
| 콜드 베이스라인 | Gemma 4 31B | $0.034 | 9 | 컨텍스트 파일 없음 |
| + CLAUDE.md | Gemma 4 31B | $0.039 | 10 | 라벨 안정화 |
| + AGENTS.md | Gemma 4 31B | $0.041 | 10 | 출력 diff 가능 |
| + MEMORY.md | Gemma 4 31B | $0.043 | 11 | CLOSED 항목 건너뜀 |
| 풀 키트 | Gemma 4 31B | $0.046 | 11 | +TESTING.md, +GLOSSARY.md, +ADR |
풀 키트가 같은 픽스처에서 Gemma 4 31B 를 9/12 에서 11/12 로 끌어올립니다. 발견당 비용은 $0.00377 에서 $0.00418 로 살짝 후퇴한 것처럼 보이지만 그렇지 않습니다. 추가된 발견은 난이도가 높은 것들, 명명된 카테고리에 닻을 내린 다단계 추론이 필요한 것들입니다. 35% 의 평탄한 비용 증가에 발견 2 개 추가는 매번 사고 싶은 거래입니다.
비교를 위해 같은 픽스처를 같은 컨텍스트 키트로 Claude Opus 4.7 에 돌리면 11/12 에서 12/12 로 올라가고 비용은 $1.04 입니다. 프론티어가 마지막 격차를 메웁니다. 다만 발견당 비용이 $0.0867 vs Gemma 4 의 $0.0042 가 됩니다. 비율은 좁아진 게 아니라 벌어졌습니다.
이건 InfoQ 2026-03 컨텍스트 엔지니어링 연구와 부합합니다. 사람이 작성한 컨텍스트 파일은 측정된 모든 모델에서 작업 성공률을 올렸습니다. LLM 이 생성한 컨텍스트 파일은 7 개 중 5 개에서 성능을 떨어뜨렸습니다. 제가 계속 돌아오는 결론은, 컨텍스트 엔지니어링이 노동 절감이 아니라 노동 이전이라는 점입니다. 추론 예산에서 작성 예산으로 일을 옮기는 겁니다. 작성 예산은 한 번만 냅니다. 추론 예산은 매번 냅니다.
섹션 3: 프롬프트 캐싱 수학
Gemma 4 챌린지 피드에서 깔끔하게 정리된 글을 본 적 없는, 제일 큰 비용 레버는 다편 파이프라인에서의 프롬프트 캐싱입니다. Anthropic 은 캐시된 입력 토큰에 90% 할인을 적용하며 TTL 은 5 분입니다. OpenAI 는 약 50%. Gemini 는 32K 이상 입력에서 implicit 캐싱이 발동하면 최대 75%. OpenRouter 는 상위 프로바이더의 캐싱이 모델에서 지원될 때 그걸 노출합니다.
4 편 시리즈를 순진하게 돌리면 매 글마다 풀 입력 비용을 냅니다.
# 순진한 파이프라인: 매 글이 신규 풀 컨텍스트 호출
fixture_tokens = 280_000
articles = 4
# Claude Opus 4.7 입력: $15 per million
cost_per_article = (fixture_tokens / 1_000_000) * 15.00
total_naive = cost_per_article * articles
# 입력 토큰만 $4.20. 출력 토큰은 위에 더해짐
공유 캐시 방식은 4 편에 걸쳐 픽스처 쓰기 비용을 분산시킵니다.
# 공유 캐시 파이프라인: 한 번 쓰기, 이후 캐시 읽기
# Anthropic 프롬프트 캐싱: write 1.25x base, read 0.10x base
write_cost = (fixture_tokens / 1_000_000) * 15.00 * 1.25 # $5.25
read_cost = (fixture_tokens / 1_000_000) * 15.00 * 0.10 # 매번 $0.42
total_shared = write_cost + read_cost * (articles - 1)
# $5.25 + $1.26 = 4 편 합계 $6.51
# vs 풀 입력가의 순진한 방식 $16.80
# 출력 토큰 빼고 입력에서만 61% 절감
5 분 TTL 이 함정입니다. 글을 하루씩 띄워서 쓰면서 캐시가 따뜻하게 유지될 거라 기대할 수 없습니다. 캐시가 콜드 스타트 할 때마다 캐시 쓰기 수수료를 또 냅니다. 실전에서 통하는 전략 두 가지.
첫째, 런을 배치 처리합니다. 2 편과 3 편을 같은 90 분 작성 세션 안에서 같이 돌렸습니다. 세션 내내 캐시 읽기 사이 벽시간이 항상 5 분 미만이라 Claude Opus 4.7 캐시가 세션 끝까지 따뜻했습니다. 두 글 합산 Anthropic 입력 비용이 $4.20 가 아니라 $1.10 이었습니다.
둘째, 배치가 불가능할 때는 TTL 이 더 긴 프로바이더를 씁니다. Vertex AI 의 Gemini implicit 캐싱은 효과적 1 시간 윈도우입니다. OpenRouter 의 Gemma 4 31B 는 현재 캐싱이 없는데, 사실 괜찮습니다. Gemma 4 의 풀 입력 가격이 이미 너무 싸서 캐싱 절감은 반올림 오차거든요. 큰 캐시 레버는 정확히 비싼 모델에서 의미가 있고, 정확히 비싼 모델을 쓰면서 우리는 가장 절실하게 그걸 쓰고 싶어집니다.
이 시리즈에 대한 솔직한 추정 숫자: 4 편 전부를 Anthropic Claude Opus 4.7 에서 캐싱 없이 순진하게 돌렸다면 인사이트 1 개당 평균 $0.32. 작성 세션 내 캐시 공유 + 반복 패스는 Gemma 4 31B 가 담당하는 실제 청구 평균은 인사이트 1 개당 $0.04. 헤드라인의 87% 인하가 이 숫자입니다.
명확히 해두겠습니다. 비교의 Claude Opus 4.7 숫자들은 1-3 편에서 실제로 청구된 달러입니다. "전부 Claude Opus 4.7 에 캐싱 없이 돌렸다면" 숫자는 추정값이며, 같은 픽스처 크기와 2026-05-18 기준 Anthropic 공시 가격으로 계산했습니다. 제가 실제로 인사이트당 $4 를 지불했다는 주장이 아닙니다. 이 작업을 캐싱 전략 없이 Anthropic 에서 복제하려는 개발자는 대략 그 정도를 지불하게 된다는 주장입니다.
섹션 4: Gemma 4 가 여전히 지는 지점
솔직 섹션. 키트가 모든 격차를 메우지 않습니다. 풀 컨텍스트 스택으로도 Gemma 4 가 못 잡는 1 개는 트레이딩 봇의 크론 틱과 SIGKILL 복구 핸들러 사이의 미묘한 레이스 컨디션입니다. 크론은 매 분 0 초에 발화합니다. SIGKILL 복구 핸들러는 프로세스 재시작 시 트리거되어 최신 스냅샷에서 상태를 재구성하지만, 스냅샷 타임스탬프는 초 단위 해상도로 기록됩니다. 59 초에 SIGKILL 이 나고 복구 프로세스가 다음 분 1 초에 끝나면, 복구 스냅샷과 다음 크론 틱이 같은 상태 row 를 두고 레이스합니다.
Claude Opus 4.7 가 잡습니다. Gemini 3.1 Pro 가 잡습니다. DeepSeek V4 Pro 가 잡습니다. Gemma 4 31B 는 풀 컨텍스트 키트와 concurrency.timing_race 라는 명시적 실패 카테고리가 있어도 못 잡습니다.
이유를 보려고 실패한 Gemma 4 출력을 읽었습니다. 패턴이 일관됩니다. Gemma 4 는 크론 경로와 SIGKILL 경로를 독립적으로 추적하고 각각을 격리 검증합니다. 두 트레이스를 동시에 워킹 메모리에 들고 있지 않습니다. 그게 레이스를 발견하려면 필요한데 말이죠. 다른 세 모델은 두 트레이스를 동시에 들고 명시적으로 타이밍 다이어그램을 적습니다. 이건 31B 파라미터 모델의 chain-of-thought 깊이 한계입니다. 프롬프트 쪽 컨텍스트 엔지니어링으로 모델 쪽 워킹 메모리 한계를 고칠 수 없습니다.
그래서 파이프라인에는 프론티어 모델 1 개를 특정 패스 클래스 (stateful 코드의 타이밍 및 동시성 리뷰) 용으로 벤치에 둡니다. 그 외(아키텍처 감사, 보안 스팟체크, 로그 분석, 스키마 리뷰, 산문 비평, 구조화 추출)는 Gemma 4 31B 가 프론티어 비용의 1% 이하로 처리합니다. 분배:
| 워크로드 | 주 모델 | 프론티어 에스컬레이션? | 비용 클래스 |
|---|---|---|---|
| 트레이딩 로그 분석 | Gemma 4 31B | 없음 | 패스당 $0.04 |
| 아키텍처 감사 | Gemma 4 31B | 레이스 컨디션일 때만 | 패스당 $0.04 |
| 보안 스팟체크 | Gemma 4 31B | 없음 | 패스당 $0.04 |
| 산문 비평 (KR) | Gemma 4 31B | 문학적 톤만 | 패스당 $0.04 |
| 동시성 리뷰 | Claude Opus 4.7 | N/A | 패스당 $0.94 |
| 다단계 플래닝 | Claude Opus 4.7 | N/A | 패스당 $0.94 |
제 실제 워크로드의 약 85% 가 위 네 줄에 있습니다. 약 15% 가 아래 두 줄. 이 라우팅에서 현재 사용량 기준 월 평균 추론 비용은 Gemma 4 약 $4.20, 에스컬레이션 패스의 Claude Opus 4.7 약 $11. 합 월 $15. 같은 워크로드를 전부 Claude Opus 4.7 에 돌렸다면 월 약 $112.
섹션 5: 멀티 에이전트 비용 캐스케이드
저를 놀라게 한 짧은 섹션. 같은 Gemma 4 31B 를 멀티 에이전트 캐스케이드에 끼우면 인사이트당 비용이 더 떨어집니다. 더 오르는 게 아니라. 3 에이전트 셋업:
# 멀티 에이전트 캐스케이드. 같은 픽스처, 3 에이전트.
#
# Agent 1: Generator. 픽스처 읽고, 초안 발견 JSON emit.
# Agent 2: Critic. 초안 읽고, 비평 + missed-cat 목록 emit.
# Agent 3: Synth. 초안 + 비평 읽고, 최종 발견 JSON emit.
generator_input = 280_000 # 풀 픽스처
generator_output = 3_600 # 초안 발견 JSON
critic_input = 3_600 # 픽스처 아닌, 초안만
critic_output = 1_200 # 비평 + missed-cat 목록
synth_input = 4_800 # 초안 + 비평
synth_output = 4_000 # 최종 발견 JSON
# Gemma 4 31B 가격: $0.12 in, $0.37 out per million
gen_cost = 280 * 0.12 / 1000 + 3.6 * 0.37 / 1000 # $0.0347
crit_cost = 3.6 * 0.12 / 1000 + 1.2 * 0.37 / 1000 # $0.00088
synth_cost = 4.8 * 0.12 / 1000 + 4.0 * 0.37 / 1000 # $0.00206
total_cascade = gen_cost + crit_cost + synth_cost # $0.0376
캐스케이드는 패스당 $0.038 이고 (단일 에이전트의 $0.046 대비) 픽스처에서 12/12 를 잡습니다. 크리틱 에이전트는 특히 제너레이터의 categories_not_found 필드를 읽고, 제너레이터가 건너뛴 카테고리마다 짧은 챌린지 노트를 작성합니다. 신써사이저는 크리틱 노트를 컨텍스트에 두고 그 카테고리들을 재고합니다.
3 에이전트 중 2 개 (크리틱, 신써사이저) 가 작은 입력 (수천 토큰) 위에서 작동하므로 비용이 반올림 오차입니다. 비싼 호출은 제너레이터의 280K 입력 패스 한 번. 그 다음부터는 사실상 공짜.
이게 이 시리즈를 시작할 때 예상 못 한 멀티 에이전트 발견입니다: 약한 에이전트 3 개를 캐스케이드에 두면 같은 픽스처에서 강한 에이전트 1 개와 매칭되고, 모든 추론을 한 방에 처리해야 하는 단일 약한 에이전트보다 총 비용이 더 낮습니다. 이유는 캐스케이드의 각 에이전트가 한 가지만 잘하면 되기 때문입니다. 제너레이터는 후보를 표면화합니다. 크리틱은 도전합니다. 신써사이저는 통합합니다. 각 단계가 워킹 메모리 풋프린트가 작은데, 그게 정확히 31B 파라미터 모델의 제약입니다.
섹션 6: 복제 키트
이 시리즈 내내 사용한 6 개 MD 파일은 오픈 소스입니다. MIT. 무료.
CLAUDE.md: AI 용 프로젝트 지침, 실패 패턴 정의 포함AGENTS.md: 크로스 툴 출력 컨벤션 (Claude Code, Cursor, Aider, Copilot 모두 네이티브로 읽음)MEMORY.md: 세션 간 영속 발견TESTING.md: 검증 흐름과 완료 기준GLOSSARY.md: 한국어 / 영어 / 코드 식별자 매핑 (이중 언어 파이프라인에서 load-bearing)docs/adr/0001-template.md: MADR 형식 결정 기록
레포: github.com/wildeconforce/agent-starter-kit
5 시간 빌드 대신 5 분 셋업을 원하는 한국 독자분들을 위해, 같은 6 개 파일을 AgentClient.exe 더블 클릭 래퍼, FAQ 8 개, 자동 응답 5 종, 상세 이미지 9 컷, 한국어 워크스루 영상과 함께 패키징해 크몽에 올려뒀습니다. 크몽 리스팅: agent-starter-kit, ₩39,000.
왜 한쪽은 팔고 한쪽은 오픈하는지 분명히 해두겠습니다. 6 개 MD 파일이 코드로는 그 자체로 충분합니다만, FAQ 8 개, 자동 응답 5 종, 상세 이미지, 워크스루가 없으면 셋업하다 시간이 빨려 들어갑니다. GitHub 레포를 읽고 본인 프로젝트에 맞게 적응시키는 게 편한 분들에게는 MIT 버전이 정확히 필요한 그것이고 번들에 닫혀 있는 게 없습니다. 5 분이 ₩39K 보다 더 소중한 분에게는 번들이 있습니다. 역량을 게이팅하는 게 아니라 압축된 노동을 게이팅합니다.
마무리
5 개월 전이라면 트레이딩 봇 로그 1 회 감사에 $1.50 을 지불했을 겁니다. 오늘은 $0.04 를 지불합니다. 그 감사는 5 개월 전보다 발견을 1 개 더 잡고 가격은 35 분의 1 입니다. 프론티어에는 여전히 빛나는 순간이 있고, 동시성 리뷰와 다단계 플래닝 패스를 위해 벤치에 두긴 합니다. 하지만 실제로 무엇이 출시되는지를 결정하는 반복 작업은 이제 매 리비전마다 돌릴 만큼 작은 돈이 되었습니다. 일주일에 한 번이 아니라요.
비용 엔지니어링이 만드는 차이는 그것입니다. 모델이 그 일을 할 수 있는지 여부가 아니라, 그 일의 매 반복마다 돌릴 여유 가 있는지 여부.
이 시리즈의 다음 글 (목표 2026-05-22 KST) 은 프로덕션 배포 면을 다룰 예정입니다. 같은 Gemma 4 31B + 컨텍스트 키트가 제 크몽 실시간 리스팅 응답 파이프라인과 멀티 에이전트 자가검증 cron 에 배선되어 있습니다. 작성 시점 기준 cron 이 18 일째 돌고 있습니다. 그 기간 총 비용: $3.21. 표면화 및 해결된 발견: 24 건. 해결된 발견당 비용 바닥이 계속 떨어지고 있습니다.
레포: github.com/wildeconforce/agent-starter-kit (MIT)
번들: 크몽 리스팅, 한국어 워크스루 + AgentClient.exe 래퍼
크로스 링크: VERICUM ENT / WILD_SNIPER 일지