← 빌드 일지
AI Lab2026-04-21·4분 읽기

Claude Opus 4.7 vs GPT-5 vs Gemini 3 Pro — 같은 프로젝트 3개 동시 진행해본 진짜 비교

벤치마크 점수 말고, 실제 빌더 작업으로 비교. LFA 모듈 짜기 / WILD_SNIPER 디버깅 / Vericum 콘텐츠 생성 — 같은 작업 3개 모델에 동시에 던졌다.

벤치마크와 빌더의 차이

LMSys Arena, MMLU, HumanEval 같은 벤치마크 점수만 보고 모델 고르는 건 위험하다. 빌더가 실제로 마주하는 작업은 그 시험과 다르다.

3개 프로젝트의 진짜 작업 9개에 Claude Opus 4.7 / GPT-5 / Gemini 3 Pro Preview를 똑같이 던져 비교했다.

비교 작업

LFA 프로젝트 (3개)

  1. 14모듈 인터페이스 스켈레톤 짜기 (큰 컨텍스트)
  2. Mock Trial Engine 멀티에이전트 설계 (논리 추상화)
  3. PII redaction 정규식 작성 (정확성)

WILD_SNIPER 프로젝트 (3개)

  1. V4.1 거래 로그 CSV 분석 (데이터 처리)
  2. SAFE-15 블랙리스트 로직 디버깅 (코드 추적)
  3. 백테스트 결과 markdown 보고서 작성 (구조화)

Vericum Fasti 프로젝트 (3개)

  1. 한국어 60초 영상 스크립트 (창의 글쓰기)
  2. 사실 검증 (날짜·인물·금액)
  3. YouTube 메타데이터 (제목·설명·태그)

결과 표

✅ = 가장 잘함, 🟡 = 평균, ❌ = 부족

작업Claude 4.7GPT-5Gemini 3 Pro
1. 14모듈 인터페이스 (큰 컨텍스트)🟡
2. 멀티에이전트 설계 (논리)🟡🟡
3. PII redaction 정규식🟡
4. CSV 분석🟡
5. 코드 디버깅🟡🟡
6. 보고서 markdown🟡🟡
7. 한국어 스크립트🟡
8. 사실 검증🟡
9. YouTube 메타🟡🟡
합계 ✅633

카테고리별 강점

Claude Opus 4.7 — 빌더 작업의 만능

  • 큰 컨텍스트 + 일관된 voice + 도구 사용 + 한국어 → 풀 스택 빌더에 압도적
  • LFA 14모듈 한 번에 짜는 것 같은 큰 구조 작업에서 압승
  • 디버깅에서 코드 추적 → 가설 → 검증 → 결론 흐름이 가장 깔끔

GPT-5 — 단발성 정확성

  • 사실 검증 / 데이터 처리 / 메타데이터 같은 closed-task 정확성 우위
  • 짧은 답이 필요한 작업에 빠름
  • 한국어 글쓰기는 어색한 부분 있음

Gemini 3 Pro Preview — 한국어 + 큰 컨텍스트 + 무료

  • 한국어 작업에서 가장 자연스러운 부분 있음 (특히 일상·창의)
  • 1M context로 LFA 같은 대규모 분석 가능
  • 무료라는 가성비 — 하루 종일 쓰면 사실상 다른 모델 안 사도 됨

빌더 시나리오별 모델 권장

시나리오 A — 새 프로젝트 0→1 빌드

메인: Claude Opus 4.7

이유: 큰 컨텍스트, 일관된 코드 구조, 도구 사용 강함. 14모듈 LFA 같은 작업에서 GPT-5보다 명백히 강함.

시나리오 B — 기존 코드베이스 단발 수정

메인: GPT-5

이유: 빠른 답, 짧은 코드 수정에 강함. 코드베이스 전체 컨텍스트 필요 없는 단발 task에 효율적.

시나리오 C — 한국어 / 큰 분석 작업

메인: Gemini 3 Pro Preview

이유: 한국어 자연스러움 + 1M context + 무료. 비용 0으로 시작하기에 좋고, 결과 quality도 충분.

시나리오 D — 사실 검증·데이터 처리

메인: GPT-5

이유: closed-question에서 정확도 우위. Vericum Fasti 사실 검증 같은 작업.

시나리오 E — 멀티 모델 cross-check

3개 모두

이유: 한 모델의 답을 다른 두 모델에 검증 시키면 hallucination 감지 가능. 중요한 결정은 cross-check가 정답.

빌더의 실용 룰 (5개월 후)

  1. 메인: Claude Opus 4.7 (Pro 100 또는 Pro 5)
  2. 보조 1: Gemini 3 Pro Preview (무료, 큰 컨텍스트 작업)
  3. 보조 2: GPT-5 (사실 검증, 짧은 task — API 호출당 결제)
  4. 큰 결정은 3개 모두에 던져 cross-check

이 셋업으로 5개월 7개 빌드 가능. 단일 모델로 가는 게 아니라 다중 모델 활용이 중요.

흥미로운 발견

  1. GPT-5의 한국어가 생각보다 약함 — 영문 직역 느낌이 가끔 살아남
  2. Gemini 3 Pro의 무료 가치 — 거의 모든 작업에서 paid 모델과 비슷한 quality
  3. Claude 4.7의 도구 사용 강세 — Bash / Edit / 다중 파일 동시 처리에서 압도

한 줄 결론

벤치마크는 무시. 본인의 프로젝트 3-5개 작업에 직접 던져보고 결정. 5개월 빌드 데이터 기준 — Claude 메인 + Gemini 보조 + GPT 단발이 인디 빌더의 sweet spot.

— Jack

Wildeconforce

매일 만들고, 매일 분석하고, 매일 기록합니다.
© 2026 wildeconforce · build-in-public

이 사이트는 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.