Blog Pion79

edited-gemini_aurora_thumbnail_4g_e74822ff0ca4259beb718.png

1. 표준, 일괄(Batch)·Flex, 우선순위(Priority)란?

구글은 API를 요청할 때 "얼마나 빨리 답변을 받아야 하는가?"에 따라 서비스를 4가지 종류(추론 티어)로 나누어 두었습니다. 식당으로 비유하면 이해가 쉽습니다.

표준 (Standard): 기본 서비스입니다. 유저가 질문하면 몇 초 안에 바로 답변이 오는 일반적인 실시간 대화 모드입니다.
Flex (플렉스) / 일괄 (Batch): "답변이 좀 늦게 나와도 되니 싸게 해줘" 모드입니다. 구글 서버가 한가할 때(오프라인 상태) 계산을 돌리기 때문에, 답변이 나오는 데 수 분에서 최대 24시간까지 걸릴 수 있습니다. 대신 표준 요금에서 50%나 할인해 줍니다. (대량 데이터 분석, 백그라운드 작업용)
우선순위 (Priority): "돈을 더 낼 테니 트래픽이 몰려도 내 걸 1순위로 빠르게 처리해 줘" 모드입니다. 대형 서비스나 중요한 비즈니스 챗봇을 운영할 때 쓰이며, 표준 요금보다 약 75% ~ 100% 더 비쌉니다.

2. 요금 항목 분석 (Gemini 2.5 Pro 표준 기준)

질문해주신 수치들은 "텍스트 1백만 토큰(글자 수 약 70만 자 이상)"을 보냈거나 받았을 때 청구되는 금액입니다.

1) 입력 가격 (사용자가 AI에게 보낸 글자 수 비용)

$1.25 (프롬프트 <= 200,000 토큰): 질문(System Instruction + 유저 질문)의 길이가 대략 책 반 권 분량(20만 토큰) 이하일 때는 1백만 토큰당 약 1.25달러를 받습니다.
$2.50 (프롬프트 > 200,000 토큰): 만약 질문할 때 첨부한 데이터나 과거 대화 내용이 너무 길어서 책 반 권 분량을 넘어가면, 구글 서버가 계산해야 할 양이 급증하므로 요금을 2배($2.50)로 올려 받습니다.

2) 출력 가격 (AI가 나에게 답변해 준 글자 수 비용)

$10.00 (질문이 20만 토큰 이하일 때 답변 가격): AI가 내놓은 답변 1백만 토큰당 10달러를 받습니다. (여기서 '사고 토큰'이란 AI가 최종 답변을 내기 전 내부적으로 혼자 추론하고 생각한 프로세스 토큰을 뜻합니다.)
$15.00 (질문이 20만 토큰을 초과할 때 답변 가격): 앞서 보낸 질문이 너무 길었다면, 답변을 만들어 낼 때도 서버 과부하가 걸리기 때문에 답변 요금도 15달러로 할증됩니다.

3) 컨텍스트 캐싱 가격 (지난번에 설명해 드린 단골 데이터 보관 비용)

대량의 맞춤형 데이터(System Instruction)를 매번 새로 보내면 너무 비싸니까, 구글 서버 메모리에 미리 올려두고 재사용하는 기술입니다.

$0.125 / $0.25 (캐시 읽기 요금): 이미 저장된 캐시 데이터에서 지침을 읽어올 때는, 원래 입력 요금($1.25 / $2.50)의 딱 10분의 1 가격만 받겠다는 뜻입니다. (비용이 90% 절감됩니다.)
시간당 1,000,000개 토큰당 $4.50 (스토리지 가격): 단, 구글 서버 메모리에 내 맞춤형 지침(1백만 토큰 기준)을 지우지 않고 올려두고 유지하는 방세(보관료)로 시간당 4.5달러를 청구한다는 의미입니다.

A4 용지 1장 분량의 정보를 System Instruction에 넣고 서비스를 운영할 때의 실제 비용을 계산, 기존 질문에서 예시로 든 최고 사양 모델인 Gemini 2.5 Pro와, 가성비가 좋아 실제 서비스에 가장 많이 쓰이는 Gemini 2.5 Flash 두 가지 모델 기준으로 나누어 아주 직관적인 설명입니다.

■ 기본 가정 (토큰 수 계산)

A4 용지 1장 분량: 한글 기준 공백 포함 약 1,000자 ~ 1,500자 정도이며, 토큰으로 환산하면 약 1,000 ~ 1,500 토큰입니다. 계산 편의상 넉넉하게 1,500 토큰으로 잡겠습니다.
사용자의 질문: "여기서 환불 조건이 뭐야?" 같은 짧은 문장 (약 20 토큰)
AI의 답변 분량: A4 반 장 정도의 깔끔한 요약 답변 (약 500 토큰)

1. 최고 사양 모델: Gemini 2.5 Pro 기준

앞서 보신 요금표(1백만 토큰당 입력 $1.25 / 출력 $10.00)를 적용해 한 번 질문할 때의 가격을 원화(현재 환율 약 1,350원 가정)로 환산해 보겠습니다.

💰 1회 질문 시 발생하는 비용

구분	계산 방식	달러(USD)	원화(KRW)
입력 비용	(지침 1,500 + 질문 20) $\times$ 백만 토큰당 $1.25	$0.0019	약 2.5원
출력 비용	답변 500 토큰 $\times$ 백만 토큰당 $10.00	$0.0050	약 6.7원
합계	1회 대화당 발생하는 총비용	$0.0069	약 9.2원

💡 Pro 모델 요약: 사용자가 질문을 한 번 던질 때마다 약 9원~10원의 비용이 나갑니다. 만약 사용자가 1,000번 질문을 던진다면 약 9,200원 정도가 청구됩니다.

⚠️ 참고 (캐싱 불가능): A4 1장 분량(1,500 토큰)은 구글의 콘텍스트 캐싱 최소 기준인 2,048 토큰보다 작기 때문에 캐싱 기능을 쓸 수 없습니다. 즉, 매번 입력 비용(2.5원)을 고스란히 내야 합니다.

2. 실전 가성비 모델: Gemini 2.5 Flash 기준

대부분의 개발자가 상용 서비스를 출시할 때는 요금이 훨씬 저렴한 Flash 모델을 선택합니다. Gemini 2.5 Flash의 가격은 1백만 토큰당 입력 $0.30 / 출력 $2.50으로 Pro 모델보다 약 4배가량 저렴합니다.

💰 1회 질문 시 발생하는 비용 (동일 조건)

구분	계산 방식	달러(USD)	원화(KRW)
입력 비용	(지침 1,500 + 질문 20) $\times$ 백만 토큰당 $0.30	$0.00045	약 0.6원
출력 비용	답변 500 토큰 $\times$ 백만 토큰당 $2.50	$0.00125	약 1.7원
합계	1회 대화당 발생하는 총비용	$0.00170	약 2.3원

💡 Flash 모델 요약: 대화 한 번에 단 돈 2.3원이면 충분합니다. 사용자가 1,000번을 질문해도 고작 2,300원밖에 들지 않아 대규모 서비스를 구축할 때 비용 부담이 극도로 적어집니다.

1건당 입력 2,000(2K) 토큰, 출력 1,500(1.5K) 토큰이 발생하는 환경이라면, 요구되는 작업의 복잡도(단순 요약/번역 vs 복잡한 추론/코딩)에 따라 Google Gemini API의 Flash 라인업 또는 Pro 라인업을 선택하는 것이 가장 효율적입니다.

현재 단가를 기준으로 1건당 발생하는 비용과 추천 설정, 최적화 팁을 상세히 정리해 드립니다.

1. 모델별 1건당 비용 비교 (1달러 = 1,350원 기준 환산)

Gemini API는 100만(1M) 토큰 단위로 과금됩니다. 질문하신 조건(입력 2K / 출력 1.5K)을 대입했을 때의 1건당 비용입니다.

모델명	특징	입력 비용 (1M당)	출력 비용 (1M당)	1건당 총비용 (달러)	1건당 총비용 (원화)
Gemini 2.5 Flash-Lite	단순 텍스트 분류, 데이터 추출, 초고속 처리	$0.10	$0.40	$0.0008	약 1.08원
Gemini 2.5 Flash	[추천] 속도, 비용, 성능의 가장 완벽한 밸런스	$0.30	$2.50	$0.00435	약 5.87원
Gemini 2.5 Pro	복잡한 논리 추론, 고난도 코딩, 정밀한 분석	$1.25	$10.00	$0.0175	약 23.63원

📊 사용량에 따른 월간 비용 예측 (Gemini 2.5 Flash 기준)

하루 1,000건 처리 시: 일일 약 5,870원 / 월간 약 176,000원
하루 10,000건 처리 시: 일일 약 58,700원 / 월간 약 1,760,000원

2. 상황별 추천 설정 (어떤 모델을 써야 할까?)

💡 일반적인 경우: Gemini 2.5 Flash 사용 (강력 추천)

출력이 1,500토큰 안팎으로 제법 긴 글쓰기나 상세한 답변 생성이 필요한 경우입니다. Flash 모델은 텍스트 생성 퀄리티가 뛰어나면서도 Pro 모델 대비 비용이 4배 이상 저렴하여 가성비가 가장 훌륭합니다.

💡 비용 극가성비가 최우선인 경우: Gemini 2.5 Flash-Lite 사용

출력 데이터가 정형화된 형태(JSON 구조체 반환, 짧은 문장 번역, 키워드 추출 등)이거나 대규모 트래픽을 저비용으로 처리해야 할 때 적합합니다. Flash 모델보다도 훨씬 저렴하게 운영할 수 있습니다.

💡 고난도 지적 작업인 경우: Gemini 2.5 Pro 사용

계약서 독해 및 법률 분석, 복잡한 소스 코드 생성, 정밀한 논리적 추론이 필요할 때만 제한적으로 도입하는 것을 권장합니다.

3. API 호출 시 필수 권장 설정 (API 파라미터)

출력 토큰이 1.5K(1,500토큰) 정도로 고정적이거나 안정적인 제어가 필요하므로 API 코드를 작성할 때 generationConfig를 아래와 같이 세팅하는 것을 추천합니다.

JSON

{
  "generationConfig": {
    "temperature": 0.7, 
    // 목적에 따른 조절: 창의적 글쓰기(0.8~1.0) / 데이터 추출 및 정밀 답변(0.1~0.3)
    
    "maxOutputTokens": 2000, 
    // 필요한 출력이 1.5K 내외이므로, 안전하게 2,000 토큰 정도로 상한선을 둡니다.
    // 만약 예기치 않게 AI가 무한 루프를 돌며 과도한 출력을 내어 비용이 낭비되는 것을 방지합니다.
    
    "topP": 0.95,
    
    "responseMimeType": "text/plain" 
    // 만약 챗봇 웅답이 아닌 데이터 파싱용 목적이라면 "application/json"으로 설정하세요.
  }
}

4. 추가 비용 절감 팁 (Context Caching 활용)

만약 입력 2K 토큰 중에서 '매번 똑같이 들어가는 공통 배경 지식(System Instruction, 매뉴얼, 긴 프롬프트 템플릿 등)'이 1,000토큰 이상을 차지한다면, Google의 Context Caching(컨텍스트 캐싱) 기능을 무조건 적용해야 합니다.

효과: 동일한 입력을 캐싱해 두면, 다음 호출부터는 입력 토큰 비용이 약 10% 수준으로 대폭 할인됩니다 (Flash 기준 1M당 $0.30 ➡️ $0.03으로 감소).
조건: 캐싱하려는 베이스 토큰의 크기가 최소 32K(약 32,000 토큰) 이상일 때 생성 및 유지가 가능하므로, 1건당 2K씩 여러 개의 대화를 묶어서 하나의 컨텍스트로 관리하거나, 수많은 공통 매뉴얼을 주입할 때 유용합니다.

요약하자면, 우선 Gemini 2.5 Flash 모델로 테스트를 시작하시고, 가성비를 더 극대화해야 한다면 Lite 모델로 전환하시는 시나리오를 가장 추천해 드립니다.

Gemini API 요금제