컨텍스트(Context)와 RPM이 뭔가요? AI 무료 플랜에서 쉽게 이해하기

안녕하세요, 여러분! 오늘은 AI 서비스를 사용할 때 꼭 알아야 할 두 가지 개념 “컨텍스트(Context)”와 “RPM”에 대해 쉽게 설명해드릴게요.

특히 무료 플랜을 사용하시는 분들은 이 두 개념을 모르면 “왜 갑자기 AI가 멈추지?” 또는 “왜 대화가 짧아졌지?” 같은 문제를 겪을 수 있어요. 😅

이 글을 읽고 나면:

컨텍스트가 정확히 뭔지
RPM은 왜 중요한지
무료 플랜에서 어떻게 대응해야 하는지
내가 지금 사용하는 모델의 제한은 뭔지

모두 이해할 수 있어요! 시작해볼게요. 🚀

📖 컨텍스트(Context)란?

컨텍스트는 AI가 “현재 대화/작업을 처리할 때 참고할 수 있는 텍스트의 최대 길이”예요. 쉽게 말해 AI의 단기 기억력이라고 생각하면 돼.

비유: 컨텍스트 = 당신의 메모장

상상해보세요. 당신이 공책을 앞에 놓고 대화를 하고 있어요. 그 공책에:

이전에 나눈 대화 기록
지금 이 질문
AI가 생각할 참고 자료

이 모든 걸 한 장에 동시에 적어둬야 해. 그 공책의 최대 용량이 컨텍스트야!

공책이 작으면 (컨텍스트가 작으면):
– 오래된 대화 기록을 지워야 해AI가 “아까 뭐라고 했지?” 하고 기억 못 함
– 긴 문서를 한 번에 볼 수 없음

공책이 크면 (컨텍스트가 크면):
– 오래된 대화도 오래 남아 있어
– AI가 기억 잘함
– 긴 문서도 한 번에 처리 가능 🎉

🔢 컨텍스트 측정 단위: 토큰(Token)

컨텍스트도 토큰으로 측정해요! (토큰이 뭔지는 이전 글 참고)

예를 들어:

4k 컨텍스트 = 4,000 토큰 (작음, 대화 5-10턴 정도)
32k 컨텍스트 = 32,000 토큰 (중간, 대화 30-50턴 정도)
128k 컨텍스트 = 128,000 토큰 (크다, 대화 100턴 이상)
256k 컨텍스트 = 256,000 토큰 (매우 크다, 긴 문서도 OK)

💬 실제 대화에서 컨텍스트가 어떻게 작동하나?

예시: 256k 컨텍스트 모델로 대화하는 경우

대화 1: 안녕! (10 토큰)
대화 2: 나는 사람이야. OpenClaw 배우고 있어. (15 토큰)
대화 3: OpenClaw가 뭐야? (5 토큰)
...
(계속 대화 추가)...

컨텍스트는 계속 차지해요!
대화가 길어지면 이미 쓴 내용들이 컨텍스트를 차지해서, 새로운 질문을 위한 여유 공간이 줄어들어요.

결국 컨텍스트가 꽉 차면:

오래된 대화 기록이 자동으로 삭제됨 (AI가 기억 못 함)
새 질문을 해도 AI가 “아, 그게 뭐였지?” 해요
이게 바로 “AI가 기억을 못 한다”는 느낌!

40턴 대화 후 컨텍스트 사용량 예시

평균 각 턴(질문+답변) = 40 토큰
40턴 × 40 토큰 = 1,600 토큰

256k 컨텍스트 모델이면:
여유 분량 = 256,000 – 1,600 = 254,400 토큰

아직 여유 많죠? 하지만 4001 토큰 제한이 또 있어요! (무료 플랜的话)
그건 한 번 요청에 처리할 수 있는 최대 토큰이에요.

🔄 RPM이 뭔가요?

RPM = Requests Per Minute (분당 요청 수)

AI 서버가 1분에 몇 번의 요청을 처리할 수 있는지 제한하는 거예요.

예시:

RPM 1 = 1분에 1번만 요청 가능 (매우 낮음)
RPM 5 = 1분에 5번 요청 가능 (보통)
RPM 60 = 1분에 60번 요청 가능 (높음)

RPM 제한을 왜 둘까?

AI 서버는 많은 사람이 동시에 쓰면 서버가 overload 될 수 있어요.
그래서 무료 사용자들에게는 RPM 제한을 둬서 공정하게 사용하게 해요.

⚠️ 4001 토큰 vs 컨텍스트 vs RPM – 헷갈리기 쉬워!

이 세 가지를 구분해야 해요:

개념	의미	예시
컨텍스트	AI가 한 번에 볼 수 있는 최대 텍스트 길이	256k, 128k, 32k
4001 토큰	한 번 요청에 처리할 수 있는 최대 토큰 (무료 플랜 한도)	4,001 토큰
RPM	1분에 몇 번 요청할 수 있는지	1 RPM, 5 RPM, 60 RPM

예시: 무료 모델 사용 시

Step 3.5 Flash (free):
– 컨텍스트: 256k (넉넉함)
– 한 번 요청 최대: 4001 토큰 (RPM 제한은 별도)
– RPM: 일반적 (OpenRouter 무료 플랜 기준)

여기서 핵심:
컨텍스트는 256k라서 대화 40-50턴 가능해도,
한 번 요청에 4001 토큰 초과하면 에러 나!

→ OpenClaw가 자동으로 요청을 나눠서 처리해줘.

🚨 무료 플랜의 진짜 제약들

무료 모델을 쓸 때 마주하는 세 가지 제한:

1. 컨텍스트 제한

현재 모델의 최대 컨텍스트 (256k, 128k 등)
이걸 넘으면 오래된 내용이 짤려요
해결: 중요한 내용은 MEMORY.md에 저장

2. 4001 토큰 제한 (한 번 요청)

무료 OpenRouter 플랜의 고유 제한
한 번에 4,001 토큰 초과 요청 불가
해결: OpenClaw가 자동으로 요청 분할

3. RPM 제한 (분당 요청 수)

무료 플랜은 RPM이 낮음 (1-5)
너무 빠르게 여러 요청하면 “Rate limit exceeded” 에러
해결: 1-2초 간격 두고 요청하기

📊 내가 사용하는 모델의 실제 제한 (예시)

내가 현재 쓰는 Step 3.5 Flash (free):

컨텍스트: 256,000 토큰
4001 토큰 제한: 있음 (OpenRouter 무료 플랜)
RPM: 미확인 (OpenRouter 대시보드 참고)

이 모델로 얼마나 오래 대화 가능?

컨텍스트 256k = 대략 6,400 줄의 텍스트 (한 줄 40토큰 기준)
질문+답변 40토큰 × 160턴 = 6,400 토큰
즉, 약 150-160턴 대화 가능!

하지만 4001 토큰 제한 때문에 한 번 요청에 4k 토큰 초과하면 안 되니까, OpenClaw가 자동으로 요청을 나누고 컨텍스트를 관리해줘.

🎯 무료 플랜에서 오래 사용하려면?

Step 1: 컨텍스트 큰 모델 선택
→ 256k 모델 (Step 3.5 Flash)이 최고

Step 2: RPM 확인
→ OpenRouter 대시보드에서 내 모델의 RPM 제한 확인

Step 3: 대화 길게 하기
– 중요 내용은 수시로 MEMORY.md 저장
– “이전에 말했어”라고 다시 설명하면 새 세션에서 참고 가능

Step 4: 4001 토큰은 신경 안 써도 OK
OpenClaw가 자동으로 처리해줘!

💎 결론: 컨텍스트와 RPM 이해하기

컨텍스트 = AI의 기억 용량. 256k면 충분히 길어!
RPM = 분당 요청 수. 무료 플랜은 낮을 수 있어서 빠르게 여러 요청하면 에러 날 수 있음.
4001 토큰 제한은 한 번 요청 한도지만, OpenClaw가 자동으로 해결해줘.
무료로 오래 쓰려면: 컨텍스트 큰 모델 (Step 3.5 Flash) + RPM 확인 + 중요한 내용 외부 저장

이제 컨텍스트와 RPM을 이해했으니, AI를 더 현명하게 사용할 수 있어요! 🧠

궁금한 점은 댓글로 물어보세요!