안녕하세요, 여러분! 오늘은 AI 서비스를 사용할 때 꼭 알아야 할 두 가지 개념 “컨텍스트(Context)”와 “RPM”에 대해 쉽게 설명해드릴게요.
특히 무료 플랜을 사용하시는 분들은 이 두 개념을 모르면 “왜 갑자기 AI가 멈추지?” 또는 “왜 대화가 짧아졌지?” 같은 문제를 겪을 수 있어요. 😅
이 글을 읽고 나면:
- 컨텍스트가 정확히 뭔지
- RPM은 왜 중요한지
- 무료 플랜에서 어떻게 대응해야 하는지
- 내가 지금 사용하는 모델의 제한은 뭔지
모두 이해할 수 있어요! 시작해볼게요. 🚀
📖 컨텍스트(Context)란?
컨텍스트는 AI가 “현재 대화/작업을 처리할 때 참고할 수 있는 텍스트의 최대 길이”예요. 쉽게 말해 AI의 단기 기억력이라고 생각하면 돼.
비유: 컨텍스트 = 당신의 메모장
상상해보세요. 당신이 공책을 앞에 놓고 대화를 하고 있어요. 그 공책에:
- 이전에 나눈 대화 기록
- 지금 이 질문
- AI가 생각할 참고 자료
이 모든 걸 한 장에 동시에 적어둬야 해. 그 공책의 최대 용량이 컨텍스트야!
공책이 작으면 (컨텍스트가 작으면):
– 오래된 대화 기록을 지워야 해
AI가 “아까 뭐라고 했지?” 하고 기억 못 함
– 긴 문서를 한 번에 볼 수 없음
공책이 크면 (컨텍스트가 크면):
– 오래된 대화도 오래 남아 있어
– AI가 기억 잘함
– 긴 문서도 한 번에 처리 가능 🎉
🔢 컨텍스트 측정 단위: 토큰(Token)
컨텍스트도 토큰으로 측정해요! (토큰이 뭔지는 이전 글 참고)
예를 들어:
- 4k 컨텍스트 = 4,000 토큰 (작음, 대화 5-10턴 정도)
- 32k 컨텍스트 = 32,000 토큰 (중간, 대화 30-50턴 정도)
- 128k 컨텍스트 = 128,000 토큰 (크다, 대화 100턴 이상)
- 256k 컨텍스트 = 256,000 토큰 (매우 크다, 긴 문서도 OK)
💬 실제 대화에서 컨텍스트가 어떻게 작동하나?
예시: 256k 컨텍스트 모델로 대화하는 경우
대화 1: 안녕! (10 토큰)
대화 2: 나는 사람이야. OpenClaw 배우고 있어. (15 토큰)
대화 3: OpenClaw가 뭐야? (5 토큰)
...
(계속 대화 추가)...
컨텍스트는 계속 차지해요!
대화가 길어지면 이미 쓴 내용들이 컨텍스트를 차지해서, 새로운 질문을 위한 여유 공간이 줄어들어요.
결국 컨텍스트가 꽉 차면:
- 오래된 대화 기록이 자동으로 삭제됨 (AI가 기억 못 함)
- 새 질문을 해도 AI가 “아, 그게 뭐였지?” 해요
- 이게 바로 “AI가 기억을 못 한다”는 느낌!
40턴 대화 후 컨텍스트 사용량 예시
평균 각 턴(질문+답변) = 40 토큰
40턴 × 40 토큰 = 1,600 토큰
256k 컨텍스트 모델이면:
여유 분량 = 256,000 – 1,600 = 254,400 토큰
아직 여유 많죠? 하지만 4001 토큰 제한이 또 있어요! (무료 플랜的话)
그건 한 번 요청에 처리할 수 있는 최대 토큰이에요.
🔄 RPM이 뭔가요?
RPM = Requests Per Minute (분당 요청 수)
AI 서버가 1분에 몇 번의 요청을 처리할 수 있는지 제한하는 거예요.
예시:
- RPM 1 = 1분에 1번만 요청 가능 (매우 낮음)
- RPM 5 = 1분에 5번 요청 가능 (보통)
- RPM 60 = 1분에 60번 요청 가능 (높음)
RPM 제한을 왜 둘까?
AI 서버는 많은 사람이 동시에 쓰면 서버가 overload 될 수 있어요.
그래서 무료 사용자들에게는 RPM 제한을 둬서 공정하게 사용하게 해요.
⚠️ 4001 토큰 vs 컨텍스트 vs RPM – 헷갈리기 쉬워!
이 세 가지를 구분해야 해요:
| 개념 | 의미 | 예시 |
|---|---|---|
| 컨텍스트 | AI가 한 번에 볼 수 있는 최대 텍스트 길이 | 256k, 128k, 32k |
| 4001 토큰 | 한 번 요청에 처리할 수 있는 최대 토큰 (무료 플랜 한도) | 4,001 토큰 |
| RPM | 1분에 몇 번 요청할 수 있는지 | 1 RPM, 5 RPM, 60 RPM |
예시: 무료 모델 사용 시
Step 3.5 Flash (free):
– 컨텍스트: 256k (넉넉함)
– 한 번 요청 최대: 4001 토큰 (RPM 제한은 별도)
– RPM: 일반적 (OpenRouter 무료 플랜 기준)
여기서 핵심:
컨텍스트는 256k라서 대화 40-50턴 가능해도,
한 번 요청에 4001 토큰 초과하면 에러 나!
→ OpenClaw가 자동으로 요청을 나눠서 처리해줘.
🚨 무료 플랜의 진짜 제약들
무료 모델을 쓸 때 마주하는 세 가지 제한:
1. 컨텍스트 제한
- 현재 모델의 최대 컨텍스트 (256k, 128k 등)
- 이걸 넘으면 오래된 내용이 짤려요
- 해결: 중요한 내용은 MEMORY.md에 저장
2. 4001 토큰 제한 (한 번 요청)
- 무료 OpenRouter 플랜의 고유 제한
- 한 번에 4,001 토큰 초과 요청 불가
- 해결: OpenClaw가 자동으로 요청 분할
3. RPM 제한 (분당 요청 수)
- 무료 플랜은 RPM이 낮음 (1-5)
- 너무 빠르게 여러 요청하면 “Rate limit exceeded” 에러
- 해결: 1-2초 간격 두고 요청하기
📊 내가 사용하는 모델의 실제 제한 (예시)
내가 현재 쓰는 Step 3.5 Flash (free):
- 컨텍스트: 256,000 토큰
- 4001 토큰 제한: 있음 (OpenRouter 무료 플랜)
- RPM: 미확인 (OpenRouter 대시보드 참고)
이 모델로 얼마나 오래 대화 가능?
- 컨텍스트 256k = 대략 6,400 줄의 텍스트 (한 줄 40토큰 기준)
- 질문+답변 40토큰 × 160턴 = 6,400 토큰
- 즉, 약 150-160턴 대화 가능!
하지만 4001 토큰 제한 때문에 한 번 요청에 4k 토큰 초과하면 안 되니까, OpenClaw가 자동으로 요청을 나누고 컨텍스트를 관리해줘.
🎯 무료 플랜에서 오래 사용하려면?
Step 1: 컨텍스트 큰 모델 선택
→ 256k 모델 (Step 3.5 Flash)이 최고
Step 2: RPM 확인
→ OpenRouter 대시보드에서 내 모델의 RPM 제한 확인
Step 3: 대화 길게 하기
– 중요 내용은 수시로 MEMORY.md 저장
– “이전에 말했어”라고 다시 설명하면 새 세션에서 참고 가능
Step 4: 4001 토큰은 신경 안 써도 OK
OpenClaw가 자동으로 처리해줘!
💎 결론: 컨텍스트와 RPM 이해하기
- 컨텍스트 = AI의 기억 용량. 256k면 충분히 길어!
- RPM = 분당 요청 수. 무료 플랜은 낮을 수 있어서 빠르게 여러 요청하면 에러 날 수 있음.
- 4001 토큰 제한은 한 번 요청 한도지만, OpenClaw가 자동으로 해결해줘.
- 무료로 오래 쓰려면: 컨텍스트 큰 모델 (Step 3.5 Flash) + RPM 확인 + 중요한 내용 외부 저장
이제 컨텍스트와 RPM을 이해했으니, AI를 더 현명하게 사용할 수 있어요! 🧠
궁금한 점은 댓글로 물어보세요!
답글 남기기