ChatGPT 수준의 AI를 내 서버에서? GPT-OSS 120B의 혁신
GPT-OSS는 자체 서버에서 고급 추론과 에이전트 개발이 가능한 오픈 웨이트 LLM입니다.
2025년 09월 18일

OPEN AI 오픈소스 모델 공개: GPT-OSS로 자체 AI 서버 구축하세요
OpenAI가 2025년 8월 5일(한국 시간 8월 6일)에 공개한 GPT-OSS 모델군(gpt-oss-120b, gpt-oss-20b)을 중심으로, 모델 카드와 공식 발표 자료, 배포 채널, 주요 보도를 교차 검토해 정리한 해설입니다. 공개된 지 한 달여가 지난 지금, 초기의 과장된 반응과 실제 적용 가능성 사이의 경계가 가려지는 시점에 맞춰, 기술적 핵심과 산업적 함의를 균형 있게 짚습니다.
GPT-OSS는 흔히 “오픈소스”로 불리지만, 정확히는 오픈 웨이트(Open-Weight) 공개에 해당합니다. 두 모델의 가중치와 토크나이저가 상업적 활용이 가능한 라이선스로 제공되어 자체 인프라에서의 추론·파인튜닝·배포가 가능하며, 규모와 자원 요구량이 다른 두 변형(120b, 20b)으로 비용·지연·성능 사이에서 현실적인 선택지를 제시합니다.
이 공개는 단순한 모델 추가가 아니라 전략적 분기점으로 읽힙니다. 폐쇄형 서비스 중심의 운영에서 벗어나, 기업과 공공기관이 데이터 경계와 컴플라이언스를 지키면서도 고급 추론 능력을 자가 호스팅으로 활용할 수 있는 길이 열렸습니다. 개발자 생태계에는 표준화된 포맷과 도구 연동 방식이 확산되고, 기업 측면에서는 클라우드 독립성·총소유비용(TCO)·지연(SLA) 관점의 의사결정이 한층 구체화됩니다. 이제 필요한 질문은 “이 기술이 가능한가?”가 아니라 “우리의 업무와 거버넌스에 어떻게 맞춰 설계·운영할 것인가?”입니다.
OpenAI가 공개한 GPT-OSS 모델의 핵심 포인트
이번 공개의 핵심은 OpenAI가 왜 지금 이 시점에 어떤 형태로 모델을 내놓았는가에 있습니다. GPT-OSS라는 이름은 흔히 ‘오픈소스(Open Source)’를 연상시키지만, 실제로는 소스 코드가 아닌 학습된 가중치(weights)를 공개한 오픈 웨이트(Open-Weight) 모델입니다.
공개된 모델은 두 가지입니다.
- gpt-oss-120b:
약 1,200억 개 파라미터를 가진 대형 모델로, 복잡한 추론·코딩·에이전틱(agentic) 작업까지 처리할 수 있습니다. 단일 80GB GPU에서도 실행 가능하도록 설계되었습니다. - gpt-oss-20b:
약 200억 개 파라미터를 가진 중형 모델로, 16GB 메모리 환경(일반 PC·노트북·에지 디바이스)에서도 구동할 수 있습니다.
두 모델은 모두 아파치 2.0(Apache 2.0) 라이선스를 기반으로 공개되었습니다. 이는 단순한 비영리적 사용에 한정되지 않고, 상업적 활용·재배포·파인튜닝까지 폭넓게 허용합니다. 즉, 기업은 더 이상 OpenAI API에만 의존할 필요 없이, 자체 서버나 클라우드 인프라에 직접 모델을 배포하고 서비스에 통합할 수 있습니다.
성능 포지셔닝도 명확하게 제시되었습니다. gpt-oss-120b는 OpenAI의 o4-mini 모델에 근접한 수준, gpt-oss-20b는 o3-mini 급 성능으로 평가됩니다. 이는 곧, 오픈 웨이트 모델임에도 불구하고 실제 서비스형 ChatGPT와 견줄 만한 성능을 제공한다는 의미입니다.
결과적으로 GPT-OSS는 단순한 모델 공개를 넘어, AI 활용의 방식과 소유권 패러다임을 바꾸는 전환점이라 할 수 있습니다.
오픈소스 공개의 의미: 상업적 사용과 생태계 기여
OpenAI의 GPT-OSS 공개는 Meta의 Llama, Mistral AI의 Mistral 등과 함께 본격적인 오픈 웨이트 경쟁의 서막을 알리는 사건입니다. 그동안 OpenAI는 GPT 시리즈를 API 기반 서비스로 제공하며 시장을 주도했지만, 이는 필연적으로 API 종속성, 높은 비용, 데이터 프라이버시 우려라는 한계를 안고 있었습니다.
GPT-OSS는 소스 코드 자체가 아니라 학습 가중치(weights)를 공개한 오픈 웨이트 모델입니다. Apache-2.0 라이선스를 채택하여 상업적 활용, 재배포, 파인튜닝을 폭넓게 허용하며, 자체 인프라에서 운영할 수 있어 클라우드 종속성을 줄입니다. 동시에 AWS, Hugging Face, Windows AI Foundry 등 주요 플랫폼을 통해 배포되어 접근성이 크게 확대되었고, 특히 OpenAI 모델이 AWS에 공식 등록된 것은 이번이 처음이라는 점에서 산업적 의미가 큽니다.
이러한 변화는 세 가지 측면에서 의미가 있습니다.
- 보안과 맞춤화:
기업은 민감한 데이터를 외부 API에 의존하지 않고, 온프레미스 또는 프라이빗 클라우드에서 직접 모델을 파인튜닝하여 자사 특화 AI를 구축할 수 있습니다. 이는 금융, 의료, 법률 등 보안이 중요한 산업에서 특히 매력적입니다.
- 비용 효율성:
API 호출마다 비용을 지불하는 방식에서 벗어나, 초기 인프라 구축만으로 장기적 운영 비용(TCO)을 크게 줄일 수 있습니다.
- 생태계 확산:
전 세계 개발자와 연구자가 모델을 실험하고 개선에 기여하면서, 오픈소스 커뮤니티 기반 혁신이 촉진됩니다. 이는 과거 리눅스가 서버 운영체제 시장을 변화시켰던 것과 유사한 흐름을 만들 수 있습니다.
결국 OpenAI는 API 중심의 기존 시장 지배력을 유지하면서, 동시에 오픈 웨이트 생태계의 주도권을 확보하려는 양손 전략(ambidextrous strategy)을 선택한 것으로 볼 수 있습니다.
GPT-OSS 모델의 주요 특징
GPT-OSS는 단순히 ‘공짜 GPT’가 아닙니다. 모델 카드(Model Card)를 자세히 들여다보면, 이 모델들이 최신 AI 에이전트(Agent) 개발 트렌드에 맞춰 정교하게 설계되었음을 알 수 있습니다.
GPT OSS는 MoE(Mixture-of-Experts) 트랜스포머를 채택합니다. 120b는 36층·총 116.8B 파라미터(토큰당 활성 5.1B), 20b는 24층·총 20.9B(활성 3.6B)이며, 상위 4개 전문가(top-4) 라우팅으로 효율을 끌어올렸습니다. 메모리 발자국을 줄이기 위해 MoE 가중치를 MXFP4(4.25bit)로 양자화했고, 그 결과 120b는 단일 80GB GPU, 20b는 16GB 메모리급 시스템에서 돌아가도록 만들었습니다. 어텐션은 대역 윈도/완전 결합을 교대하며 GQA를 쓰고, YaRN으로 조밀 층 컨텍스트 길이를 131,072 토큰까지 확장합니다. 토크나이저는 o200k_harmony(총 201,088 토큰)로 채팅 포맷과 도구 사용에 최적화했습니다. 지식 컷오프는 2024년 6월입니다.
또 하나의 관건은 Harmony Chat Format입니다. System/Developer/User/Assistant/Tool의 역할 계층과 analysis(추론 CoT)·commentary(도구 호출)·final(최종 답변) 같은 채널 개념을 도입해, 도구 호출을 추론 과정에 자연스럽게 삽입하고, 필요 시 장기 액션 플랜을 사용자에게 예고하는 등 에이전틱 상호작용을 강건하게 만듭니다. 동일 포맷을 따르지 않으면 성능이 저하될 수 있으니, 배포 시 이 포맷을 엄격히 적용해야 합니다.
추론 품질과 비용 균형을 위해 Variable-Effort Reasoning을 도입했습니다. 시스템 프롬프트에 Reasoning: low/medium/high를 지정해 CoT 길이를 과제 난이도에 맞춰 조절할 수 있고, 브라우징·파이썬·개발자 정의 함수 등 도구 사용은 온·오프를 프롬프트로 제어합니다. 이는 MCP(Model Context Protocol) 기반의 도구 오케스트레이션과도 개념적으로 잘 맞물립니다(함수 스키마·역할·채널을 명시적으로 다루기 때문).
1. MoE(Mixture-of-Experts) 아키텍처:
GPT-OSS는 ‘전문가 혼합’이라 불리는 MoE 아키텍처를 채택했습니다. 이는 거대한 단일 모델이 모든 요청을 처리하는 대신, 여러 개의 작은 ‘전문가’ 모델을 두고 입력된 내용에 따라 가장 적합한 전문가들을 활성화하는 방식입니다. gpt-oss-120b 모델의 경우, 전체 파라미터는 1168억 개에 달하지만, 하나의 토큰을 처리할 때는 약 51억 개의 ‘활성 파라미터’만 사용합니다. 이는 전체 파라미터 수가 비슷한 다른 모델에 비해 훨씬 적은 컴퓨팅 자원으로 더 빠른 추론 속도를 낼 수 있음을 의미합니다. 개발자와 기업에게는 ‘성능’과 ‘운영 비용’이라는 두 마리 토끼를 잡을 수 있는 매력적인 특징입니다.
2. ‘하모니 챗 포맷(Harmony Chat Format)’:
이는 GPT-OSS를 단순한 챗봇이 아닌, 복잡한 작업을 수행하는 ‘AI 에이전트’로 활용하기 위한 핵심 기능입니다. 기존의 채팅 형식과 달리, 이 포맷은 모델의 사고 과정을 담는 ‘분석(analysis)’ 채널, 도구 사용(Tool Use) 로그를 기록하는 ‘주석(commentary)’ 채널, 그리고 최종 사용자에게 보여줄 답변을 담는 ‘최종(final)’ 채널 등으로 출력을 구조화합니다. 개발자는 이를 통해 모델이 왜 그런 결정을 내렸는지(CoT, Chain-of-Thought) 투명하게 모니터링하고, 도구 사용 과정을 디버깅하며, 사용자에게는 정제된 결과만 보여주는 정교한 제어가 가능해집니다.
3. ‘가변 추론 노력(Variable Effort Reasoning)’:
개발자는 시스템 프롬프트에 “Reasoning: low/medium/high”와 같은 키워드를 삽입하여 모델의 추론 수준을 조절할 수 있습니다. 단순한 작업에는 ‘low’ 모드를 사용해 빠르고 저렴하게 답변을 얻고, 복잡한 수학 문제나 코딩 작업에는 ‘high’ 모드를 사용해 정확도를 높이는 식입니다. 이는 작업의 성격에 따라 비용과 성능을 최적화할 수 있는 매우 실용적인 기능입니다.
GPT-OSS 모델이 가지는 AI 및 IT 산업계에서의 의미
이번 공개는 GPT-2 이후 첫 오픈 웨이트 라인이라는 상징성도 크지만, 더 중요한 변화는 “클라우드 전용에서 벗어나 현장 가까이로 내려온 고급 추론”입니다. 20b는 현업 PC·에지에, 120b는 단일 80GB GPU 서버에 안착해 데이터 주권·지연·비용 이슈를 동시에 완화합니다. 공공·금융처럼 컴플라이언스가 엄격한 도메인에서 온프레미스 추론과 사내 파인튜닝이 현실 옵션이 되었고, AWS·Windows 등 멀티 플랫폼 유통은 모델 공급망의 다양성을 키웠습니다. 이는 Meta Llama·Mistral·Qwen 등과 경쟁 구도를 재편하면서, “고성능 ↔ 자가호스팅 ↔ 상업 라이선스”의 삼박자를 본격 표준화하는 계기가 됩니다.
GPT-OSS의 등장은 AI 산업의 경쟁 구도를 근본적으로 바꿀 것입니다.
오픈소스 LLM의 상향 평준화:
OpenAI라는 ‘거인’의 참전으로 오픈소스 LLM의 성능 기준이 한 단계 높아질 것입니다. 이제 다른 오픈소스 모델들도 GPT-OSS 수준의 추론 및 에이전트 기능을 제공해야 하는 압박을 받게 될 것입니다.
AI 에이전트 시대의 본격화:
‘하모니 챗 포맷’과 같은 정교한 제어 기능은 복잡한 워크플로우를 자동화하는 AI 에이전트 개발을 대중화할 것입니다. 이는 단순 질의응답을 넘어, 소프트웨어 개발, 데이터 분석, 고객 지원 등 다양한 업무 영역에서 ‘자율적으로 일하는 AI’의 등장을 앞당길 것입니다.
클라우드 및 하드웨어 시장의 성장 촉진:
기업들이 자체적으로 LLM을 운영하려는 수요가 늘면서, AWS, Google Cloud, Microsoft Azure 같은 클라우드 제공업체들은 물론, NVIDIA와 같은 AI 반도체 기업들에게도 새로운 기회가 열릴 것입니다.
기존 서비스용 ChatGPT 모델과의 성능 상세 비교
모델 카드 기준, gpt-oss-120b는 o3-mini를 상회하고 o4-mini에 근접합니다. 수학(AIME)·고등 지식(MMLU)·전문 질의(HLE)·과학 난문(GPQA)과 같은 정통 추론/지식 벤치마크에서 이 포지셔닝이 일관되게 관찰됩니다. 코딩·도구사용(SWE-Bench Verified, Codeforces, τ-Bench)에서는 에이전틱 강화 효과로 120b가 o4-mini에 바짝 붙는 그림이 확인됩니다. 작은 20b도 크기 대비 선전하지만, 지식 축적이 많이 필요한 과제(GPQA 등)에서는 모델 크기 한계가 드러납니다.
추가로, 추론 레벨을 높일수록(CoT를 늘릴수록) 정확도가 매끄럽게 스케일링되는 테스트-타임 스케일링 곡선이 제시됩니다. 이는 실제 운영에서 “쉬운 문제는 짧게, 어려운 문제는 길게”라는 비용·지연 최적화를 체계화할 수 있음을 의미합니다. 반면 도구 비사용(no-tool) 설정에서는 오픈AI 1P(서비스형) 모델이 여전히 유리한 과제가 존재합니다. 즉, 툴 체인 연동과 프롬프트 기법이 OSS 활용의 성패를 가릅니다.
많은 분들이 가장 궁금해할 부분입니다. “그래서 GPT-4o나 GPT-3.5-Turbo에 비해 얼마나 좋은가?” 모델 카드에 공개된 벤치마크 결과를 바탕으로 비교해 보겠습니다.
추론 및 지식 (AIME, GPQA, MMLU 벤치마크):
gpt-oss-120b 모델은 전반적으로 GPT-3.5-Turbo(o3-mini로 추정)를 능가하고, GPT-4o-mini(o4-mini로 추정)에 근접하거나 일부 항목에서는 대등한 성능을 보입니다. 특히 경쟁 수학 올림피아드 문제인 AIME 벤치마크에서 매우 강력한 성능을 보여, 복잡한 논리 추론 능력이 뛰어남을 입증했습니다. gpt-oss-20b 역시 크기에 비해 놀라울 정도로 경쟁력 있는 성능을 보여줍니다.
코딩 및 도구 사용 (Codeforces, SWE-Bench 벤치마크):
이 분야에서도 gpt-oss-120b는 GPT-4o-mini에 버금가는 최상위권 성능을 기록했습니다. 이는 GPT-OSS가 소프트웨어 개발, 함수 호출(Function Calling) 등 실제 개발 환경에서 요구되는 에이전트 작업에 매우 적합하다는 것을 의미합니다.
주목할 만한 결과 (HealthBench):
의료 관련 대화 성능을 측정하는 HealthBench에서 gpt-oss-120b는 GPT-4o-mini를 포함한 다른 최신 모델들을 큰 차이로 앞지르고, 심지어 기존의 강력한 모델인 GPT-3와 거의 대등한 성능을 보였습니다. 이는 특정 전문 분야에서 인튜닝될 경우, GPT-OSS가 API 모델을 능가하는 잠재력을 가지고 있음을 시사하는 놀라운 결과입니다.
종합적으로, gpt-oss-120b는 GPT-3.5와 GPT-4o-mini 사이, 혹은 그 이상의 성능을 내는 최상위권 오픈소스 모델로 자리매김했으며, 특히 추론과 에이전트 활용 능력에서 발군의 역량을 보여줍니다.
GPT-OSS 모델 카드의 주요 내용
GPT-OSS 모델 카드에는 단순한 성능 지표를 넘어, 아키텍처와 훈련 과정, 추론 포맷, 안전성 평가까지 종합적으로 담겨 있습니다. 핵심은 다음 세 가지입니다.
1. 아키텍처와 훈련
GPT-OSS는 MoE(Mixture-of-Experts) 구조를 기반으로 합니다. gpt-oss-120b는 128 전문가 중 4개를 선택해 토큰당 약 51억 파라미터를 활성화하며, gpt-oss-20b는 32 전문가 구조를 채택했습니다. 효율성을 위해 MXFP4(4.25bit) 양자화를 적용했고, 그 결과 120b는 약 60.8GiB, 20b는 약 12.8GiB의 체크포인트 크기를 가집니다. 어텐션은 밴디드 윈도우와 풀 어텐션을 교대로 사용하며 GQA, Rotary를 결합했고, 최대 131k 토큰 컨텍스트를 지원합니다. 토크나이저는 o200k_harmony를 채택했으며, 지식 컷오프는 2024년 6월입니다.
2. 추론과 도구 활용
모델은 Harmony Chat Format을 통해 System·Developer·User·Assistant·Tool 역할과 analysis·commentary·final 채널을 구분합니다. 이를 통해 추론 과정(CoT), 도구 호출 로그, 최종 답변을 명확히 나눌 수 있어, 개발자 입장에서는 투명성과 제어성이 크게 강화됩니다.
또, Reasoning: low/medium/high를 지정해 추론 깊이를 조절할 수 있는 Variable-Effort Reasoning을 지원하며, 브라우징·파이썬 실행·개발자 정의 함수 등 에이전틱 도구 활용도 프롬프트로 제어할 수 있습니다.
3. 안전성과 준비 태세
OpenAI는 GPT-OSS의 잠재적 위험성을 검증하기 위해 적대적 파인튜닝(adversarial fine-tuning) 실험까지 진행했습니다. 그 결과, 생물·화학·사이버·AI 자기개선 등 고위험 영역에서 “High Capability” 수준에는 도달하지 못했다고 평가했습니다. 즉, 모델이 통제 불가능한 위험을 초래하지는 않는다는 결론을 내렸습니다. 다만, 오픈 웨이트 모델 특성상 공개 이후에는 누구든 안전 장치를 제거할 수 있기 때문에, 실제 배포 주체가 추가적인 안전 조치를 마련해야 한다는 점을 분명히 하고 있습니다.
또한, 모델의 사고 과정을 연구할 수 있도록 CoT(Chain-of-Thought)에는 강한 필터링을 적용하지 않았다고 밝혔습니다. 이는 연구자와 개발자가 모델의 내부 추론 과정을 관찰하고 신뢰성 연구에 활용할 수 있도록 하기 위한 조치입니다.
마무리
OpenAI의 GPT-OSS 공개는 단순한 기술 공유를 넘어 AI 개발·배포·활용 방식에 근본적 변화를 알리는 사건입니다. GPT-OSS는 단순한 대화형 챗봇이 아니라, 복잡한 문제를 해결하고 다양한 작업을 자동화할 수 있는 추론 엔진이자 에이전트의 두뇌로 설계되었습니다.
이제 IT 의사결정자와 개발자는 API 기반 모델의 편리함과 오픈 웨이트 모델이 주는 유연성과 통제권 사이에서, 각자의 비즈니스 환경에 맞는 최적의 방식을 선택할 수 있게 되었습니다. 이는 기업이 데이터 프라이버시·비용·지연 문제를 고려하면서, 자체 인프라에서 모델을 직접 파인튜닝하고 배포할 수 있는 실질적 기회를 의미합니다.
OpenAI가 공개한 GPT-OSS 모델의 핵심 포인트
GPT-OSS는 Apache-2.0 라이선스 기반의 오픈 웨이트 모델로, 가중치와 토크나이저, 참고 구현 코드까지 제공됩니다. 이를 통해 누구나 재배포, 상업적 활용, 맞춤형 파인튜닝이 가능하며, 클라우드 API 의존 없이 자체 서버나 프라이빗 클라우드에서 운영할 수 있습니다. 특히 도구 활용, 구조화된 출력, 체계적인 Chain-of-Thought(CoT) 지원 등 추론 지향적 특성이 강조되어, 실제 업무 환경에서 고도화된 에이전트 개발에 적합합니다.
오픈 웨이트 공개의 의미 — 상업적 활용과 생태계 기여
Apache-2.0 라이선스를 채택한 GPT-OSS는 온프레미스 파인튜닝, OEM/ISV 통합, 재배포까지 폭넓은 상업적 전개를 허용합니다. 동시에 AWS, Windows AI Foundry, Hugging Face 등 주요 플랫폼에 동시 배포되면서 접근성과 호환성이 크게 강화되었습니다. 이는 특정 클라우드 사업자에 대한 종속성을 약화시키고, 개발자들이 에이전트형 워크플로우와 자동화 도구 체인을 자유롭게 설계할 수 있는 환경을 마련했습니다.
결국 이번 공개는 OpenAI가 폐쇄형 API 서비스 중심에서 벗어나, 오픈 웨이트 생태계에서도 주도권을 확보하려는 전략적 전환으로 해석할 수 있습니다. 이는 기업과 연구자가 AI를 “소비”하는 방식에서 벗어나, 직접 소유하고 제어하며 확장하는 방식으로 나아가도록 하는 분수령이 될 것입니다.
References & Related Links
- GitHub 주소: https://github.com/openai/gpt-oss
- Hugging Face 주소: https://huggingface.co/openai/gpt-oss-20b
- Hugging Face 주소: https://huggingface.co/openai/gpt-oss-120b
- 블로그 주소: https://openai.com/index/introducing-gpt-oss/