국내 LLM 모델들의 현황과 비교
국내 LLM 대표 주자인 SOLAR, Kanana 등의 특징과 비즈니스 활용을 위한 상업용 라이선스까지 핵심을 정리한 글입니다.
2025년 06월 23일

한국형 LLM, 우리에게 더 자연스러운 AI를 만나다: 한국형 LLM 현황 조사
MSA, 쿠버네티스, 클라우드 네이티브와 같은 혁신적인 기술들이 현업에 빠르게 적용되는 요즘, 또 하나의 거대한 물결이 우리 곁으로 다가오고 있습니다.
바로 대규모 언어 모델, LLM(Large Language Model)입니다. ChatGPT의 등장 이후 LLM은 단순한 기술 트렌드를 넘어 산업 전반의 패러다임을 바꾸는 게임 체인저로 주목받고 있죠.
오늘은 이 LLM의 기본적인 개념을 다시 한번 짚어보고, 특히 우리에게 더욱 친숙하고 자연스러운 한국어 처리에 강점을 보이는 국내 주요 기업들의 오픈소스 LLM 공개 현황과 그 특징들을 심층적으로 분석해보고자 합니다. 더 나아가, 이러한 한국형 LLM들을 실제 비즈니스에 어떻게 활용할 수 있을지, 특히 상업적 사용 제한 여부와 글로벌 모델들과의 차이점을 중심으로 자세히 살펴보겠습니다.
세계적인 LLM 모델도 있는데 , 왜 ‘한국어에 특화된 LLM’이 필수적인가?
LLM은 방대한 텍스트 데이터를 학습하여 인간의 언어를 이해하고 생성하는 인공지능 모델로, 트랜스포머(Transformer) 아키텍처와 어텐션(Attention) 메커니즘을 통해 문맥을 파악하고 미묘한 언어적 뉘앙스까지 포착하는 능력을 보여주며 IT 산업의 지형을 바꾸고 있습니다.
글로벌 빅테크 기업들이 선보이는 GPT, Llama, Gemini와 같은 LLM들은 이미 다양한 언어에 걸쳐 놀라운 성능을 입증하며, 번역, 요약, 작문, 코드 생성 등 수많은 영역에서 활용 가능성을 제시하고 있습니다. 그렇다면 이처럼 강력한 글로벌 LLM들이 이미 존재하는데, 왜 우리는 굳이 ‘한국어에 특화된’ LLM의 필요성을 이야기하는 것일까요? 마치 세계 공용어인 영어를 유창하게 구사하는 것만으로는 충분하지 않고, 각국의 모국어가 여전히 중요한 이유와 맥을 같이 합니다.
글로벌 LLM이 다양한 언어를 지원한다고 해도, 그 학습 데이터의 중심에는 영어가 자리 잡고 있는 경우가 많습니다. 다른 언어들은 상대적으로 적은 비중의 데이터로 학습되거나, 번역된 데이터를 통해 간접적으로 접하게 될 수 있습니다. 이는 마치 외국인 유학생이 한국어를 매우 유창하게 구사하더라도, 한국에서 나고 자란 사람이 체화하고 있는 문화적 배경과 언어적 감수성까지 완벽히 따라잡기 어려운 것과 비슷합니다.
1. 언어적 ‘결’과 문화적 맥락의 깊이 있는 체화 (Linguistic Nuance & Cultural Context):
언어는 단순한 기호의 조합이 아니라, 그 언어를 사용하는 공동체의 역사, 문화, 가치관을 담고 있는 살아있는 유기체입니다. 한국어는 특히 그 독특함이 두드러집니다.
- 존댓말과 반말의 섬세한 구분, 다양한 상황과 감정에 따른 어미 변화, 직설적 표현과 우회적 표현의 적절한 사용, 해학과 풍자가 담긴 중의적 표현, 빠르게 변화하는 신조어와 유행어, 특정 세대나 집단만이 이해하는 은어 등은 단순한 번역이나 표면적인 학습만으로는 온전히 파악하기 어렵습니다.
- 예를 들어, 같은 “고맙습니다”라는 표현도 상황과 상대방에 따라 “감사합니다”, “고마워요”, “땡큐” 등 미묘하게 다른 어감으로 전달될 수 있으며, 때로는 반어적인 의미로 사용될 수도 있습니다. 한국어 특화 LLM은 이러한 한국어 고유의 ‘결’을 이해하고, 문맥에 가장 적절하고 자연스러운 표현을 구사할 수 있습니다. 이는 사용자에게 마치 실제 한국인과 대화하는 듯한 몰입감과 편안함을 제공합니다.
2. 데이터 편향성(Bias) 해소 및 한국적 시각 반영 (Mitigating Bias & Reflecting Korean Perspectives):
LLM은 학습한 데이터의 세계를 반영합니다. 글로벌 LLM의 학습 데이터가 특정 문화권(주로 서구권)에 치우쳐 있다면, 생성되는 결과물 역시 해당 문화권의 시각이나 가치관을 더 많이 반영할 수 있습니다. 이는 한국의 사회문화적 특수성이나 역사적 배경에 대한 이해가 부족하거나 왜곡된 정보를 제공할 위험을 내포합니다.
- 한국의 역사적 사건에 대한 해석, 사회적 이슈에 대한 다양한 관점, 한국인의 보편적인 정서 등은 한국 사회의 구성원들이 생성하고 소비한 데이터를 통해 학습될 때 가장 정확하게 반영될 수 있습니다.
- 한국어 특화 LLM은 국내 뉴스, 서적, 온라인 커뮤니티, 학술 자료 등 균형 잡힌 고품질의 한국어 데이터를 중심으로 학습함으로써, 보다 한국적인 시각과 정서에 부합하는 답변과 콘텐츠를 생성할 가능성이 높습니다. 이는 특히 교육, 미디어, 공공 서비스 등 객관성과 공정성이 중요한 분야에서 더욱 중요합니다.
3. 한국어 기반 특정 과업(Task)에서의 압도적 성능 우위 (Superior Performance in Korean-Specific Tasks):
법률, 의료, 금융, 기술 등 각 전문 분야는 고유한 용어와 표현 체계를 가지고 있습니다. 또한, 한국 시장을 대상으로 하는 마케팅 문구 작성, 국내 고객 응대 챗봇, 한국어 교육 자료 개발 등은 한국어에 대한 깊이 있는 이해를 바탕으로 할 때 그 효과가 극대화됩니다.
- 글로벌 LLM이 한국어 관련 전문 용어나 특정 산업군의 은어를 정확히 이해하고 활용하는 데는 한계가 있을 수 있습니다. 반면, 한국어 특화 LLM은 해당 분야의 국내 문헌과 데이터를 집중적으로 학습함으로써, 국내 실정에 맞는 전문적이고 정확한 정보 제공 및 작업 수행이 가능합니다.
- 예를 들어, 한국의 법률 조항을 해석하거나, 국내 주식 시장의 동향을 분석하는 작업에서 한국어 특화 LLM은 문맥 이해도와 결과의 정확성 측면에서 범용 모델보다 뛰어난 성능을 보일 수 있습니다. 이는 단순한 ‘언어 이해’를 넘어 ‘실질적인 문제 해결 능력’으로 이어집니다.
4. ‘환각 현상(Hallucination)’의 국지적 제어 및 신뢰도 향상 (Localized Control of Hallucination & Enhanced Reliability):
LLM이 학습 데이터에 없는 내용을 사실처럼 꾸며내거나 부정확한 정보를 생성하는 ‘환각 현상’은 LLM 활용의 주요 걸림돌 중 하나입니다. 특히 한국과 관련된 특정 인물, 사건, 장소, 문화 등에 대한 정보 밀도가 상대적으로 낮은 글로벌 LLM은 관련 질문에 대해 환각을 일으킬 가능성이 더 높을 수 있습니다.
- 한국어 특화 LLM은 한국 관련 데이터에 대한 학습 밀도가 높기 때문에, 해당 범위 내에서는 보다 사실에 기반하고 검증된 정보를 제공할 가능성이 큽니다. 이는 생성된 내용에 대한 사용자의 신뢰도를 높이는 데 결정적인 역할을 합니다.
결론적으로, 글로벌 LLM이 강력한 범용성을 제공한다 하더라도, 특정 언어와 문화권에 깊숙이 뿌리내린 서비스와 경험을 제공하고자 할 때 한국어 특화 LLM은 필수적인 선택지입니다. 이는 마치 세계적인 레시피를 따르는 것과, 우리 입맛에 맞춘 최고의 한정식을 만들어내는 것의 차이와 같습니다. 한국 사용자에게 진정으로 공감받고, 한국 시장에서 실질적인 가치를 창출하기 위해서는 한국어의 섬세함과 한국 문화의 깊이를 이해하는 ‘한국어에 진심인 LLM’이 필요합니다.
IT 의사결정자 여러분께서는 이러한 특화 LLM의 가치를 인지하시고, 자사의 서비스와 고객 특성에 맞는 최적의 LLM 전략을 수립하시어, AI 기술이 가져다줄 혁신의 기회를 온전히 활용하시기를 바랍니다.
글로벌 오픈 LLM 현황과 한국어 처리
1. Meta LLaMA 시리즈
Meta가 공개한 LLaMA 2는 7B, 13B, 70B 등 다양한 규모의 모델을 포함하며, 연구 및 상업 목적으로 자유롭게 사용할 수 있게 배포되었습니다. LLaMA 2 Chat 모델은 RLHF(인간 피드백 강화학습)로 대화 최적화까지 되어 있어 영어 기준 우수한 성능을 보입니다. 다만 한국어에 특화된 학습이 이뤄진 것은 아니어서, 한국어 처리에서는 일부 한계가 있습니다. 예컨대 LLaMA 2의 기본 토크나이저는 다국어 기반이지만 한국어의 형태소 결합이나 조사 처리에 최적화되어 있지 않아, 한국어 문장을 생성할 때 미세한 어색함(조사 오류나 경어체 사용 미스 등)이 나타날 수 있습니다. 그럼에도 LLaMA 2는 멀티턴 대화, 추론 능력이 뛰어나 한국어로도 일정 수준 이상의 응답 품질을 보여주며, 한국어 데이터로 추가 파인튜닝하면 성능을 끌어올릴 수 있는 탄탄한 베이스 모델입니다.
2. Alibaba Qwen (通義千問)
알리바바가 2023년에 공개한 7B, 14B 규모의 Qwen 모델은 중국어와 영어 코퍼스로 2.2조 토큰을 학습하여, 특히 중국어 분야에서 ChatGPT를 능가하는 성능을 보였습니다. Qwen-7B는 중국어 평가셋(C-Eval)에서 ChatGPT를 앞섰고, 영어 MMLU 평가에서도 동일 크기 LLaMA 2를 큰 폭으로 상회하는 등 다방면에서 강력한 성능을 입증했습니다. 다중언어 친화적 어휘집을 채택하여 한국어 등 다른 언어도 추가 토크나이저 확장 없이 처리 가능하도록 했지만, 학습 데이터에서 한국어 비중은 상대적으로 낮을 것으로 알려져 있습니다. 따라서 Qwen은 중국어/영어 대비 한국어 특화도는 높지 않으며, 한국어 문장 생성 시 가끔 어색한 표현이나 중국어식 표현이 섞이는 사례도 지적됩니다. 그럼에도 Qwen은 상업적 사용이 비교적 자유로운 라이선스(월 사용자 1억명 미만 기업은 별도 승인 없이 사용 가능)로 공개되어, 한국어 데이터를 추가로 학습시켜 활용할 수 있는 여지가 있습니다.
3. Google Gemma
2024년부터 공개된 Gemma 시리즈는 구글 딥마인드의 오픈 LLM 패밀리로, 일종의 Gemini 모델의 경량화 버전입니다. 2B~27B급 모델로 구성되어 있으며, 처음에는 주로 영어 및 코드에 특화된 소형 모델들이었지만 2025년 발표된 Gemma 3는 큰 변화를 보여줍니다. Gemma 3는 “140여 개 언어를 지원”하고 “128k 토큰의 초장문맥 처리” 및 함수 호출 기능까지 갖춘 최첨단 경량 모델로 소개되었습니다. 특히 단일 GPU/TPU에서 동작하는 세계 최고 성능 모델을 목표로 하여, 같은 규모 대비 뛰어난 성능과 속도를 구현했다고 합니다. Gemma 3는 멀티턴 대화와 시각적 추론 능력까지 겸비하여 텍스트와 이미지를 동시에 이해하는 응용도 가능하다고 언급됩니다. 다만 Gemma 3 이전 세대까지는 멀티링구얼 지원이 제한적이었고 한국어 처리 능력이 두드러지지 않았는데, Gemma 3에서 한국어를 포함한 다국어 지원을 대폭 확대한 만큼 한국어 응답 품질도 개선되었을 것으로 보입니다. 라이선스 면에서는 Gemma 전 모델이 개인/상업적 사용 및 재배포에 완전히 자유로운 형태로 공개되어 개발자 친화적입니다. Gemma 3의 27B 모델 등은 이미 Hugging Face를 통해 제공되고 있어, 한국어 데이터를 추가로 섞어 파인튜닝하거나, 모바일 디바이스에도 탑재하는 등 활용 범위가 넓습니다.
이 밖에도 Falcon 40B(UAE TII 연구소 공개, Apache 2.0 라이선스)나 Mistral 7B(프랑스 Mistral AI 공개, Apache 2.0) 같은 오픈 모델들이 2023년에 잇달아 등장하며 오픈소스 LLM 생태계를 풍성하게 만들었습니다. 이들 글로벌 모델 상당수는 한국어에 대해 명시적으로 최적화된 처리를 하진 않았지만, 대용량의 웹 데이터에 포함된 한국어로 학습되었기 때문에 기본적인 이해와 생성은 가능합니다. 그러나 한국어의 고유한 언어 구조 – 예컨대 교착어적 특성으로 인한 복잡한 활용어미, 높은 경어체 변화, 문맥에 따른 주어 생략 등 – 에 대해서는 전문적으로 조율된 것이 아니어서, 때때로 미묘한 오류를 보일 수 있습니다. 이러한 빈틈을 메꾸고 한국어 환경에서 보다 자연스럽고 정확한 성능을 내기 위해 탄생한 것이 국내 연구진과 기업들의 한국어 특화 오픈소스 LLM들입니다.
한국산 오픈소스 LLM 모델 (SOLAR, Kanana 등) 소개
이제 한국에서 개발된 주요 오픈소스 LLM들을 살펴보겠습니다. 이들 모델은 Apache 2.0 등의 개방적 라이선스로 공개되어 상업 서비스에도 제약 없이 사용할 수 있다는 공통점이 있습니다.
1. Upstage – SOLAR 시리즈
국내 스타트업 업스테이지가 개발한 LLM SOLAR는 “Specialized and Optimized LLM and Applications with Reliability”의 약자로, 2023년 Hugging Face 오픈 LLM 리더보드 1위를 차지하며 일약 주목을 받았습니다. 초기에는 Meta Llama2 70B를 기반으로 파인튜닝한 SOLAR 70B로 GPT-3.5 수준을 넘는 성적을 기록하더니, 2023년 말 자체 개발한 SOLAR 10.7B 모델을 공개하며 다시 한번 세계 1위를 달성했습니다i. 불과 11억 개 파라미터 규모의 이 모델이 OpenAI GPT-3.5 Turbo(71.07점), Meta Llama2 70B(67.87점), Alibaba Qwen 72B(73.6점) 등을 모두 제치고 리더보드 평균 74.2점을 기록한 것은 놀라운 성과였습니다i. 업스테이지는 이를 가능케 한 비결로 “딥스케일링(Depth Up-scaling)” 기법을 들었는데, 소형 모델(Mistral 7B)의 일부 가중치를 심층 구조로 확장하고 추가 프리트레이닝을 거쳐 파라미터 효율을 극대화한 기술입니다. 3조 토큰 이상의 방대한 데이터를 학습시켜 이렇게 탄생한 SOLAR-10.7B는 30억~70억급 모델을 뛰어넘는 성능을 내면서도 한 장의 GPU로도 충분히 동작하는 경량 고효율 모델입니다. 업스테이지는 SOLAR의 프리트레인 가중치와 인스트럭션 튜닝 버전 모두 Apache 2.0 라이선스로 공개하여 제한 없는 상업 활용을 지원하고 있고, 실제로 Hugging Face에 모델 가중치가 올라와 누구나 다운로드 받아 사용할 수 있습니다. (※ 단, 현재 공개된 SOLAR-10.7B-Instruct v1.0 가중치는 CC-BY-NC-4.0으로 명시되어 있어 상업 활용 시에는 프리트레인 모델을 직접 사용자 정의 튜닝하는 것이 권장됩니다.) SOLAR의 가장 큰 강점은 영어 등 다국어와 논리적 응답 능력에서 글로벌 최고 수준일 뿐 아니라, 한국 회사가 만든 만큼 한국어 데이터와 활용 사례에도 친화적이라는 점입니다. 업스테이지는 한국어 평가를 위한 Open Ko-LLM 리더보드까지 NIA와 공동 개설하여, Ko-Alpaca, KULLM, Polyglot-Ko 등 다양한 한국어 모델들과 함께 SOLAR의 한국어 성능을 검증하고 있습니다. 향후 SOLAR를 한국어로 파인튜닝한 버전이나, 한국어 데이터에 특화된 SOLAR 변종도 등장할 가능성이 있습니다. 이미 SOLAR는 개인 PC나 서버에 직접 설치해 실행할 수 있을 정도로 가볍고 보안성이 높아, 기업 내부 데이터 분석같이 데이터 유출 걱정 없이 온-프레미스로 활용하기에 적합하다는 평가입니다. 또한 특수 데이터셋으로 환각(hallucination)을 억제하는 등 신뢰성도 개선하여 실제 비즈니스 응용에 강점을 보인다고 합니다.
2. Kakao – Kanana 1.5
카카오가 2023년 말 첫 공개한 자체 LLM Kanana는 2024년 5월 버전 1.5로 업그레이드되며 본격적으로 오픈소스로 배포되었습니다. 카카오는 2.1억 및 8억 파라미터 베이스 모델과 인스트럭트 모델 총 4종을 Hugging Face에 공개하면서, Apache 2.0 라이선스를 적용해 연구자·개발자·기업 누구나 자유롭게 수정, 튜닝, 활용할 수 있도록 했습니다. Kanana-1.5는 전작(1.0대)에 비해 “에이전틱 AI(Agentic AI) 구현을 위한 코딩/수학 능력과 함수 호출 기능”이 대폭 강화되었고, 관련 태스크에서 평균 1.5배 성능 향상을 이루었다고 합니다 . 예를 들어, 코드 작성이나 수학 문제 풀이, JSON 함수를 출력하는 형식 응답 등에 특화된 데이터를 학습시켜, 단순 문장 생성 외의 실용적인 작업 수행 능력을 끌어올린 것이 특징입니다. 동시에 한국어에 대한 우수한 언어 이해 성능을 유지하면서 오픈소스 SOTA 모델들과 동등한 수준의 성능을 달성했다고 밝혔습니다. 실제로 Kanana 1.5 8B는 영어권 오픈 모델들(예: LLaMA2-7B 등)과 견주어 손색없는 성능이며, 한국어 응답에서는 자체 평가 결과 훨씬 자연스럽다고 전해집니다. Kanana 1.5는 또 긴 문맥 이해와 응답 최적화 능력이 개선되었습니다. 이전보다 긴 입력 텍스트를 안정적으로 처리하고, 불필요하게 장황하거나 두서없는 답변을 피하도록 응답 길이와 정확성을 최적화했습니다. 이는 실제 서비스 환경에서 사용자 체감 품질을 높이는 데 중요한 요소인데, Kanana가 이러한 미세한 대화 UX까지 신경 써서 튜닝되었다는 점을 엿볼 수 있습니다. 카카오는 멀티모달 확장도 적극 추진 중인데, 최근 Kanana-o라는 텍스트·음성·이미지 삼중모달 LLM의 성능을 시연하며 화제를 모았습니다. Kanana-o는 한국 최초로 음성과 시각 정보를 동시에 처리하는 LLM으로, 예컨대 음성으로 질문하고 사진을 보여주면 한국어로 분석/응답하는 형태를 목표로 합니다. 이처럼 카카오는 차기 Kanana 2에서 더 긴 입력 처리, 고도화된 추론, 구조적 효율 개선 등을 예고하며 (아마도 모델 파라미터 증가나 아키텍처 개선, 컨텍스트 윈도우 확장 등으로 추측됩니다), 국내 최고 수준 LLM 개발에 박차를 가하고 있습니다. 정리하면, Kanana 1.5는 비교적 소형이지만 한국어에 대해선 대형 모델 못지않은 정교함을 보이는 경량 양방언어(한-영) 모델이며, 상업적으로 완전 개방된 덕분에 기업에서도 자유롭게 활용하고 자체 튜닝으로 응용 서비스를 만들기 좋은 플랫폼이라 할 수 있습니다.
3. EleutherAI – Polyglot-Ko
엄밀히 말하면 국내 기업이 아닌 EleutherAI 주도로 개발된 모델이지만, 한국인 연구자들이 참여하고 한국어에 특화되었다는 점에서 언급해야 할 모델이 Polyglot-Ko 시리즈입니다. 2023년 공개된 Polyglot-Ko는 1.3B부터 12.8B까지 다양한 크기로 제작된 한국어 전용 LLM으로, 1.2TB에 달하는 한국어 텍스트 데이터만으로 학습되었습니다. 네이버 블로그 6억 문장, 한국어 뉴스, 특허, 소설, 댓글, 위키 등 방대한 말뭉치를 수집하여 863GB 분량으로 정제한 데이터를 사용한 덕분에, 한국어 표현에 대한 감수성이 매우 뛰어납니다. 예컨대 일상적인 구어체, 인터넷 신조어, 띄어쓰기나 조사 오류가 있는 문장 등도 학습에 포함되어 다양한 문어/구어체 한국어에 대한 견고한 언어모델을 얻었다는 평가입니다. 라이선스는 Apache 2.0으로 완전 공개되었기 때문에 상업 서비스에서도 활용 가능하며, 실제로 Polyglot-Ko 5.8B 등은 한국어 연구 커뮤니티에서 파인튜닝 베이스 모델로 많이 활용되었습니다. Polyglot-Ko 연구진은 공개 논문에서 *“다국어 모델들의 비영어 성능이 미흡해 각 언어별 단일언어 모델을 만드는 흐름이 있다”*며, 한국어 모델을 우선 개발한 뒤 향후 다국어로 확장할 비전을 밝히기도 했습니다. 실제로 Polyglot-Ko 5.8B는 SKT의 KoGPT-3 6B나 Facebook XGLM 7.5B 같은 다국어 모델보다 한국어 벤치마크에서 월등한 결과를 보여주며, 한국어에 있어서만큼은 규모 대비 최고의 퍼포먼스를 시현했습니다. 다만 기반 아키텍처가 GPT-NeoX (GPT-3 계열)이라 구조적으로 최신 트렌드인 LLaMA계 모델보다 효율이 약간 떨어질 수 있고, 영어 등의 능력은 제한적입니다. 그럼에도 Polyglot-Ko는 국내 공개 데이터로 거대 한국어 모델을 구현했다는 점에서 선구적 사례이며, 이후 여러 파생 한국어 모델들의 모태가 되었습니다 (예: 고려대의 KoAlpaca와 KuLLM, 카카오브레인의 KoGPT2 등).
3. 기타 국내 오픈소스 LLM들
위에서 언급한 모델 외에도 국내에서는 다양한 LLM 연구가 이뤄지고 있습니다. 예를 들어, KULLM은 고려대학교 NLP 연구실에서 Polyglot-Ko 5.8B를 기반으로 한국어 다운스트림 작업 성능을 끌어올린 모델이고, KoAlpaca는 스타팅업 개발자들이 Stanford Alpaca 방식을 한국어로 적용해 LLaMA와 Polyglot 기반으로 만든 한국어 인스트럭션 튜닝 모델입니다github.com. 게임회사 크래프톤도 KORani 13B라는 한국어/영어 이중언어 모델을 공개한 바 있고, 스타트업 마커(Marker)의 KOAT, 성균관대의 KoVicuna 등 이름이 알려진 오픈 LLM들이 다수 존재합니다github.comgithub.com. 다만 이들 중 상당수는 LLaMA-1 기반(메타의 첫 LLaMA는 연구목적 배포로 상업적 사용 불가)이라 엄밀한 상업 이용엔 제약이 있을 수 있고, 연구 목적의 프로토타입 성격이 강합니다. 네이버 HyperCLOVA도 방대한 한국어로 학습된 LLM이지만 오픈소스로 공개된 적은 없어 직접 비교 대상은 아닙니다. 현재 Apache 라이선스로 상업 친화적으로 공개된 한국어 특화 LLM의 쌍두마차는 Upstage SOLAR와 Kakao Kanana라고 볼 수 있으며, 여기에 Polyglot-Ko (EleutherAI)까지 합쳐 사실상 한국어 LLM 3대장이 최신 기술 트렌드를 이끌고 있다고 해도 과언이 아닙니다. 아래 표는 이 세 모델과 주요 글로벌 모델의 스펙을 비교한 것입니다:
모델명 (개발사) | 파라미터 규모 | 한국어 특화도 | 맥락 길이 | 라이선스 | 특징 요약 |
---|---|---|---|---|---|
SOLAR 10.7B (Upstage) | 10.7B (프리트레인)+ Instruct 버전 | ★★★☆ (일부 다국어 포함, 한국어 평가 리더보드 선도) | 8192토큰※ | Apache 2.0 (프리)CC BY-NC 4.0 (튜닝) | 딥스케일링으로 소형화+고성능upstage.ai.GPT-3.5 능가 글로벌 1위upstage.ai.온프레미스 운용 용이upstage.ai. |
Kanana 1.5 8B (Kakao) | 2.1B / 8B (베이스)+ 지시따르기 튜닝 | ★★★★ (한국어 최적화, 양방언어 지원) | ~4096토큰 (추정, v2에서 확장 예정) | Apache 2.0 | 코드/수학/함수호출 특화aimatters.co.kr.긴 문맥 안정화, 응답 간결화aimatters.co.kr.상업 이용 완전 자유aimatters.co.kr. |
Polyglot-Ko 5.8B (EleutherAI) | 1.3B~12.8B 시리즈 | ★★★★ (한국어 전용 코퍼스 100%) | 2048토큰 | Apache 2.0 | 한국어만으로 학습 (863GB)huggingface.co.다중장르 한국어 강점.영어 등 비한글은 제한. |
LLaMA 2 13B (Meta) | 7B / 13B / 70B | ★★☆☆ (멀티랭 지원하나 한국어 비중 낮음) | 4096토큰 | Meta LLAMA2-License※ | Chat/RLHF 버전 존재.영어 SOTA급 성능.기업용 무료(일부 제한)aibusiness.comaibusiness.com. |
Qwen 7B (Alibaba) | 7B / 14B / 70B↑ | ★☆☆☆ (중국어/영어 강점, 한국어 미세학습 필요) | 2048토큰 (추후 확장 가능) | Alibaba License※ | 중국어 SOTA, Chat버전 RLHF.다국어 지원 용이 토크나이저aibusiness.com.1억 MAU 이하 무료aibusiness.com. |
Gemma 3 27B (Google) | 1B / 4B / 12B / 27B | ★★★☆ (140개국 언어 지원) | 128k 토큰 | Google Gemma-License | 싱글 GPU 동작 최적화blog.google.다국어+비전추론+함수호출 지원blog.google.경량화·양자화 제공. |
※LLaMA2 라이선스는 사실상 무료이지만 매출 10억달러 이상 기업 등 초거대 기업 사용 제한 조항이 있고, Qwen 라이선스는 월간 1억 사용자 이하 기업에 무료 (초과 시 별도 협의) 등의 조건이 있음aibusiness.comaibusiness.com. 맥락 길이(Context length)는 공개 정보 및 추정에 따름. (SOLAR는 Mistral 기반으로 8192토큰 지원, Kanana 1.5는 내부 테스트상 4k 수준 추정)
상업적 활용, LLM 라이선스 확인은 ‘선택’이 아닌 ‘필수’: 비즈니스 성패를 좌우하는 숨겨진 열쇠
‘오픈소스’라는 이름이 곧 ‘무제한적인 자유로운 사용’을 의미하는 것은 아니라는 점을 명확히 인지해야 합니다. 특히, LLM을 활용하여 상업적인 가치를 창출하고자 할 때, 각 모델에 적용된 라이선스 조건을 꼼꼼히 확인하는 것은 선택이 아닌 필수적인 과정입니다. 이는 단순히 법적 문제를 예방하는 차원을 넘어, 비즈니스의 지속 가능성과 안정적인 서비스 운영을 담보하는 핵심적인 요소이기 때문입니다.
라이선스는 해당 LLM의 개발자가 정한 사용 규칙이자 권리 보호 장치입니다. 이를 간과하고 무단으로 상업적 활용을 진행할 경우, 심각한 법적 분쟁에 휘말리거나 막대한 손해배상 책임을 질 수 있으며, 어렵게 구축한 서비스가 중단될 위험까지 감수해야 합니다. 따라서, LLM 도입 초기 단계부터 라이선스 검토는 최우선 과제로 다루어져야 합니다.
국내외 주요 LLM들이 채택하고 있는 라이선스는 그 종류와 조건이 매우 다양합니다. 어떤 라이선스는 비교적 자유로운 상업적 활용을 허용하는 반면, 어떤 라이선스는 엄격한 제한을 두거나 특정 조건을 충족해야만 상업적 이용이 가능하도록 규정하고 있습니다. 주요 국내 LLM들의 라이선스 유형과 그 의미를 좀 더 자세히 살펴보겠습니다.
1. 상업적 사용에 비교적 유연한 LLM (Apache 2.0 등 허용적 라이선스)
이러한 라이선스는 일반적으로 소스 코드의 사용, 복제, 수정, 배포 및 상업적 이용을 비교적 자유롭게 허용하며, 파생 저작물에 대한 소스 코드 공개 의무도 강제하지 않는 경우가 많습니다. 이는 특히 자금과 인력이 부족한 스타트업이나 중소기업이 LLM을 기반으로 빠르게 서비스를 개발하고 시장에 진입하는 데 큰 도움을 줄 수 있습니다.
업스테이지 SOLAR 10.7B (Apache License 2.0)
- 상세 설명: Apache License 2.0은 대표적인 허용적 오픈소스 라이선스입니다. 이 라이선스가 적용된 SOLAR 10.7B는 사용자에게 특허권 사용 허가를 명시적으로 부여하며, 수정된 코드를 재배포할 때 원본과 동일한 라이선스를 강요하지 않습니다. 즉, 기업은 SOLAR 모델을 기반으로 자체적인 상용 솔루션을 개발하고, 해당 솔루션의 소스 코드를 공개하지 않을 권리를 가질 수 있습니다. 또한, 원 저작자 표기 및 라이선스 사본 포함과 같은 기본적인 의무만 준수하면 상업적 판매 및 서비스 제공이 가능합니다.
- 비즈니스적 시사점: 이는 기업이 LLM 기술을 활용하여 독자적인 경쟁력을 갖춘 상용 제품을 개발하고, 지식재산권을 보호하는 데 유리한 환경을 제공합니다. 특히, 빠른 시장 검증과 사업 확장이 필요한 스타트업에게 매력적인 선택지가 될 수 있습니다.
카카오 Kanana 1.5 (8B, 2.1B) (Apache License 2.0)
- 상세 설명: 카카오의 Kanana 1.5 시리즈 역시 Apache License 2.0을 채택하여, 연구자뿐만 아니라 기업들도 자유롭게 모델을 튜닝하고 상업적 서비스에 적용할 수 있도록 지원합니다. 특히 ‘에이전틱 AI(Agentic AI)’ 구현을 위한 기능 강화에 초점을 맞추고 있다는 점은, 특정 비즈니스 자동화나 지능형 에이전트 개발을 목표로 하는 기업들에게 중요한 고려사항이 될 수 있습니다.
- 비즈니스적 시사점: 기업들은 Kanana 1.5 모델을 활용하여 고객 응대 챗봇, 개인화 추천 시스템, 업무 자동화 도구 등 다양한 상용 애플리케이션을 개발하고, 이를 통해 새로운 수익 모델을 창출하거나 기존 서비스의 가치를 높일 수 있습니다.
2. 상업적 사용에 제한이 있거나 특정 조건을 요구하는 LLM
이러한 라이선스는 상업적 사용을 원칙적으로 금지하거나, 특정 조건(예: 사용자 규모, 경쟁 서비스 여부 등)에 따라 별도의 계약이나 협의를 요구하는 경우가 많습니다. 이는 모델 개발사의 지식재산권을 보호하고, 무분별한 상업적 이용으로 인한 기술 생태계 왜곡을 방지하기 위한 조치로 이해할 수 있습니다.
네이버 HyperCLOVA X SEED (‘HyperCLOVA X SEED Model License’ – 커스텀 라이선스)
- 상세 설명: 네이버는 자체적으로 정의한 커스텀 라이선스를 HyperCLOVA X SEED에 적용했습니다. 이 라이선스는 기본적으로 상업적 활용을 허용하지만, 월간 활성 사용자(MAU) 수가 1천만 명을 초과하거나, NAVER가 제공하는 기존 서비스와 직접적으로 경쟁하는 제품/서비스를 개발하는 경우에는 네이버와 별도의 라이선스 계약을 체결해야 합니다.
- 비즈니스적 시사점: 초기 단계의 스타트업이나 중소 규모 서비스에는 비교적 자유롭게 활용될 수 있지만, 서비스가 급격히 성장하거나 네이버의 주력 사업 영역과 겹치는 서비스를 기획 중이라면 사전에 네이버와의 라이선스 협의 가능성 및 조건을 반드시 검토해야 합니다. 이는 장기적인 사업 확장 전략에 중요한 변수가 될 수 있습니다.
LG AI연구원 EXAONE 시리즈 (EXAONE 3.5, EXAONE Deep) (‘EXAONE AI Model License 1.1 – NC’)
- 상세 설명: ‘NC’는 ‘Non-Commercial’의 약자로, 이 라이선스는 기본적으로 비상업적인 연구 및 교육 목적으로만 모델 사용을 허용합니다. 만약 기업이 EXAONE 모델을 활용하여 상업적인 제품이나 서비스를 개발하고자 한다면, LG AI연구원과 별도의 상업용 라이선스 계약을 체결해야 합니다.
- 비즈니스적 시사점: 기업 입장에서는 우선 비상업적 라이선스 하에서 모델의 성능을 검증하고 내부적으로 PoC(Proof of Concept, 개념 증명)를 진행한 후, 실제 상용화 단계에서 라이선스 계약을 추진하는 전략을 고려할 수 있습니다. 다만, 상업용 라이선스 계약 조건(비용, 사용 범위 제한 등)이 사업의 수익성에 영향을 미칠 수 있으므로, 초기 검토 단계부터 이를 염두에 두어야 합니다.
마음AI Llama3 MAAL-Hummingbird (Meta Llama 3 Community License)
- 상세 설명: Meta의 Llama 3 Community License는 이전 Llama 2 라이선스와 유사하게, 특정 규모 이상의 기업에게는 제한을 두고 있습니다. 대표적으로 월간 활성 사용자(MAU) 수가 7억 명을 초과하는 서비스에는 Llama 3 모델을 사용할 수 없다는 조항이 포함되어 있습니다. 또한, 경쟁 모델 학습 금지 등 Meta의 지식재산권을 보호하기 위한 여러 조건들이 명시되어 있습니다.
- 비즈니스적 시사점: 대부분의 국내 기업에게 MAU 7억 명이라는 기준은 매우 높지만, 글로벌 서비스를 지향하거나 특정 플랫폼과 연동하여 폭발적인 사용자 증가가 예상되는 경우에는 잠재적인 제한 요소가 될 수 있습니다. 또한, 라이선스 위반 시 Meta로부터 모델 사용 중지 요청을 받을 수 있으므로, 규정 준수가 매우 중요합니다.
마음AI CANVAS / 카카오 Kanana Nano 2.1B (CC-BY-NC 4.0 – Creative Commons Attribution-NonCommercial 4.0)
- 상세 설명: Creative Commons 라이선스 중 ‘NC’가 포함된 라이선스는 명시적으로 비영리적 사용만을 허용합니다. 즉, 이 모델들을 활용하여 직접적인 수익을 창출하는 상업적 활동은 원칙적으로 금지됩니다. 저작자 표시(BY) 의무는 당연히 준수해야 합니다.
- 비즈니스적 시사점: 이러한 모델들은 주로 학술 연구, 내부 기술 검증, 교육용 프로토타입 개발 등 비영리적인 목적으로 활용될 수 있습니다. 만약 이를 기반으로 상업적 아이디어를 구체화하고자 한다면, 해당 모델 개발사와 별도의 상업용 라이선스 협의를 시도하거나, 상업적 이용이 가능한 다른 모델로 전환하는 것을 고려해야 합니다.
LLM 라이선스는 복잡하고 때로는 까다로운 규정일 수 있지만, 이를 정확히 이해하고 준수하는 것은 성공적인 AI 비즈니스를 위한 가장 기본적인 전제 조건입니다. 신중한 검토와 전략적인 접근을 통해 라이선스 리스크를 최소화하고, LLM이 가진 혁신의 잠재력을 마음껏 펼쳐나가시길 바랍니다.
IT 의사결정자를 위한 제언
한국어 특화 오픈소스 LLM들은 한국어의 문법적 특성, 어휘 뉘앙스, 문화적 맥락까지 세밀히 반영하여 글로벌 모델 대비 한국어에서 한 수 위의 사용자 경험을 제공합니다. 라이선스 또한 상업적으로 투명하므로 도입 장벽이 낮고, 로컬 실행이 가능해 프라이버시와 비용 측면에서도 유리합니다.
다음과 같은 사항들을 고려하여 LLM 도입 전략을 수립하시길 권합니다.
- 명확한 사용 목적 정의: LLM을 어떤 서비스에, 어떤 목적으로 활용할 것인지 명확히 해야 합니다. 이에 따라 필요한 모델의 크기, 성능, 특화 기능이 달라집니다.
- 라이선스 조건의 철저한 검토: 앞서 강조했듯이, 상업적 사용, 파생 모델 생성, 데이터 재사용 등 라이선스 조건을 면밀히 검토하여 법적 리스크를 최소화해야 합니다.
- 성능 및 비용 효율성 분석: 모델의 성능뿐만 아니라, 추론 비용, 파인튜닝 비용, 인프라 구축 비용 등을 종합적으로 고려해야 합니다. 특히 클라우드 네이티브 환경에서의 배포 용이성, MSA 구조와의 통합 가능성 등도 중요한 평가 요소입니다.
- 데이터 보안 및 프라이버시: 민감 정보를 다루는 서비스라면, 외부 API 호출 방식보다는 자체 구축 또는 프라이빗 클라우드 환경에서의 모델 운영을 고려해야 하며, 이 경우 모델의 경량화 및 온디바이스 AI 가능성도 검토 대상이 될 수 있습니다.
- 지속적인 기술 동향 파악: LLM 기술은 매우 빠르게 발전하고 있습니다. 새로운 모델, 새로운 라이선스 정책, 새로운 활용 사례 등을 지속적으로 모니터링하며 유연하게 대응할 수 있는 체계를 갖추는 것이 중요합니다.
한국형 LLM들은 이제 막 본격적인 성장 가도에 들어섰습니다. 앞으로 더욱 다양한 크기와 특성을 가진 모델들이 등장하고, 우리 기업들의 비즈니스 혁신을 가속화하는 핵심 동력이 될 것으로 기대합니다. 신중한 검토와 전략적인 접근을 통해 LLM이 가진 무한한 가능성을 현실로 만들어나가시길 바랍니다.
References & Related Links
- Solar Pro: The most intelligent LLM on a single GPU
- kakaocorp/kanana-nano-2.1b-base – Hugging Face
- Llama 2 Community License Agreement – Meta AI
- Qwen – Hugging Face
- Gemma: Introducing new state-of-the-art open models
- Gemma Terms of Use | Google AI for Developers
- A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models – arXiv
- beomi/KoAlpaca-llama-1-7b – Hugging Face
- junelee/ko_vicuna_7b – KoVicuna – Hugging Face