백서-프라이빗 sLLM Qwen 3.6 27B, 데이터 주권과 TCO를 함께 잡다

2026년 4월 공개된 Qwen 3.6 27B는 dense 27B 규모에서 상용 프론티어와 겨루는 첫 오픈웨이트입니다. CIO·CTO가 상용 API 사용료, 데이터 국외 이전, 모델 소유권에서 판단을 미뤄 왔다면, 이번 세대는 그 재료를 새로 제공합니다.

2026년 07월 05일

왜 지금 온프렘 오픈웨이트인가

상용 프론티어와의 성능 격차가 좁혀지며 저울추가 이동했습니다. Qwen 3.6 27B는 SWE-bench Verified 77.2점으로 Claude Sonnet 4.5와 동급이고, Sonnet 4.6(79.6)과는 약 2점 차입니다(백서 §1.1, [S03]). 이전 세대 오픈웨이트의 도입 실패 원인 — 성능 격차, 라이선스 제약, 과도한 하드웨어 요구 — 이 27B dense 세대에서 동시에 해소됐습니다(백서 §2.1). 여기에 개인정보보호법의 국외 이전 제한과 금융·공공의 망분리 요구가 겹치면 상용 API는 총비용 계산 이전에 후보에서 빠집니다(백서 §2.2).

온프렘 sLLM Qwen 3.6 27B, 데이터 주권과 TCO를 함께 잡다 - 백서 다운로드

MSAP.ai 백서 구독하기🔔

새로운 백서 소식을 가장 먼저 만나보세요!

MSAP.ai 가 전하는 AI 기반 운영 인사이트와 최신 백서 소식을 가장 빠르게 받아보실 수 있습니다.

구독해 주시면 더 좋은 콘텐츠로 보답하겠습니다.🙏

무엇이 문제인가 — 상용 API의 잠복 비용

상용 API의 부담은 토큰 단가만이 아닙니다. 입력 단가는 백만 토큰당 Sonnet 4.6이 3.00달러, Qwen 3.6 27B가 OpenRouter 기준 0.60달러로 5배 차이지만(백서 §2.1, [S01]), 3년 누적 총소유비용(TCO, 도입비·운영비·인력까지 포함한 총비용) 격차는 더 벌어집니다. 상용 API에는 데이터 국외 이전 리스크가 잠복하고, 사내 파이프라인이 벤더 규격에 결합될수록 전환 비용이 배수로 커지기 때문입니다(백서 §2.2). 결정을 미룰수록 벤더 종속 로그와 기술 부채만 남습니다.

무엇을 어떻게 — 해결과 도입 사례

핵심은 하드웨어 문턱입니다. Qwen 3.6 27B는 Q4_K_M GGUF 양자화(가중치 표현을 낮춰 용량을 줄이는 압축) 기준 16.8GB로, RTX 3090·4090급 소비자 GPU 한두 장으로 온프렘 서빙이 가능합니다(백서 §4.1, [S06]). 데이터 레지던시 요구가 강한 금융·헬스케어·EU 공공섹터가 이 모델을 코딩 백본으로 채택해 상용 API 대비 20~40퍼센트포인트 성능 개선을 보고했습니다(백서 §5.1.2, [S11] Heyneo 2026).

기준	상용 프론티어 API	Qwen 3.6 27B 온프렘
SWE-bench Verified	Sonnet 4.6 79.6	77.2 (Sonnet 4.5 동급)
입력 단가(백만 토큰)	3.00달러	0.60달러
컨텍스트 창	200K	262K 네이티브
라이선스	이용약관 범위	Apache 2.0 (파생물 소유권 도입 기관)
망분리 정합	불가(인터넷 경유)	업무망 내부 서빙

262K 컨텍스트는 계약서·규정 수백 쪽을 단일 호출에 담아, 반복 호출로 부풀던 입력 토큰 소비를 없앱니다(백서 §5.2.1).

도입 효과 — 지표

사례에서 관찰된 정량 지표는 다음과 같습니다. 사내 지식검색(RAG) 검색 정확도 20~40퍼센트포인트 개선, 계약서·규정 요약 검토 시간 60퍼센트 단축, 콜센터 상담 응대 시간 30퍼센트 단축, 코드 리뷰 PR 리드타임 40퍼센트 단축입니다(백서 §5.2.1, [S11]). 국내 실측치는 도입 타당성 검증(PoC) 단계에서 별도로 측정합니다.