GLM-5.2 분석: 오픈웨이트 코딩 모델의 실력과 한계

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.

오픈웨이트 코딩 모델 GLM-5.2가 공개되면서 폐쇄형 상용 모델과의 격차가 다시 좁혀졌습니다. 이 글을 끝까지 읽으면 GLM-5.2의 벤치마크 성적과 실제 강점·약점, MIT 라이선스가 주는 자유도, API 가격 구조, 그리고 한국 개발자가 도입할 때 따져야 할 데이터 주권 리스크까지 한 번에 파악할 수 있습니다.

이 글은 2026년 6월 기준 정보입니다. AI 분야는 변화가 빨라 발행 후 내용이 달라질 수 있습니다. 벤치마크 점수와 가격은 본문에 표기된 출처(Z.ai·Hugging Face 공식 모델카드) 발표 기준이며, 비교 대상 모델의 수치는 각 발표 시점에 따라 달라질 수 있습니다.

GLM-5.2란 무엇인가

GLM-5.2는 Z.ai(zai-org)가 공개한 오픈웨이트 대규모 언어 모델입니다. 가중치가 Hugging Face에 공개되어 누구나 내려받아 실행할 수 있습니다. 핵심 지향점은 코딩과 에이전트형 작업입니다.

아키텍처는 MoE(Mixture-of-Experts) 구조입니다. 공식 모델카드 기준 총 파라미터는 753B입니다. 내부적으로는 glm_moe_dsa 방식을 사용하며, 레이어마다 256개의 routed expert 중 top-8을 선택하고 1개의 shared expert를 더합니다. 어텐션은 MLA(Multi-head Latent Attention)를 채택했습니다.

MoE 구조의 의미는 분명합니다. 전체 파라미터가 753B로 크지만, 추론 시 모든 파라미터가 동시에 활성화되는 것은 아닙니다. 토큰마다 일부 expert만 골라 쓰기 때문에, 동일 규모의 dense 모델보다 추론 비용을 낮추면서 큰 모델의 표현력을 유지하려는 설계입니다. 최근 대형 오픈웨이트 모델 대부분이 이 방향을 택하고 있습니다.

컨텍스트 윈도우는 1M 토큰입니다. 최대 출력은 128K 토큰입니다. 긴 코드베이스 전체를 한 번에 넣고 작업하는 시나리오를 염두에 둔 사양입니다. 오픈웨이트 모델의 기본 개념과 라이선스 구분이 생소하다면 오픈웨이트 모델이란? 글을 먼저 읽어두면 이 글의 라이선스 논의가 더 분명해집니다.

벤치마크로 본 실력

GLM-5.2의 강점은 코딩과 에이전트 과제에 집중되어 있습니다. 공개된 주요 점수는 다음과 같습니다.

벤치마크	GLM-5.2 점수	측정 영역
SWE-bench Pro	62.1	실제 코드 수정·이슈 해결
Terminal-Bench 2.1 (Terminus-2)	81.0	터미널·에이전트 작업
GPQA-Diamond	91.2	대학원 수준 과학 추론
AIME 2026	99.2	고난도 수학
Humanity's Last Exam	40.5	종합 난제

(출처: Z.ai·Hugging Face 공식 모델카드, 2026년 6월 17일 발표)

SWE-bench Pro 62.1은 전작 GLM-5.1의 58.4에서 향상된 수치입니다. SWE-bench는 실제 깃 저장소의 이슈를 모델이 코드 수정으로 해결하는지 측정합니다. 단순 코드 생성이 아니라 기존 코드베이스를 이해하고 패치하는 능력을 보는 지표라, 실무 활용도와 상관이 높은 편입니다.

Terminal-Bench 81.0은 에이전트형 작업에서의 강점을 보여줍니다. 터미널 환경에서 명령을 조합하고 결과를 보며 다음 행동을 결정하는 능력입니다. 이런 반복 실행 흐름이 왜 현재 AI 코딩의 표준이 되었는지는 루프 엔지니어링 글에서 자세히 다룹니다.

GPT-5.5와의 비교는 카테고리별로

Z.ai는 발표 자료에서 GLM-5.2를 GPT-5.5와 비교한 표를 함께 제시했습니다. 여기서 주의할 점이 있습니다. 비교표의 GPT-5.5 점수는 Z.ai 발표 비교표 기준이며, 측정 조건이 각 벤더마다 다를 수 있어 그대로 절대 우열로 받아들이기는 어렵습니다.

발표 자료를 카테고리별로 정리하면 양상이 갈립니다. 코딩 일부 영역과 장기 과제(long-horizon)에서는 GLM-5.2가 우세하다고 제시됩니다. 반면 터미널 기반 작업 일부 영역에서는 GPT-5.5가 더 높게 나타나는 항목도 있습니다. 즉 "오픈웨이트 모델이 상용 최고 모델을 전반적으로 꺾었다"는 식의 단정은 적절하지 않습니다.

실무자 입장에서 합리적인 해석은 이렇습니다. 특정 워크플로우에서 GLM-5.2는 최상위 상용 모델과 경쟁 가능한 수준에 도달했습니다. 그러나 모든 작업 유형에서 우위를 의미하지는 않습니다. 자신의 실제 작업(이슈 해결 중심인지, 터미널 자동화 중심인지)에 맞춰 직접 검증하는 편이 안전합니다.

가격과 라이선스: 오픈웨이트의 진짜 무기

GLM-5.2의 차별점은 점수표보다 라이선스와 비용 구조에 있습니다.

라이선스는 MIT입니다. 상업적 사용·수정·재배포가 폭넓게 허용되는 관대한 라이선스입니다. 가중치가 공개되어 있으므로, 외부 API에 의존하지 않고 자체 인프라에서 모델을 직접 구동할 수 있습니다. 이는 데이터를 외부로 내보내기 어려운 조직에 결정적인 장점입니다.

API로 쓸 경우 공식 가격은 입력 $1.4 / 출력 $4.4 per 1M tokens입니다(출처: Z.ai 공식 pricing 문서). 입력 1M 토큰에 $1.4, 출력 1M 토큰에 $4.4가 부과되는 구조입니다.

항목	단가 (per 1M tokens)
입력 (input)	$1.4
출력 (output)	$4.4

기능 지원 범위도 실무 도입 기준을 충족합니다. Thinking Mode(추론 모드), Function Calling, Context Caching, Structured Output, MCP를 지원합니다. 특히 MCP 지원은 외부 도구·데이터 소스를 표준 방식으로 연결한다는 점에서, 에이전트 워크플로우를 구성할 때 중요한 요소입니다.

한국 개발자 활용 시나리오

가상의 사례로 정리해 봅니다. 사내 코드 리뷰 자동화를 검토하던 한 스타트업 개발팀이 GLM-5.2 도입을 고려한다고 가정합니다.

이 팀의 우선순위가 "민감한 사내 코드를 외부 API로 보내지 않는 것"이라면, MIT 라이선스 오픈웨이트라는 점이 결정적입니다. 자체 GPU 인프라가 있다면 가중치를 내려받아 폐쇄망 안에서 구동할 수 있습니다. 코드가 회사 경계를 벗어나지 않습니다.

반대로 인프라 운영 부담을 줄이고 빠르게 검증부터 하려는 단계라면, 공식 API로 시작하는 편이 합리적입니다. 입력 $1.4 / 출력 $4.4 per 1M tokens 구조를 자신의 월간 토큰 사용량에 대입해 예상 비용을 먼저 산정해 보길 권합니다. 1M 컨텍스트 윈도우 덕분에 큰 저장소를 통째로 넣는 작업도 시도해 볼 수 있습니다.

코딩 에이전트를 직접 구성하려는 개발자라면, 도구 호출과 반복 실행 루프 설계가 성패를 가릅니다. 이 설계 패턴은 클로드 코드 활용법 글의 MCP·서브에이전트 구성 방식이 모델을 바꿔도 그대로 응용됩니다.

도입 전 짚어야 할 함정

성능 점수만 보고 도입을 결정하면 놓치는 지점이 있습니다.

첫째, 벤치마크 점수는 발표 조건의 산물입니다. 앞서 언급했듯 비교표의 타 모델 점수는 발표 주체 기준이라, 자신의 실제 과제로 재검증하지 않으면 기대와 결과가 벌어질 수 있습니다.

둘째, 데이터 주권 문제입니다. 모델 가중치가 MIT로 공개되어 자체 구동이 가능하다는 점은 오히려 데이터 통제권을 높여줍니다. 다만 공식 API를 통해 호출하는 경우에는 입력 데이터가 외부 서버로 전송됩니다. 어떤 국가·관할권의 서버를 거치는지, 그 데이터가 어떻게 처리·보관되는지는 조직의 보안 정책과 컴플라이언스 기준에 따라 반드시 사전 검토해야 합니다. 이는 특정 국가의 문제가 아니라, 외부 API를 쓰는 모든 모델에 공통으로 적용되는 데이터 주권 일반론입니다. 민감 데이터를 다룬다면 자체 호스팅 경로를 우선 검토하는 편이 안전합니다.

셋째, 753B 규모 모델의 자체 구동에는 상당한 GPU 메모리가 필요합니다. MoE라 추론 비용은 dense 대비 유리하지만, "오픈웨이트라서 공짜"가 아니라 "운영 인프라 비용으로 전환된다"는 점을 예산에 반영해야 합니다.

결론

GLM-5.2는 SWE-bench Pro 62.1, Terminal-Bench 81.0으로 코딩·에이전트 영역에서 상위권 실력을 보이는 오픈웨이트 모델입니다. MIT 라이선스와 1M 컨텍스트, 명확한 API 가격(입력 $1.4 / 출력 $4.4 per 1M tokens)이 실무 도입 문턱을 낮춥니다. 다만 GPT-5.5 등 상용 모델과의 비교는 카테고리별로 갈리며, 발표 비교표를 절대 우열로 단정하긴 어렵습니다. 도입을 검토한다면 자신의 실제 워크플로우로 직접 검증하고, 데이터 주권과 운영 인프라 비용을 함께 따져보길 권합니다. 오픈웨이트 생태계 전반의 흐름이 궁금하다면 오픈웨이트 모델이란? 글을 이어서 확인해 보세요.

Sources

GLM-5.2 공식 모델카드 (Hugging Face): https://huggingface.co/zai-org/GLM-5.2
GLM-5.2 기술 블로그 (Hugging Face): https://huggingface.co/blog/zai-org/glm-52-blog
Z.ai LLM 가이드 (GLM-5.2): https://docs.z.ai/guides/llm/glm-5.2
Z.ai 가격 정책: https://docs.z.ai/guides/overview/pricing