노타의 MoE LLM 양자화 연구 2편, ICML 2026 워크숍에 나란히 이름을 올리다
Hancheol Park, Ph. D.
AI Research Engineer, NetsPresso Tech, Nota AI
Geonho Lee
Edge AI Engineer Intern, NetsPresso Tech, Nota AI
Tae-Ho KimCTO & Co-Founder, Nota AI
개요
Amazon의 연구자들이 주축이 되어 주최한 ICML 2026 워크숍(https://adaptfm.gitlab.io/)에서 노타의 혼합 전문가 대규모 언어 모델(MoE LLM) 특화 양자화 기법 논문 2편이 채택되었습니다.
DREAM-MoE: 라우팅에 중요한 전문가(expert) 순서를 보존하고, 이후 블록에서의 라우터도 원본 모델의 결과를 보존하도록 설계된 양자화 기법으로, 추론 시 오버헤드 없이 양자화로 인한 라우팅 오류를 줄이는 사후 학습 양자화(PTQ) 기법입니다.
SRA-MoE: 실제 모델 출력에 영향을 미치는 라우팅 변화에 집중하여, 출력값의 변화에 민감한 토큰을 더 중요도 있게 처리함으로써 MoE 양자화 성능을 개선하는 선택적 라우팅 결과 보존 (또는 라우터 정렬) 기법입니다.
소개
혼합 전문가 대규모 언어 모델(Mixture-of-Experts LLM, MoE LLM)은 각 토큰에 대해 일부 전문가(expert)만 활성화하는 방식으로, LLM을 효율적으로 확장할 수 있는 중요한 아키텍처로 자리잡고 있습니다. 그러나 연산을 일부 전문가에만 집중하는 구조임에도 불구하고, 모든 전문가 파라미터를 메모리에 상주시켜야 하기 때문에 배포 환경에서의 메모리 부담은 여전히 큽니다. 이런 이유로 저비트 사후 학습 양자화(Post-Training Quantization, PTQ)는 MoE LLM의 실용적인 배포를 위한 핵심 기술입니다. 밀집형(dense) LLM과 달리 MoE LLM에는 추가적인 난제가 존재합니다. 바로 양자화가 라우터(router) 출력을 교란(perturbation)시켜 어떤 전문가가 선택되는지를 바꿔버릴 수 있다는 점입니다. 양자화된 모델이 단순히 작은 수치 오차를 가진 근사 모델이 아니라, 아예 다른 전문가 경로를 실행할 수 있습니다. 이번 논문 2편은 라우팅 안정성 관점에서 이 MoE 특유의 양자화 문제를 정면으로 다룹니다.
연구의 주요 메시지
정확한 MoE 양자화의 핵심은 모델 출력에 영향을 미치는 라우팅 결정을 보존하는 것입니다. 본 연구는 MoE 양자화를 단순한 가중치 복원 문제로 접근하는 대신, 전문가 선택, 전문가 순서, 라우팅 마진, 출력에 영향을 주는 라우팅 변화를 PTQ 과정에서 명시적으로 고려해야 함을 보여줍니다.
연구의 의의 및 중요성
밀집형 LLM에서 양자화 오류는 보통 활성화(activation)나 출력값의 연속적인 교란으로 나타납니다. 반면 MoE LLM에서는 작은 교란만으로도 선택되는 상위 k개 전문가가 바뀌어, 연산 경로 자체가 이산적으로 변할 수 있습니다. 이로 인해 MoE 양자화는 라우터 동작에 특히 민감합니다. 이는 MoE LLM 압축에 MoE를 고려한 목적 함수가 필요함을 시사합니다. 단순히 복원 오차를 최소화하는 것을 넘어, 토큰이 전문가를 통해 흐르는 방식을 결정하는 라우팅 구조 자체를 보존해야 합니다.
연구 방법론
양자화된 MoE LLM에서 라우팅 안정성을 개선하기 위해 두 가지 상호보완적인 PTQ 전략을 개발했습니다.
첫 번째 전략: 라우팅에 중요한 전문가 순서 보존
기존의 라우터 인식 PTQ 방법들은 양자화 모델과 전체 정밀도(full-precision) 모델 간의 라우터 로짓(logit) 값을 맞추는 방식을 주로 사용합니다. 그러나 로짓 값을 일치시키는 것이 반드시 전문가의 상대적 순서를 보존하지는 않습니다. 상위 k개 경계 근처에서 작은 변화만 발생해도 선택되는 전문가가 교체될 수 있기 때문입니다.
이를 해결하기 위해 선택된 전문가와 경계 근처의 미선택 전문가 간의 쌍별 마진(pairwise margin)을 보존하여, 상위 k개 라우팅을 결정하는 전문가 순위 관계를 직접적으로 유지합니다. 나아가 이 아이디어를 다음 MoE 라우터까지 확장하여, 각 양자화 블록이 로컬 복원 품질뿐만 아니라 다운스트림(downstream) 라우팅에 미치는 영향까지 함께 고려합니다. 캘리브레이션(calibration) 단계의 목적 함수로만 추가되기 때문에, 추론 시 별도의 모듈이나 연산 오버헤드는 발생하지 않습니다.
두 번째 전략: 출력 인식 선택적 라우터 정렬
라우팅 변화가 크다고 해서 반드시 출력에 영향을 주는 것은 아닙니다. 상당수 토큰은 라우팅이 크게 바뀌어도 출력에는 거의 영향을 미치지 않습니다. 따라서 모든 토큰에 대해 라우팅 동작을 일괄적으로 정렬하는 대신, 양자화 후 출력 분포가 의미 있게 변하는 토큰을 먼저 식별하고 해당 토큰에만 라우터 정렬을 집중적으로 적용합니다. 이를 통해 정렬 목적 함수가 보다 정밀해지고, 모델 동작에 영향을 주지 않는 라우팅 변화에 최적화 자원을 낭비하지 않을 수 있습니다.
두 전략은 공통된 원칙을 제시합니다. MoE PTQ는 모든 라우터 차이를 맹목적으로 최소화하는 것이 아니라, 출력을 변화시키는 라우팅 동작을 보존하는 데 집중해야 한다는 것입니다.
실험 결과
라우팅에 중요한 전문가 순서 보존 기법을 적용한 MoE 특화 양자화 기법과 두 가지 저비트 가중치 전용(weight-only) 양자화 설정에서 검증한 결과, 마진 보존 및 다운스트림 라우팅 기법은 6개 모델-비트 설정 중 5개에서 최고 평균 다운스트림 정확도를, 5개에서 최저 언어 모델링 perplexity를 달성했습니다. 4비트에서는 가장 강력한 기준(baseline) 방법론 대비 평균 벤치마킹 정확도를 평균 +1.30점 향상시켰으며, 3비트에서는 평가된 세 모델 전체에서 최저 혼란도를 달성하고 두 모델에서 평균 벤치마킹 정확도를 개선했습니다. 4비트 설정에서는 세 가지 대표 MoE LLM의 평균 다운스트림 정확도를 각각의 가장 강력한 기준 모델 대비 39.46→40.54, 49.64→50.25, 64.06→66.27로 향상시켰으며, 최대 개선폭은 +2.21점이었습니다. 출력 인식 선택적 라우터 정렬을 적용한 MoE 특화 양자화 기법의 경우, 4비트 설정에서 약 49%, 3비트 설정에서 약 57%의 토큰만 정렬에 활용되었습니다. 나머지 토큰은 양자화 후에도 출력이 이미 보존되어 있어 정렬 대상에서 제외된 것입니다. 더 적은 토큰을 사용했음에도 기존 균일 라우팅 결과 보존(uniform router alignment) 방식과 동등하거나 더 나은 성능을 달성했습니다. 대표 모델에서 선택적 정렬은 3비트 양자화 성능을 균일 라우터 정렬 대비 추론 벤치마크에서 69.58→72.08, 다른 벤치마크에서 52.50→55.42, 광범위한 지식 벤치마크에서 64.73→67.17로 개선했습니다. 4비트 양자화에서도 추론 벤치마크 67.50→70.00, 60.73→61.87로 향상되었습니다. 더 큰 MoE LLM에서도 확장 가능성을 확인했습니다. 4비트 양자화에서 한 대형 MoE LLM의 대표 결과를 기본 PTQ 방법 대비 73.33→76.67, 60.00→63.75, 63.54→65.79로, 다른 모델에서는 64.58→67.92, 68.18→69.26, 61.69→62.96으로 개선했습니다.
결론
본 연구는 라우팅 안정성이 저비트 MoE LLM 양자화의 핵심 병목임을 보여줍니다. MoE PTQ는 가중치나 활성화를 복원하는 데 그치는 것이 아니라, 모델의 연산 경로를 결정하는 전문가 선택 구조를 함께 보존해야 합니다.
라우팅에 중요한 전문가 순서를 보존하고, 다운스트림 라우팅 동작을 고려하며, 출력에 영향을 미치는 라우팅 변화에만 선택적으로 정렬을 적용하는 것. 이 세 가지 원칙이 저비트 양자화 환경에서 정확하고 효율적인 MoE LLM 배포를 위한 실용적인 방향을 제시합니다.
노타의 AI 모델 최적화 기술이 궁금하시다면, 넷츠프레소에서 만나보세요.
노타 AI의 최신 인사이트, 이제 LinkedIn에서도 만나보세요. 엣지 AI 트렌드부터 기술 업데이트까지 — Edge Insights 뉴스레터를 구독하고 가장 먼저 받아보세요. 👉 구독하기