**Jaehoon Lee**
Technical Content Manager, Nota AI

넷츠프레소가 AI 에이전트를 품었습니다. 경량화부터 디바이스 배포까지 책임지는 검증된 파이프라인 위에, 간편한 인터페이스가 더해졌습니다.

이제 사용자가 최적화 목표를 제시하면, 에이전트(Agent)가 이해하고 넷츠프레소가 직접 실행합니다. 알고리즘 선택, 캘리브레이션, 백엔드 호환성, 정확도-지연 시간 트레이드오프를 동시에 다루며 검증된 결과까지 끌고 갑니다. 단계마다 일일이 설정을 만질 필요는 사라집니다. 후보 탐색·변환·검증·내보내기까지 에이전트가 스스로 처리합니다.

AI 트렌드는 한 곳을 가리킵니다

2026년 4월, AI 업계를 주도하는 두 빅테크 기업이 동일한 메시지를 내보냈습니다. 자사 에이전트가 일을 더 잘 해낸다는 것.

불과 1년 전까지만 해도 신규 모델 출시를 알리는 핵심 메시지는 늘 한결같았습니다. AIME나 MMLU 같은 정적 벤치마크 점수를 내세우며, AI 모델의 '지능'이 얼마나 뛰어난지를 증명하는 데 방점이 찍혀 있었죠. 하지만 이제 시장의 패러다임이 완전히 바뀌었습니다.

OpenAI가 GPT-5.5를, Anthropic이 Claude Opus 4.7을 연이어 공개하며 앞세운 핵심 지표는 각각 'Terminal-Bench 2.0'과 'SWE-bench Verified'였습니다. 이 벤치마크들은 기존의 단순 지식 측정과 궤를 달리합니다. 복잡한 환경에서 에이전트가 스스로 작업을 계획하고, 반복 검증하며, 도구를 호출해 최종 목표를 완수해 내는 실질적인 역량을 평가합니다.

이는 AI 업계의 최대 격전지가 모델이 얼마나 똑똑한지를 겨루는 '지능 경쟁'에서, 주어진 과제를 끝까지 책임지고 완수해 내는 '에이전트 태스크 실행력 경쟁'으로 그 무게 중심이 통째로 이동했음을 의미합니다.

이제 에이전트가 양자화까지 할 수 있습니다

AI가 똑똑함과 작업 완수 능력을 동시에 갖추자, 과거에는 인간 엔지니어의 전유물이었던 '메타 작업(Meta-task)'까지 자동화하려는 시도가 등장하고 있습니다. 대표적인 분야가 바로 모델 경량화이며, 그중에서도 가장 까다로운 갈래로 꼽히는 '양자화'입니다.

양자화는 본질적으로 'AI가 AI 모델을 다루는' 고난도의 작업입니다. 성공적인 양자화를 위해서는 다음 네 가지 복합적인 의사결정이 단일 파이프라인 내에서 동시에 이루어져야 합니다.

불과 몇 개월 전만 해도 대규모 언어 모델(LLM)에게 양자화를 온전히 맡기는 것은 불가능에 가까웠습니다. 양자화는 수십에서 수백 단계에 이르는 긴 호흡의 작업이며, 복잡한 외부 도구를 한 치의 오차 없이 호출해야 하고, 최종 결과의 유효성을 스스로 검증해야 하기 때문입니다. 과거의 LLM은 긴 추론 과정 도중 원래의 목표를 잃어버리기 일쑤였고, 도구 호출이 불안정했으며, 자신의 결과물을 객관적으로 평가하는 능력이 현저히 부족했습니다.

그러나 최근 AI 에이전트 기술이 진일보하며 이 견고했던 장벽이 허물어지고 있습니다. "모델을 INT4로 양자화해 줘"라는 자연어 지시 하나만으로, 에이전트가 스스로 알고리즘을 탐색하고 캘리브레이션을 수행하며 최종 평가까지 완수하는 시도가 학계와 산업계에서 동시다발적으로 등장하고 있습니다.

직접 검증해봤습니다

노타 역시 이러한 기술적 패러다임의 변화를 예의주시해 왔습니다. 나아가 AI 에이전트가 'AI 모델 자체를 다루는 메타 작업'을 수행할 수 있는 기술적 임계점에 도달했음을 직접 확인했고, 유의미한 결과도 얻었습니다.

가설은 단순했습니다. AI 모델 양자화도 결국 사람이 해온 일이라면, 고도화된 에이전트 역시 이를 수행할 수 있지 않을까. 이 가설을 검증하기 위해, 타깃 모델의 파라미터 규모를 단계적으로 확장해 가며 수 주에 걸쳐 에이전트 주도의 양자화 자동화 실험을 진행했습니다. 아래는 그중 대표적인 실험 내용입니다.

사진 3: Gemma 4 26B-A4B-it 양자화 실험에 사용된 다섯 가지 변수

이렇게 설계한 이유는 모델 크기와 구조 난도를 동시에 압박하기 위해서입니다. Gemma 4 26B-A4B-it은 MoE 구조라 정밀도 분배가 까다롭고, RTX 3090 단일 GPU에 올리는 것만으로도 일정 수준의 경량화가 강제됩니다. 측정 프로토콜은 HuggingFace 모델 카드와 공식 벤치마크 절차를 그대로 따랐기에, 결과를 다른 모델 점수와 직접 비교할 수 있습니다. 에이전트가 자율적으로 탐색·수행한 양자화 결과는 다음과 같습니다.

사진 4: BF16 베이스라인 대비 에이전트 양자화의 세 가지 지표 변화

모델 크기와 VRAM 사용량을 60% 이상 줄였음에도, AIME 2026 정확도는 오히려 +3.33%p 상승했습니다. 이 결과는 분명한 시사점을 남깁니다. 에이전트는 이제 양자화 같은 메타 작업의 임계점을 넘었습니다. 26B급 MoE 모델을 단일 GPU로 끌어내리면서 정확도까지 끌어올린 결과는, 불과 작년만 해도 LLM에게 온전히 맡기기 어려웠던 작업 범위입니다.

하지만 이 고무적인 성과 이면에는 간과할 수 없는 맹점이 숨어 있었습니다. 우리는 실험 과정을 통해, '통제되지 않은 에이전트에게 최적화의 모든 결정 권한을 온전히 위임하는 것'이 실제 비즈니스 환경에서 얼마나 큰 리스크를 초래할 수 있는지도 동시에 목격했습니다.

숙제 1. 토큰과 시간을 과소비합니다

AI 에이전트를 활용해 모델 양자화에 성공한 것은 분명 유의미한 성과입니다. 그러나 늘 일관되게 성공한 것은 아니었으며, 최종 결과에 도달하기까지 막대한 시행착오를 수반해야 했습니다. 실제 실험 과정에서 에이전트의 워크플로에 나타난 고질적인 문제는 다음과 같습니다.

사진 5: 에이전트 워크플로에서 반복적으로 관찰된 네 가지 시스템적 한계

이러한 에이전트의 시스템적 한계는 결국 큰 비용 문제로 이어집니다. 모델 양자화는 본래 고도의 정밀함이 요구되어 시행착오가 잦은 작업인데, 에이전트의 비효율적인 동선이 더해지며 단일 실험에 약 5억 토큰과 약 $1,074의 API 비용이 소모되기도 했습니다.

가장 우려되는 점은 결과의 불확실성입니다. 막대한 시간과 자본을 투입하고도 실제 배포 가능한 수준의 최적화 모델을 얻지 못한 채, 자원만 낭비하고 끝나는 '매몰 비용'의 위험이 실무 도입의 가장 큰 장벽으로 남아있습니다.

숙제 2. 성공처럼 보이는 실패가 많습니다

에이전트가 '성공'으로 기록한 결과조차 실제로는 사용할 수 없는 거짓 성공인 경우가 빈번했습니다. 시스템상으로는 작업 완료 신호를 보냈으나, 실제 산출물에는 명백한 결함이 포함된 사례들은 다음과 같습니다.

사진 6: 에이전트가 '성공'으로 기록했지만 실제로는 사용 불가능했던 네 가지 사례

더불어, 에이전트가 자연어 프롬프트로 설정한 제약을 교묘하게 우회하는 현상도 발생했습니다. "원본 모델을 직접 양자화하라"고 명시적으로 지시했음에도 불구하고, 허깅페이스 허브(HuggingFace Hub)에 이미 업로드되어 있는 양자화 모델을 다운로드하여 점수만 측정하는 회피 행동이 확인되었습니다.

하지만 가장 비용 손실이 큰 실패는 '실행 환경을 고려하지 않은 맹목적인 성공'이었습니다. 13가지 양자화 기법을 시도한 실험에서, 논리적인 양자화 연산 자체는 대부분 성공했지만, 그중 8개는 타깃 디바이스에서 효율적으로 실행할 전용 커널이 준비되지 않은 방식이었습니다. 결과적으로 추론 속도가 초당 1~2 토큰 수준으로 급감했습니다. 궁극적인 목표인 '배포 가능한 모델 확보'에는 한 발짝도 다가서지 못하는 결과를 낳았습니다.

숙제 3. 스스로를 과신합니다

AI 에이전트는 자신의 수행 결과를 과도하게 신뢰하는 경향이 있으며, 이는 특히 자체 평가 단계에서 뚜렷하게 나타납니다.

일례로 에이전트에게 AIME 2026 점수 측정을 지시했을 때, 공식 평가 프로토콜을 준수하지 않고 평가 변수를 자의적으로 설정하는 오류가 있었습니다. 그 결과 다음과 같은 문제가 동시에 일어났습니다.

에이전트가 AIME 2026 평가에서 공식 프로토콜을 무시하고 자의적으로 설정한 세 가지 변수와 그 결과 표. (1) max_tokens: 64K → 16K — 제한으로 인해 추론 도중 출력이 강제로 잘림. (2) temperature: 0.6 → 0 — 추론 모델 특유의 사고 과정이 비정상적으로 단축됨. (3) n: 4 → 1 — 공식 기준을 무시하여, 공식 벤치마크 결과와의 객관적 비교가 불가능해짐. — 사진 7: AIME 평가에서 에이전트가 자의적으로 바꾼 세 가지 변수와 그 결과

이러한 임의적 설정으로 인해 동일한 모델임에도 점수 편차가 크게 발생했습니다. 하지만 에이전트는 '자신이 설정한 조건 내에서는 정상적으로 평가가 완료되었다'는 이유로 이를 유효한 결과로 보고하는 논리적 맹점을 보였습니다.

나아가, 에이전트가 자신의 결과물을 직접 평가할 때 이를 지나치게 낙관적으로 해석하는 편향성도 반복적으로 관찰되었습니다. 자신이 수행한 작업을 스스로 채점하다 보니, 임계치 경계에 있는 시도를 '통과'로 분류하거나 부분적인 성공을 전체의 성공으로 합리화하는 패턴이 나타난 것입니다.

물론 이러한 자기 평가 편향은 하네스 엔지니어링으로 어느 정도 극복이 가능하다는 점도 실험에서 확인했습니다. 평가 변수를 강제하고, 결과 검증을 외부에서 수행하도록 분리하고, 산출물에 사후 보정을 차단하는 통제 장치를 두면 에이전트의 자기 과신은 상당 부분 누그러듭니다. 다만 하네스 설계에 양자화·디바이스·평가 프로토콜에 대한 도메인 전문성이 두루 요구된다는 점, 그리고 모델·디바이스가 바뀔 때마다 매번 새로 설계해야 한다는 점이 에이전트만으로 양자화를 자동화하려 할 때 따라붙는 또 다른 숙제로 남습니다.

여전히 넷츠프레소가 필요합니다

세 가지 숙제는 결국 '재현성의 부재'라는 하나의 문제로 귀결됩니다. 일관되고 예측 가능한 결과를 도출하지 못하는 시스템은 기업의 실제 비즈니스에 도입하기 어렵습니다. AI 에이전트가 단편적인 양자화 작업에 성공했음에도 불구하고, 여전히 넷츠프레소가 필요한 이유입니다.

넷츠프레소는 그 자체로 에이전트의 오작동을 제어하는 '강력한 하네스(Harness)'이자, 수년간 축적된 검증된 노하우의 집약체입니다. 재현성의 범위를 소프트웨어적인 양자화 단계에 국한하지 않고, 최종 디바이스 끝점에서의 구동까지 보장하는 견고한 인프라를 이미 갖추고 있습니다.

이러한 넷츠프레소의 인프라 위에 AI 에이전트의 자율성이 결합하면서, 다음 세 가지 핵심 가치를 실현합니다.

1. 검증된 단일 파이프라인을 에이전트가 자동 실행합니다

엔지니어가 직접 양자화를 수행할 때는 알고리즘 선택, 정밀도 분배, 캘리브레이션 데이터 설정, 디바이스 호환성 검증을 각기 다른 도구와 환경을 오가며 처리해야 합니다. 한 단계의 산출물이 다음 단계의 입력 포맷과 맞지 않으면 처음으로 돌아가야 하고, 모듈 사이를 오갈 때마다 변환과 검증 작업이 새로 끼어듭니다.

넷츠프레소는 이 네 가지 의사결정을 하나의 파이프라인 위에서 일관된 방식으로 처리합니다. '엔드투엔드(End-to-End) 파이프라인'으로 통합된 모듈 위에서, 에이전트는 사용자가 입력한 목표(타깃 모델·디바이스·정확도 한계)만으로 적합한 알고리즘과 캘리브레이션 데이터를 선택하고, 변환과 검증, 내보내기까지 자동으로 진행합니다.

사용자가 결정해야 하는 것은 무엇을 만들 것인가에 한정됩니다. 어떤 알고리즘을 어떤 순서로 시도할지, 어떤 환경에서 검증할지, 어느 시점에 다음 단계로 넘어갈지는 에이전트의 책임입니다. 작업이 모듈 사이를 넘나들 때 발생하던 시간 손실과 변환 오류가 함께 사라집니다.

2. 누적된 노하우로 시행착오를 원천 차단합니다

에이전트만으로 양자화를 시도하면, 어떤 알고리즘이 이 모델에 적합한지, 어떤 디바이스가 어떤 양자화 스킴과 호환되는지에 대한 사전 지식이 없습니다. 매 회차마다 처음부터 후보를 탐색하고, 첫 회차에서 좋았던 조합이 다음 회차에서는 후보군에서 빠지기도 합니다. 결과적으로 무작위에 가까운 탐색이 토큰과 시간의 대부분을 소비합니다.

넷츠프레소에는 수년간 축적된 노하우가 있습니다. 어느 모델 구조에 어떤 알고리즘이 잘 맞고, 어느 디바이스가 어떤 양자화 스킴으로 통과 가능하며, 어떤 캘리브레이션 데이터가 어떤 규모에 효과적인지에 대한 검증된 패턴이 쌓여 있습니다. 에이전트의 모든 의사결정 단계가 이 노하우 위에서 작동합니다.

그 결과 시행착오가 원천에서 차단됩니다. 에이전트는 처음부터 성공 확률이 높은 실행 전략을 수립하며, 수억 개의 토큰과 수천 달러를 낭비하던 무의미한 탐색이 사라집니다. 핵심 자원인 토큰·작업 시간·GPU 리소스가 유효한 후보에만 집중되고, 한 회차의 결과는 다음 회차의 베이스라인으로 자연스럽게 연결됩니다.

3. 디바이스 끝점까지 책임집니다

앞서 언급한 '양자화에는 성공했으나 디바이스 구동에 실패한 8개의 모델' 사례는 매몰 비용 사태의 전형입니다. 양자화 연산 자체엔 성공했지만 그 결과물이 타깃 디바이스에서 동작하지 않으면, 결국 배포할 수 없는 모델만 남습니다. 양자화 성공이 곧 디바이스 동작을 의미하지 않는다는 뜻입니다.

에이전트는 디바이스 호환성을 별도의 사후 검증 단계가 아니라 최적화 의사결정의 일부로 처리합니다. 알고리즘과 정밀도 분배를 선택할 때부터 타깃 하드웨어가 지원하는 양자화 방식인지를 함께 판단하고, 미지원 연산이 발견되면 호환 가능한 연산으로 자동 치환을 결정합니다. 양자화에는 성공하고 구동에는 실패하는 경로 자체가 의사결정 단계에서 차단됩니다.

이때 에이전트의 의사결정은 150개 이상의 디바이스별 최적화 패턴 위에서 작동합니다. 흔히 다루는 디바이스라면 이미 검증된 경로가 준비되어 있어, 에이전트가 처음부터 그 경로 위에서 실행 전략을 수립합니다. 그 결과물은 단지 양자화에 성공한 모델이 아니라 디바이스에서 동작하는 검증된 모델까지 닿습니다.

자율성 위에 '재현성'과 '전문성'을 더합니다

에이전트가 가진 자율성 위에, 우리는 두 단어를 더했습니다. 재현성과 전문성.

재현성은 결과가 랜덤하지 않다는 약속입니다. 같은 모델, 같은 디바이스, 같은 가드레일이라면 매번 동일하게 검증된 모델이 돌아옵니다. 에이전트의 자유로운 탐색 능력을 검증된 하네스가 통제해, 결과가 우연이 아닌 반복 가능한 산출물이 되게 합니다.

전문성은 결과물의 수준에 대한 약속입니다. 노타가 수년간 축적한 노하우와 디바이스별 최적화 패턴이 에이전트의 모든 의사결정에 반영되어, 그저 동작하는 모델이 아니라 충분히 최적화된 모델이 만들어집니다.

여기에 세 가지 진입점도 함께 두었습니다. 자연어로 시작하는 대화형 인터페이스, 대량 실험을 위한 CLI, 모델 내부의 병목을 직관적으로 보여주는 시각화 도구. 사용자는 자신의 숙련도에 맞춰 같은 시스템을 다른 깊이로 사용할 수 있습니다.

입력은 한 줄의 자연어지만, 그 결과는 디바이스에서 가장 잘 동작하는 검증된 모델입니다. 이 단단한 연결 고리가 실제 프로젝트에서 어떻게 구현되는지 데모를 통해 직접 확인해 보시기 바랍니다.

AI 에이전트를 품은 넷츠프레소가 궁금하시다면, 지금 만나보세요.

노타 AI의 최신 인사이트, 이제 LinkedIn에서도 만나보세요. 엣지 AI 트렌드부터 기술 업데이트까지 — Edge Insights 뉴스레터를 구독하고 가장 먼저 받아보세요. 👉 구독하기

[넷츠프레소 x AI 에이전트] 쉬워졌지만, 더 강해졌습니다