Edge AI의 역할이 확장되고 있습니다. 이미 우리의 일상에서 오프라인 음성 비서가 대화하고, 차량이 실시간으로 경로를 추론하며, 스마트폰이 네트워크 연결 없이 이미지를 생성하죠. 불과 얼마 전까지 서버에 의존하던 기능들이 점차 온디바이스 환경으로 이동하는 중입니다.

이는 모델 최적화 또한 근본적으로 변화해야 한다는 뜻이기도 합니다. Edge 기기는 연산 자원과 전력이 빠듯하죠. 그 안에서 복잡한 생성형 모델을 실용적으로 작동시키는 일은 기존의 최적화 접근법으로는 다루기 어렵습니다.

노타의 AI 최적화 플랫폼 제품인 넷츠프레소(NetsPresso®)는 이 변화에 적극적으로 대응하는 방식으로 진화하고 있습니다. 이번 글에서는 그 도전과 방향에 대해 소개하겠습니다.

Edge AI, 넷츠프레소가 단단히 다져온 분야

Edge AI가 대중화되는 배경에는 분명한 사용자 가치가 존재합니다. 첫째는 더 낮은 지연시간(latency)입니다. 서버를 경유하지 않고 디바이스에서 직접 추론을 수행함으로써 응답 지연을 최소화할 수 있죠. 차량, 교통 안전, 로보틱스, 산업 설비처럼 실시간성이 핵심인 영역에서는 수십 밀리초의 차이도 엄격하게 관리해야 합니다. 둘째로 개인정보 보호에 대한 요구도 커지고 있습니다. 음성·텍스트·영상 데이터를 로컬에서 처리하면 개인정보 보호 수준을 높일 수 있죠. 끝으로, 자율주행 차량이나 산업용 로봇과 같은 미션 크리티컬 시스템에서는 연결 의존도를 낮추는 것이 곧 신뢰성 확보로 이어집니다. 네트워크가 불안정한 환경에서도 안정적인 동작을 보장하는 것이 그만큼 중요해지는 영역이죠.

사진 1. 노타 서울 사무실에서 운영 중인 디바이스팜(Device Farm). 노타에서 성공적으로 AI 모델을 포팅한 기기들로 채워져있다.

넷츠프레소는 초기부터 이 시장에 집중해 왔습니다. 다양한 딥러닝 모델을 소형 디바이스에 맞게 경량화하고, 실제 산업 환경에서 동작 가능한 수준으로 최적화한 것이죠. ONNX 기반 그래프 최적화, 양자화, 가지치기(pruning), 필터 분해(filter decomposition) 등의 기법을 활용해 모델 크기와 연산량을 줄이고, 타겟 하드웨어 제약 조건에 맞춰 최적의 성능을 이끌어 냈습니다. 중요한 점은, 이러한 최적화가 연구 단계의 프로토타입에 머무르지 않고, 실제 서비스 환경에서 검증된 결과를 만들어냈다는 것입니다.

그러나 GenAI 시대에 접어들면서 상황은 달라졌습니다. 기존 방식만으로는 앞으로의 모델과 하드웨어 요구사항을 모두 감당하기 어려워졌습니다.

GenAI 시대, 엣지 최적화가 마주한 과제

1. 범용 최적화를 거부하는 트랜스포머(transformer)

과거 많은 모델은 CNN (Convolutional Neural Network) 기반이었습니다. 연산 패턴이 비교적 규칙적이고, 입력 크기도 일정한 경우가 많았죠. 그래서 특정 레이어 패턴을 인식해 병합하는 전략이 효과적으로 작동했습니다.

하지만 트랜스포머 기반의 생성형 모델은 상황이 다릅니다. 어텐션(attention) 연산의 계산량과 메모리 접근 패턴은 입력 시퀀스 길이에 직접적으로 의존하며, 자기회귀 추론(autoregressive inference)에서는 토큰이 생성될 때마다 KV cache의 길이가 달라집니다. 이로 인해 dynamic shape을 전제로 한 최적화가 필요하죠.

또한 encoder-only, decoder-only, MoE 등 구조적 변형이 다양하고, hidden size나 head 구성에 따라 연산 크기도 크게 달라집니다. 어텐션 내부의 softmax 종속성, residual connection, causal masking과 같은 요소들은 연산 간 데이터·시간 의존성을 강화합니다. 그 결과, 최적화 전략에 있어서도 모델별 튜닝이 필요하고, 연산을 공격적으로 재배치·fusion하는 전략을 일반화하기 어려워졌습니다.

2. 모델 프레임워크와 런타임의 다변화

PyTorch 기반으로 구현된 새로운 모델들은 지금 이 순간에도 빠르게 등장하고 있습니다. 여기에 더해, 하드웨어마다 지원하는 프레임워크가 다르고, 최적화 과정에서 모델을 변환하면 연산자 구성이 달라지기도 합니다. 프레임워크별 내부 표현 방식 또한 상이하며, 일부 하드웨어 벤더는 자체 런타임 스택을 제공해 실행 계층까지 분화되어 있습니다.

이처럼 모델 구조와 실행 환경이 동시에 다양화되는 상황에서, 프레임워크와 런타임 조합마다 개별 최적화 규칙을 설계하는 접근은 더 이상 지속 가능하지 않습니다. 필요한 것은 모델의 구조적 자유도를 수용하면서도 다양한 실행 환경을 일관된 방식으로 다룰 수 있는 추상화 계층입니다.

3. 이기종 하드웨어(Heterogeneous Hardware)

CPU와 GPU의 조합만 고려하면 되던 시절은 지났습니다. NPU, DSP, TPU 등 다양한 가속기가 등장했고, 각 디바이스는 메모리 구조, 연산 병렬성, 지원 연산자 집합 측면에서 서로 다른 특성을 가집니다. 동일한 모델이라도 타겟 하드웨어에 따라 최적화 전략은 완전히 달라집니다.

결국 필요한 것은 명확합니다.

다양한 모델을, 다양한 하드웨어에서,
유연한 방식으로 최적화할 수 있는 플랫폼.

이것이 넷츠프레소가 추구하는 방향입니다.

넷츠프레소가 제시하는 해법

1. NPIR: 유연한 IR 기반 최적화

이 간극을 메우기 위해 넷츠프레소는 자체 중간 표현인 NPIR (NetsPresso Intermediate Representation)을 설계했습니다. 각각의 모델 프레임워크 및 하드웨어 측 백엔드와 NPIR 사이에는 변환 어댑터를 만들고, 최신의 최적화 기술을 NPIR에 축적하는 방식으로 다변화된 환경에 대응하고자 한 것이죠.

NPIR의 핵심은 프레임워크 호환성과 하드웨어 확장성입니다. 특히 PyTorch와의 정합성을 높이기 위해 Aten operator를 기본 연산 단위로 채택했습니다. 이를 통해 모델 구조의 자유도를 유지하면서도, 최적화 과정에서 발생하던 불필요한 그래프 왜곡을 최소화합니다. Dynamic shape을 포함한 복잡한 트랜스포머 구조 역시 자연스럽게 표현할 수 있고, 다양한 IR 및 하드웨어 런타임으로 확장하기도 용이합니다.

NPIR은 단순한 표현 계층이 아닙니다. 서로 다른 프레임워크의 모델을 일관된 방식으로 이해하고 분석하며, 타겟 디바이스 제약에 맞게 재구성할 수 있도록 하는 기반입니다. 이것이 넷츠프레소가 말하는 “GenAI Everywhere”의 기술적 토대입니다.

2. Cross UI: CLI와 GUI의 결합

모델 최적화는 반복 실험의 연속입니다. 양자화 정밀도를 조정하고, 연산을 대체하고, 결과를 비교하는 사이클이 수십 차례 반복될 수 있죠. 핵심은 결과 해석과 다음 실험 설계입니다.

넷츠프레소는 이를 위해 CLI와 GUI를 결합한 Cross UI를 제공합니다.

CLI는 자동화와 대규모 실험에 최적화되어 있습니다. 스크립트 기반으로 다양한 조합을 정의하고 반복 실행할 수 있어 엔지니어링 워크플로우에 자연스럽게 통합됩니다. 반면 GUI는 분석에 초점을 둡니다. 연산별 지연시간, SNR, 병목 구간 등을 시각적으로 확인하며 최적화 효과를 구조적으로 해석할 수 있습니다.

기본적으로 hardware-aware 최적화 레시피를 제공해 진입 장벽을 낮추고, 고급 사용자는 세부 파라미터를 직접 조정할 수 있도록 설계했습니다. 모든 실험 기록은 대시보드에 축적되어 재현성과 확장성을 확보합니다.

그 결과, 엔지니어는 지난한 반복 작업에 소모되는 시간을 줄이고 더 중요한 설계 판단에 집중할 수 있습니다.

새로운 넷츠프레소를 만나보세요

개편된 넷츠프레소에 대한 자세한 내용은 이어지는 테크블로그 포스팅에서 소개하겠습니다. 새로운 넷츠프레소의 데모는 올해 4월부터 만나보실 수 있어요. 아래 배너와 링크를 통해 데모 사전예약이 가능하며, 담당자와의 미팅을 통해 고객사의 타겟 하드웨어 환경, 런타임 스택에 맞춘 통합 방식과 최적화 범위에 대해 보다 구체적으로 안내받으실 수 있습니다.

NPIR 기반으로 업데이트된 넷츠프레소는 한층 고도화된 그래프 최적화, 양자화 기능을 제공합니다. 최적화의 각 단계에서 SNR을 포함한 품질 평가 지표와 실제 타겟 하드웨어 상의 벤치마크 수치를 함께 측정함으로써, 레시피 설계와 실험 반복 과정에서 보다 정량적인 의사결정을 지원합니다.

수집된 성능 및 품질 데이터는 그래프 시각화 모듈과 연동되어 최적화 과정 전반을 구조적으로 분석할 수 있도록 돕습니다. 이를 통해 어 떤 레이어가 병목 구간인지, 특정 최적화 기법이 실제 지연시간 개선에 기여했는지, 그리고 타겟 하드웨어 및 런타임 환경에 맞춰 추가로 적용 가능한 최적화 옵션이 무엇인지 직관적으로 확인할 수 있습니다.

넷츠프레소는 모델 최적화를 개별 기법의 집합이 아닌, 실험·측정·해석·반복이 가능한 체계적 프로세스로 제시합니다.

Sneak Peek: NetsPresso Probe

노타는 넷츠프레소의 업데이트에 앞서 NetsPresso Probe를 공개했습니다.

Probe는 모델 그래프를 시각화하고, 최적화 전후의 차이를 비교하는 데 특화된 도구입니다. 특히 트랜스포머 기반 모델에서는 구조를 이해하는 것 자체가 어려운 경우가 많습니다. 그래서 노타는 바로 이 그래프 시각화 기능만큼은 누구나 사용할 수 있도록 무료로 공개했습니다. 모델을 더 잘 이해하는 것, 그것이 좋은 최적화의 출발점이기 때문입니다.

마치며

GenAI가 엣지로 확장되는 흐름은 이미 시작되었습니다. 문제는 어떤 모델을, 어떤 기기에서, 얼마나 효율적으로 구동시킬 것인가입니다.

동적 모델 구조, 파편화된 프레임워크, 다변화된 하드웨어 환경 속에서 엣지 최적화는 점점 더 복잡해지고 있습니다. 넷츠프레소는 NPIR과 Cross UI를 통해 이 복잡성을 구조적으로 다루고자 합니다.

저희의 목표는 분명합니다. 다양한 GenAI 모델을 모든 디바이스에서 실행 가능하게 만드는 것, 그리고 그 과정을 더 생산적으로 만드는 것입니다.

GenAI Everywhere.
그 여정을 여러분과 함께 시작합니다.

이 연구에 대해 추가로 궁금한 사항이 있으시면 아래 이메일 주소로 언제든지 문의해 주세요: 📧 contact@nota.ai.

또한, AI 최적화 기술에 관심이 있으시면 저희 웹사이트 🔗 netspresso.ai.를 방문해 보세요.

GenAI Everywhere: 새로운 넷츠프레소가 제시하는 Edge AI 최적화의 미래