스마트테크 코리아(STK) 2026 노타 부스 미리 보기: 엣지에서 구현하는 피지컬 AI

**Jaehoon Lee**
Technical Content Manager, Nota AI

AI가 화면 밖으로 나오고 있습니다. 피지컬 AI(Physical AI)는 텍스트나 이미지 생성을 넘어, 로봇과 스마트 기기를 통해 물리 세계를 직접 인식하고 행동하는 새로운 AI의 흐름입니다. 이를 산업 현장에 구현하기 위한 핵심 관건은 무거운 AI 모델을 클라우드가 아닌 기기 자체(엣지)에서 지연 없이 구동하는 '엣지 최적화' 기술입니다.

노타(Nota AI)는 미국 'EVS 2026(Embedded Vision Summit)’과 대만 컴퓨텍스 2026 '엔비디아 아태 파트너 데이(한국 유일 패널)’ 등 글로벌 무대에서 이러한 엣지 최적화의 중요성을 꾸준히 입증해 왔습니다. 이번 STK 2026에서는 물리 세계를 인식하고 제어하는 거대 AI 모델들의 엣지 최적화 시연부터 이를 뒷받침하는 자동화 플랫폼까지, 피지컬 AI가 실제 하드웨어에서 작동하는 방식을 데모를 통해 생생하게 선보입니다.

1. 로보틱스 AI 최적화: VLA 모델을 엣지 NPU에서

자료 1:SmolVLA를 퀄컴 IQ-9075에서 실시간 구동하는 VLA 로보틱스 데모 화면

로봇에게 "물건을 집어 옮겨라" 같은 명령을 수행시키는 VLA(Vision-Language-Action) 모델은 크게 세 단계로 동작합니다.

시각 인코더(Vision Encoder): 카메라 영상 특징 추출
대규모 언어 모델(LLM): 시각과 명령의 통합 추론
액션 헤드(Action Head): 추론 결과를 실제 동작으로 변환

VLA 모델은 내부에 방대한 연산을 요구하는 거대 언어 모델을 품고 있어 엣지 환경에서 구동하기에 매우 무겁습니다. 일반적으로 이를 제한된 성능의 신경망 처리 장치(NPU)에 올리기 위해 가중치를 압축하는 양자화를 활용합니다.

하지만 VLA 모델은 세 단계가 순차적으로 이어지는 구조라는 점이 문제입니다. 모델을 가볍게 만들고자 앞단(시각·언어)의 가중치를 양자화하면, 여기서 발생한 미세한 오차가 뒤로 갈수록 누적되고 증폭되어 최종적인 동작 품질을 훼손합니다. SmolVLA(0.45B)처럼 상대적으로 작은 모델일수록 이러한 오차에 더욱 취약합니다.

따라서 노타는 가중치를 통째로 줄이는 흔한 방식 대신, 앞단의 가중치를 온전히 보존하면서 캐스케이드 구조의 마지막 단계인 '액션 헤드'의 추론 방식만 효율화하는 접근법을 택했습니다.

이러한 접근을 통해, 퀄컴에서 공식적으로 지원하지 않는 모델임에도 불구하고 초소형 NPU 보드(Dragonwing™ IQ-9075)에 성공적으로 포팅했습니다. 작업 성공률 하락은 1%p(86% → 85%)로 억제하면서도 전체 모델의 추론 속도를 1.63배 향상시켰습니다. 액션 헤드 단독 기준으로는 속도가 약 7배(218ms → 31ms)나 빨라졌습니다.

2. 물리 세계의 지능형 인식: 노타 비전 에이전트(NVA)

피지컬 AI가 물리 세계에서 올바르게 행동하려면, 먼저 카메라를 통해 현장 상황을 정확하게 인식하고 이해하는 과정이 선행되어야 합니다. 앞선 로봇 제어 기술에 이어 부스에서 만나보실 수 있는 또 하나의 핵심 축은 바로 이 '인식'입니다.

'노타 비전 에이전트(NVA, Nota Vision Agent)'는 비전 언어 모델(VLM)을 기반으로 영상 속 맥락을 이해하는 국내 최초 상용화 실시간 영상 관제 솔루션으로, 엔비디아(NVIDIA)의 영상 검색 및 요약 기술(VSS, Video Search and Summarization)을 결합해 개발되었습니다.

단순한 객체 탐지에 머물렀던 기존 영상 관제와 달리, NVA는 객체 간의 관계, 작업 표준 절차(SOP) 위반 여부, 복합적인 위험 신호까지 실시간으로 해석합니다. 관제 담당자는 자연어를 통해 필요한 정보를 손쉽게 검색하고 요약된 보고서를 받을 수 있습니다.

여기서 가장 중요한 기술적 핵심은 무거운 VLM을 클라우드로 보내지 않고 현장(엣지)에서 실시간으로 구동한다는 점입니다. 영상 인식을 온전히 엣지 환경으로 가져온 노타의 최적화 기술은 이미 다음과 같은 실제 산업 현장에서 그 가치를 입증하고 있습니다.

교통 관제: 대전지방국토관리청 교통관리 시스템에 도입되어 도로 CCTV 영상 내 사고, 화재, 장애물 등을 실시간으로 감지하고 차로별 대응 현황을 자동 요약해 보고합니다. 이 솔루션은 국토교통부 지능형 교통 체계(ITS) 성능평가에서 최고 등급인 99%의 정확도를 기록했습니다.
산업 안전: 코오롱베니트와의 협력을 통해 코오롱인더스트리 김천2공장에 적용되었습니다. 현장 근로자의 안전 상태, 위험 구역 접근, 안전 규칙 위반 여부를 실시간으로 모니터링하여 중대 재해를 예방합니다.

NVA는 이러한 혁신성을 인정받아 최근 글로벌 비전 기술 컨퍼런스 'EVS 2026'에서 '올해의 엣지 AI 및 비전 제품상(Edge AI and Vision Product of the Year)'을 수상했습니다. 이번 전시에서는 이 강력한 VLM 최적화 관제 기술이 현장에 어떻게 적용되어 있는지 생생한 데모 영상으로 소개합니다.

3. 대화로 끝내는 모델 최적화: 넷츠프레소 에이전트 기능

앞서 살펴본 로보틱스(VLA)나 지능형 영상 관제(NVA) 사례처럼, 거대 AI 모델을 엣지 환경에 맞춰 최적화하는 과정은 대단히 까다롭습니다. 어떤 최적화 기법을 어느 레이어에, 어느 강도로 적용할지 수동으로 일일이 테스트하려면 고도의 전문성과 막대한 시간이 소요됩니다.

부스에서 첫선을 보이는 세 번째 데모는 노타의 하드웨어 인식형 모델 최적화 플랫폼 넷츠프레소(NetsPresso®)에 대화형 AI 에이전트 기능을 결합하여, 이 복잡하고 번거로운 탐색 과정을 자동화하는 방식을 보여줍니다.

사용자가 목표 성능과 제약 조건(타깃 하드웨어, 허용 가능한 정확도 손실 수준 등)을 자연어로 입력하면, 에이전트가 불필요한 탐색 범위를 걷어내고 최적의 압축 레시피를 제안합니다. 기대 효과는 다음과 같습니다.

R&D 비용 절감: 불필요한 탐색 공간을 줄이고 넷츠프레소 API를 실행 도구로 활용해 시행착오를 생략합니다. 이를 통해 엔지니어링 시간과 클라우드 연산 비용을 대폭 단축합니다.
진입 장벽 완화: CLI 기반 최적화 도구를 대화형 UI로 전환하여 사용성을 높였습니다. AI나 하드웨어 전문 지식이 없어도 누구나 쉽게 최적화된 모델을 도출할 수 있습니다.
빠른 시장 출시: 노타의 기술을 기반으로 최적의 압축 레시피를 추천해 고품질의 결과물을 보장합니다. 최적화 사이클이 짧아져 전체 AI 서비스의 배포 시기를 앞당깁니다.

넷츠프레소의 대화형 UI가 기업의 실질적인 최적화 리소스를 어떻게 절감해 주는지 부스에서 직접 경험해 보실 수 있습니다.

4. 범용 디바이스로의 확장: Apple Silicon(M4) 온디바이스 LLM

이러한 엣지 최적화 역량은 로봇 제어나 특수 관제용 전용 하드웨어에서만 유효한 것이 아닙니다. 우리가 일상적으로 사용하는 범용 디바이스에서도 동일하게 적용됩니다.

마지막 데모는 별도의 AI 가속기 없이, 일반적인 Apple Silicon Mac(M4 타깃)의 순수 CPU 연산만으로 Llama 1B Instruct 모델을 원활하게 구동하며 범용 기기로의 확장성을 보여줍니다.

자료 4: Apple Silicon CPU 온디바이스 LLM에 적용한 두 핵심 기법과 효과

이 과정에 혼합 정밀도 양자화와 추측 해독 등 두 가지 핵심 최적화 기법을 적용한 결과, 최대 메모리 사용량(Peak Memory)을 늘리지 않고도 8비트 모델 대비 동일 메모리 환경에서 1.3배, 16비트 베이스라인 대비 2.3배 향상된 텍스트 생성 속도를 달성했습니다. 가속기 없이 일반 기기 CPU만으로 작동하는 온디바이스 LLM의 실시간 생성 속도 차이를 현장에서 직접 비교해 보실 수 있습니다.

피지컬 AI, STK 2026 노타 부스에서 직접 확인하세요

네 데모가 가리키는 곳은 하나입니다. 무거운 AI를, 조건이 제각각인 현장의 기기에서, 성능을 지키며 돌리는 일. 그 역량이 물리 세계로 향하면 로봇의 행동(VLA)과 현장의 인식(NVA), 곧 피지컬 AI가 되고, 범용 기기로 향하면 노트북 위 온디바이스 LLM이 됩니다. 칩도 전력도 허용 지연도 다른 현장마다 거기에 맞춰 최적화하는 것, 노타가 넷츠프레소로 풀어온 일입니다.

글로벌 시장이 주목하는 피지컬 AI와 엣지 최적화 기술의 실체를 스마트테크 코리아 현장에서 확인하실 수 있습니다.

일정: 2026년 6월 10일(수) ~ 12일(금)
장소: 서울 코엑스(COEX) B홀
부스: B642 (카페테리아 바로 앞)

자주 묻는 질문 (FAQ)

Q. 피지컬 AI(Physical AI)란 무엇인가요?

단순히 화면 속에서 텍스트나 이미지를 생성하는 기존 AI를 넘어, 카메라와 센서로 현실 세계의 복잡한 변수를 실시간으로 인지하고 판단 결과를 로봇이나 기기의 움직임으로 직결해 실제 물리적인 작업을 완수할 수 있도록 진화한 지능형 시스템을 뜻합니다.

Q. 엣지 디바이스에서 AI 최적화가 필수적인 이유는 무엇인가요?

로봇 제어나 실시간 관제처럼 실시간성이 필수적인 작업은 클라우드 통신 지연을 감당하기 어렵습니다. 하지만 디바이스 자체의 연산력·메모리·전력은 제한적이므로, 모델의 무게를 줄이고 연산 효율을 높이는 최적화 없이는 거대 모델을 안정적으로 구동하기 어렵습니다.

Q. STK 2026 노타 부스에서는 어떤 기술을 볼 수 있나요?

퀄컴 NPU 기반 로보틱스 VLA 최적화 모델, VLM 기반 노타 비전 에이전트(NVA) 상용화 사례, 넷츠프레소의 대화형 모델 최적화 에이전트 기능, Apple M4 CPU 기반 온디바이스 LLM을 시연합니다.

노타 AI의 최신 인사이트, 이제 LinkedIn에서도 만나보세요. 엣지 AI 트렌드부터 기술 업데이트까지 — Edge Insights 뉴스레터를 구독하고 가장 먼저 받아보세요. 👉 구독하기