구현 지능이 휴머노이드 로봇 산업 경쟁의 핵심으로 자리 잡았다. 로봇 대형 모델은 핵심 ‘두뇌’로서 로봇의 인식·의사결정·실행 능력을 결정한다. 해외에서는 구글(Google)이 제미나이(Gemini) 시리즈를 통해 기술 반복 개선과 생태계 구축을 완료했다. 중국에서는 갤럭시 제너럴(銀河通用·Galaxy General), 어지봇(智元·Agibot), 바이트댄스(字節·ByteDance) 등이 자국 시나리오에 기반한 차별화 기술 노선을 걷고 있다. 동시에 로봇의 연산 기반인 AI 칩은 엣지 사이드 현장 적용 수요에 힘입어 기술 변혁과 판도 재편을 맞이하고 있다.


구글 제미나이 로봇 대형 모델: 사슬 반복 개선으로 범용 로봇 생태계 구축

구글은 로봇 분야에 장기 포석을 해왔다. 계층형 모델에서 VLA(시각-언어-행동) 엔드-투-엔드 모델로의 진화를 완성했다. 지금은 제미나이를 중심으로 기종 간 호환성과 강한 추론 능력을 갖춘 구현 지능 체계를 구축하며 기술과 상업화 양 방향을 동시에 추진하고 있다.

초기 구글 로봇은 계층형 협력 아키텍처를 채택했다. 세이캔(SayCan) 대형 언어 모델이 고수준 동작 명령을 출력했으나 독립 실행이 불가능했다. RT-1 실행 모델을 통해 동작을 구현해야 했다. RT-1은 명령과 이미지를 토큰화·압축해 동작을 출력하는 기저 실행 핵심이었다. 이후 구글은 언어와 시각 능력을 융합한 멀티모달 기반 모델 팜-E(PaLM-E)를 출시했다. RT-1과 팜-E를 통합해 최초의 VLA 대형 모델 RT-2를 만들었다. 시각·언어·행동의 일체화를 실현한 것이다. 후속 상품 RT-2-X는 다기종 학습 데이터를 확충해 태스크 범용화 능력을 더욱 강화했다. 이것이 제미나이 시리즈의 기술 토대가 됐다.

제미나이 시대에 들어서자 구글 기술은 상품화와 범용화로 완전히 방향을 틀었다. 기술 측면에서 제미나이 로보틱스(Gemini Robotics)가 연구용 버전에서 엔지니어링 버전으로 업그레이드됐다. 제미나이 2.0은 구현 능력을 깊이 통합해 공간·물리·시간 추론 모듈을 내장했다. 제미나이 로보틱스-ER(Gemini Robotics-ER)은 단일 모델로 휴머노이드, 4족 로봇, 로봇 팔, 드론 등 전 기종에 적응한다. ‘로봇 분야의 안드로이드 시스템’으로 평가받는다. 실제 데이터 부족 문제를 해결하기 위해 구글은 지니(Genie)로 수백만 개의 가상 시나리오를 생성했다. 시마(SIMA)를 결합해 가상·실제 데이터 양방향 이전을 완성했다. 동시에 구글은 엣지 사이드 배포에도 힘을 쏟고 있다. 자체 개발한 제미나이 컨트롤 허브(Gemini Control Hub) SoC와 NPU 칩을 선보였다. 모델 증류 기술과 결합해 엣지 사이드에서 100Hz 실시간 제어를 실현했다. 클라우드 의존에서 벗어난 것이다.

상업화 측면에서 구글은 보스턴 다이나믹스(Boston Dynamics)와 깊이 결합됐다. 완전 전동식 양산형 아틀라스(Atlas) 로봇에 제미나이 로보틱스 1.5와 제미나이 로보틱스-ER 1.5가 탑재됐다. 각각 엔드-투-엔드 제어와 구현 추론을 담당한다. 현장 적용 시나리오는 산업 제조에 집중됐다. 2026년 상반기 미국 조지아주 현대자동차 메타 팩토리에서 테스트가 진행될 예정이다. 같은 공장 내 기아(Kia) 공장도 2026년 말 소량 배포를 계획하고 있다. 산업 시나리오 규모화 현장 적용이 공식적으로 시작된 것이다.


中 선두 로봇 대형 모델: 차별화 돌파로 업계 데이터 고충 해소

해외 기술 우위에 직면해 중국 내 선두 기업들은 동질화 경쟁을 피했다. 데이터 장벽, 범용 능력, 시나리오 적응이라는 세 가지 핵심 고충을 중심으로 각자 특색 있는 VLA 모델을 개발했다. 현장 적용 성과도 두드러진다.

갤럭시 제너럴의 그라스프 VLA(Grasp VLA)는 합성 데이터 구동을 핵심으로 삼는다. 표준 VLA 아키텍처를 채택하고 ‘합성 데이터 우선’ 2단계 학습 방식을 개척했다. 고충실도 시뮬레이션 파이프라인을 통해 1주일 내 10억 프레임의 합성 데이터를 생성해 사전 학습을 완료한다. 모델이 제로샷(zero-shot) 범용화 능력을 갖추게 된다. 이후 소량의 실제 데이터만으로 미세 조정해 마트, 산업 등 시나리오에 적응할 수 있다. 이 모델은 상체 파지(grasp) 특화로 투명·반사 물체 파지라는 난제를 해결했다. 실기 파지 성공률은 95%를 넘는다. 시뮬레이션 데이터 현장 적용의 기준이 되는 상품이다.

어지봇의 GO-1은 ViLLA 하이브리드 아키텍처를 채택했다. 대량 비디오 데이터 발굴을 주력으로 삼는다. 이종 데이터 활용률이 낮다는 업계 고충을 겨냥해 암묵적 행동 토큰화 기술을 도입했다. 복잡한 동작을 표준화된 ‘행동 어휘’로 추상화해 시각 이해와 물리 실행의 장벽을 허물었다. 로봇이 ‘비디오를 보고 기술을 배우는’ 것이 가능해진 셈이다. 이 모델은 전신 제어를 지원한다. 기술 최적화를 거쳐 다양한 복잡도의 태스크 평균 성공률이 46%에서 78%로 높아졌다. 소수 샘플 범용화 능력에서 뚜렷한 우위를 보인다.

바이트댄스의 GR-2는 생성형 비디오-언어-행동 모델로 포지셔닝됐다. 범용 인지 능력에 집중한다. 모델은 먼저 인터넷 동영상 클립 3,800만 개를 활용한 비디오 생성 사전 학습으로 물리 법칙과 시간 논리를 학습한다. 이어 실제 궤적 데이터 5,000건으로 미세 조정해 학습 비용을 대폭 낮춘다. 실측에서 105개 다중 태스크 평균 성공률이 97.7%에 달했다. 완전히 낯선 새 환경에서도 성공률이 87%를 유지했다. 범용화 성능에서 바이트댄스의 GR-2는 생성형 비디오-언어-행동 모델로 포지셔닝됐다. 범용 인지 능력에 집중한다. 모델은 먼저 인터넷 동영상 클립 3,800만 개를 활용한 비디오 생성 사전 학습으로 물리 법칙과 시간 논리를 학습한다. 이어 실제 궤적 데이터 5,000건으로 미세 조정해 학습 비용을 대폭 낮춘다. 실측에서 105개 다중 태스크 평균 성공률이 97.7%에 달했다. 완전히 낯선 새 환경에서도 성공률이 87%를 유지했다. 범용화 성능에서 중국 내 최상위권이다. 전반적으로 중 업체들은 모두 저비용 데이터 전략을 출발점으로 삼아 세분화 시나리오를 깊이 파고들며 기술 상업화를 안정적으로 추진하고 있다.


휴머노이드 로봇 AI : 연산 기반 업그레이드, 엣지 사이드화가 핵심 추세

대형 모델의 현장 적용은 연산 능력 지원 없이는 불가능하다. 휴머노이드 로봇의 저지연·저전력·고신뢰성이라는 까다로운 요구가 AI 칩을 범용 연산에서 로봇 전용 엣지 사이드 칩으로의 전환을 추진하고 있다. 업계의 새로운 경쟁 초점이 됐다.

칩 기술 아키텍처의 진화

기존 클라우드 사이드 칩은 전력 소비가 높고 지연이 길어 로봇 작동 시나리오에 맞추기 어렵다. SoC+독립 NPU 이종 아키텍처가 이제 업계 주류가 됐다. 복수의 처리 유닛을 통합한 SoC가 주제어 역할을 맡아 인식·의사결정·제어 일체화를 실현한다. 소형화, 저전력, 높은 실시간성을 동시에 갖추고 있다. NPU는 VLA 대형 모델, 시각 인식, 동작 계획 같은 AI 추론 태스크를 전담한다. 동시에 연산-저장 일체화(Processing-in-Memory) 기술이 점차 현장에 적용되고 있다. 연산-저장 분리 방식의 단점을 극복해 엣지 사이드 추론 전력 소비를 50% 이상 줄일 수 있다. 모델 증류, 경량화 컴파일 같은 소프트웨어 최적화 수단과 결합해 소프트웨어·하드웨어가 깊이 협력한다. 예를 들어 구글 제미나이 컨트롤 허브는 로컬에서 10ms 이내 빠른 응답이 가능해 로봇의 실시간 제어 요구를 충분히 충족한다.

글로벌 칩 경쟁 구도

해외 업체들이 고급 시장을 확실히 장악하고 있다. 구글은 자체 개발한 제미나이 컨트롤 허브로 ‘모델+칩’ 풀스택 폐쇄 루프를 구축해 고급 휴머노이드 로봇 아틀라스에 서비스를 제공한다. 엔비디아(NVIDIA)의 젯슨(Jetson) 시리즈는 강력한 연산 능력과 성숙한 생태계를 갖췄다. 차세대 젯슨 토르(Jetson Thor)는 물리적 AI에 최적화돼 고급 범용 기종의 최우선 연산 플랫폼이 됐다.

중국 내 칩 기업들은 추격 속도를 높이고 있다. 록칩(瑞芯微·Rockchip), 호라이즌 로보틱스(地平線·Horizon Robotics), 칩웨이즈 테크놀로지(芯馳科技·Chipways Technology) 등이 로봇 전용 칩을 출시했다. 성숙한 차량용 공정을 활용해 신뢰성과 비용을 균형 있게 맞추고 있다. 국산 솔루션은 대체로 ‘대뇌+소뇌 협력’ 아키텍처를 채택한다. 주제어 SoC가 고수준 의사결정을 담당하고, 보조 프로세서가 관절 운동을 제어한다. 산업·서비스형 중저가 로봇이 주력이다. 현재 중국 칩 시장 침투율은 32%에 달했다. 국산화 대체가 안정적으로 진행되고 있다.

업계 핵심 발전 추세

첫 번째 추세는 엣지-클라우드 협력이 표준 아키텍처가 되는 것이다. 엣지 사이드가 저지연 제어를 보장하고, 클라우드가 모델 학습과 반복 개선을 담당해 성능과 효율을 균형 있게 추구한다. 두 번째는 칩이 전문화와 생태계 지향으로 나아가는 것이다. 범용 칩의 비용 단점이 두드러지면서 전용 SoC가 기본 구성이 될 것이다. 소프트웨어 생태계와 툴체인이 점차 핵심 경쟁력이 되고 있다. 세 번째는 차량용 등급 표준이 계속 침투하는 것이다. 높은 신뢰성과 강한 내간섭성이 폭넓게 활용되고 있다. 칩 비용 절감과 양산 능력 향상의 핵심 경로이기도 하다.

면책 조항

상기 내용은 관련 사건에 대한 단순 분석을 나타내며, 투자 조언을 포함하지 않습니다. 정보는 공공 자료, 전문가 의견, BCC 연구에 기반한 것이며, 본 기사에서 표현된 견해로 인해 발생된 손실에 저자는 책임지지 않습니다. 투자는 위험이 따르므로 신중히 진행하시기 바랍니다.