제미나이 로보틱스(Gemini Robotics), 구글 로봇 AI는 어떻게 움직이는가

구글 제미나이 로보틱스는 인공지능이 실제 로봇 몸체를 스스로 판단하고 움직이게 만드는 기술이다.
사물을 보는 눈과 이해하는 지능, 행동 데이터를 결합해 현실 세계를 직접 학습하는 피지컬 AI 시대를 열고 있다.

제미나이 로보틱스 가상 지능이 실제 로봇 몸체를 움직이는 원리

구글 딥마인드 보고서의 핵심은 화면 속에서 글만 쓰던 생성형 인공지능을 실제 로봇 몸통과 연결했다는 점이다. 기존 로봇은 사람이 일일이 정해진 움직임 숫자를 입력해 주어야만 정해진 궤도대로 움직일 수 있었다. 제미나이 로보틱스는 기계에게 사람의 뇌와 같은 범용적인 판단 능력을 심어주어 상황에 맞게 알아서 대처하도록 만든다.

이 기술은 로봇이 사물을 알아보는 ‘눈’과 사람의 말뜻을 알아채는 ‘머리’를 기본적으로 갖추고 출발한다. 여기에 로봇의 모터와 관절을 어떤 각도로 꺾어야 하는지 알려주는 ‘손발’의 기능을 하나의 신경망으로 묶었다. 이 세 가지를 한데 모은 기술을 ‘시각-언어-행동 모델(VLA)’이라 부른다.

기존 로봇은 “바닥에 떨어진 쓰레기 중에서 종이컵만 주워달라”고 말하면 단어 뜻을 이해하지 못해 멈춰 서기 일쑤였다. 하지만 제미나이는 인터넷으로 배운 지식이 있어 종이컵이 무엇인지 알아보고, 손가락 힘을 조절해 부드럽게 집어 올린다. 화면 안의 인공지능이 물리적인 껍데기를 얻고 현실 세계와 직접 소통하기 시작한 셈이다.

제미나이 로보틱스는 어떻게 움직일까? 두 가지 AI 두뇌 구조

이 기술은 2023년 구글이 ‘로봇 트랜스포머’라는 초기 모델을 공개하면서 처음 세상에 모습을 드러냈다. 당시엔 인공지능의 논리 회로를 로봇 명령어로 바꿀 수 있다는 가능성만 확인하는 실험 단계였다. 이후 구글은 제미나이 2.0 모델을 뼈대로 삼아 로봇의 공간 인지 능력과 반응 속도를 훨씬 빠르고 정교하게 키워냈다.

로봇의 두뇌는 크게 두 가지 영역으로 나뉘어 서로 도우며 작동한다. 첫 번째는 주변 환경의 가구 배치나 물건 거리를 입체적으로 계산하는 ‘제미나이 로보틱스-ER’이다.

이 두뇌는 로봇이 몸을 움직이기 전에 물건의 어느 부위를 쥐어야 안전한지 마음속으로 먼저 밑그림을 그리는 역할을 한다. 두 번째 두뇌인 ‘제미나이 로보틱스-VLA’는 이 밑그림 데이터를 받아 실제 손가락 모터 신호로 실시간 전환해 움직임을 실행한다.

두 두뇌가 영리하게 협력하기 때문에, 로봇에게 딱 100번만 시범을 보여줘도 낯선 집안일이나 조립 업무를 금방 배워버린다.

빅테크 기업들이 로봇 하드웨어에 집중하는 진짜 이유

인터넷 서비스를 만들던 글로벌 기술 기업들이 갑자기 로봇 시장에 뛰어드는 이유는 단순히 기계를 만들어 팔고 싶어서가 아니다. 인공지능을 더 똑똑하게 만들려면 현실 세계의 감각과 물리적인 경험 데이터를 먹여야 하는데, 그 데이터를 모아줄 도구가 바로 로봇이다.

우리가 일상에서 물건을 만지고 옮길 때 생기는 실시간 데이터는 가상 세계의 글자 데이터보다 훨씬 가치 있고 얻기 힘들다.

빅테크 기업들은 인공지능이 인간처럼 세상을 온전히 이해하도록 만들기 위해 리얼 월드의 생생한 마찰력과 충돌 데이터를 수집하려는 것이다.

과거에 스마트폰이 나와서 모든 일상을 모바일 앱으로 바꿨듯, 로봇은 오프라인 세상의 노동을 디지털로 바꾸는 새로운 통로가 된다. 지금의 투자는 로봇 껍데기를 저렴하게 만드는 제조 경쟁이 아니다.

사람이 몸으로 일하는 모든 작업 공간을 통제할 차세대 로봇 운영체제의 표준을 먼저 차지하려는 보이지 않는 데이터 싸움이다.

제미나이 로보틱스의 핵심 자산인 행동 데이터 수집 원리

아무리 똑똑한 인공지능이라도 일회용 종이컵을 찌그러뜨리지 않고 집을 때 손가락 모터에 힘을 얼마나 주어야 하는지는 글자로 배울 수 없다.

구글 제미나이 로보틱스가 가진 가장 큰 무기는 로봇이 직접 몸으로 겪으며 습득한 행동 데이터를 다량으로 가지고 있다는 점이다. 로봇 눈에 보이는 영상 정보와 관절 모터가 실제로 움직인 수치를 한 세트로 묶어서 학습시킨다. 이 데이터는 인터넷에 널려 있지 않아서 로봇이 현실에서 부딪히고 깨지며 직접 겪어야 하는 무척 귀한 자산이다.

구글은 데이터 모으는 속도를 높이기 위해 전 세계 연구소들과 연합하여 서로 다른 모양의 로봇 데이터를 한곳에 모으는 프로젝트를 이끌었다. 바퀴가 달린 로봇이나 팔이 세 개 달린 로봇의 움직임을 통틀어 학습시키자, 신기하게도 다른 로봇의 경험을 내 몸에 적용하는 능력이 생겼다.

덕분에 로봇의 기종이 바뀔 때마다 복잡한 제어 코드를 사람이 매번 처음부터 다시 짜주어야 했던 번거로움이 상당 부분 사라졌다. 데이터가 쌓일수록 로봇은 가르쳐주지 않은 낯선 환경에서도 스스로 요령을 터득해 물건을 다루는 유연한 모습을 보여준다.

휴머노이드 경쟁 구도와 가상 현실 융합 기술의 차이점

요즘 테슬라의 옵티머스처럼 사람을 닮은 휴머노이드 로봇이 실제 자동차 공장에 출근했다는 뉴스가 자주 들려온다. 이 로봇들이 복잡한 공장에서 도구를 쥐고 일하려면 균형을 잡는 발도 중요하지만 사물의 용도를 파악하는 인공지능 머리가 필수다.

제미나이 로보틱스는 이 수많은 제조사의 로봇 몸통 속에 공통으로 들어가 생각을 담당할 수 있는 범용 운영 두뇌의 표준을 목표로 한다.

기존 로봇 학계는 비용을 아끼기 위해 가상의 컴퓨터 게임 공간에서 로봇을 먼저 훈련한 뒤 코드를 실제 기계로 복사하는 방식을 썼다. 하지만 수식으로 짜인 가상 세계와 먼지가 날리고 조명이 변하는 실제 공장 바닥 사이에는 눈에 보이지 않는 오차가 있었다. 가상 공간에서 백만 번 성공한 로봇이 실제 현실로 오면 물건을 헛짚거나 미끄러져 오작동하는 고질적인 문제가 생긴 이유가 바로 여기에 있다.

구글은 완벽한 가상 세계를 정밀하게 만드느라 시간을 쓰는 대신, 인터넷의 방대한 상식 데이터와 실제 로봇들의 거동 데이터를 직접 섞어버렸다. 가상 세계가 예측하지 못한 돌발 변수나 노면의 미끄러짐을 인공지능의 시각 추론 능력으로 현장에서 실시간 교정해 낸다.

기술 보고서 원문이 실증하는 실제 산업 현장의 적용 사례

제미나이 로보틱스의 실력은 단순히 연구소의 시연 영상에 머물지 않고 실제 물류 공정 현장에서 구체적인 숫자로 가치를 증명하고 있다.

이 시스템을 탑재한 로봇 팔은 난생처음 보는 수입 과자 봉지나 규격이 이상한 장난감 박스가 섞여 쏟아져 내려와도 멈추지 않는다. 사람 작업자가 단어 뜻을 명확히 정의해 주지 않고 대충 모호하게 지시를 내려도 문맥을 알아듣고 물건을 척척 구별해 낸다.

더욱이 정밀한 손기술이 필요한 종이접기 공정이나 복잡한 카드 조작, 양팔 로봇 제어에 이르기까지 실전 테스트를 모두 통과했다.

핵심 비교 항목	예전의 하드코딩 방식 산업용 로봇	제미나이 로보틱스 기반 자율 로봇
작업 명령 방식	정밀한 기계 작동 명령어와 좌표 입력 필요	사람이 일상에서 쓰는 자연스러운 언어로 지시
학습 데이터 출처	단일 로봇이 똑같은 자리를 반복해 움직인 수치	웹 스케일 이미지 지식 및 여러 로봇의 행동 토큰
돌발 상황 대응	학습하지 않은 물건을 만나면 시스템 오류로 멈춤	시각 추론 능력을 사용해 알아서 우회해 조작
하드웨어 호환성	기계 모양이 조금만 바뀌어도 재가동 불가능	양팔 기계나 휴머노이드 등 이종 기종에 쉽게 이식

자율적인 산업 생명체로 이행하는 제조 인프라의 미래

우리가 눈여겨봐야 할 진짜 변화는 단순히 일을 영리하게 잘하는 청소기나 똑똑한 공장 로봇 팔이 몇 대 늘어나는 수준이 아니다. 공장 전체, 나아가 전 세계의 유통망이 하나의 살아있는 유기체처럼 연결되어 스스로 진화하는 거대한 네트워크의 탄생이다. 로봇이 몸으로 일하며 모은 고품질 데이터가 지능을 더 똑똑하게 만들고, 그 지능이 다시 로봇을 정교하게 움직이는 선순환 고리가 만들어졌기 때문이다.

이 생태계 안에서 로봇들은 각자 고립되어 일하지 않고 네트워크를 통해 서로의 시행착오와 일 잘하는 요령을 실시간으로 공유한다. 예를 들어 미국 공장의 로봇이 신소재 부품을 조립하다 터득한 미세한 손가락 힘 조절 노하우가 수초 만에 한국 공장 로봇의 머리로 전송된다. 기계가 낡아서 고장 나더라도 그동안 몸으로 배운 숙련공의 기술은 디지털 데이터 형태로 남아 시스템에 영구히 저장되는 셈이다.

미래 제조업의 경쟁력은 공장의 크기나 기계의 대수가 아니라, 시스템이 보유한 행동 데이터의 깊이에 달렸다.

로봇 행동 데이터 플랫폼 중심의 자율 제조 생태계 확립

제미나이 로보틱스의 핵심은 단순한 로봇 제조 기술이 아니다. 현실 세계의 행동 데이터를 인공지능이 직접 학습하기 시작했다는 점이다. 앞으로 로봇 산업의 경쟁력은 하드웨어보다 행동 데이터의 양과 품질이 결정할 것이다.

[글에서 사용한 머리 아픈 용어]

VLA (Vision-Language-Action) 모델
로봇의 카메라로 사물을 보는 눈(Vision)과 사람의 자연어 명령을 알아듣는 머리(Language), 그리고 관절 모터를 움직이는 손발(Action)의 기능을 단 하나의 신경망 구조 안에서 통합 처리하는 인공지능 제어 시스템이다.
제미나이 로보틱스-ER (Embodied Reasoning)
구글이 개발한 로봇 전용 공간 인지 두뇌다. 로봇이 실제로 손발을 움직이기 전에 사물의 3차원 위치를 파악하고, 물건의 어느 안전한 지점을 쥐어야 하는지 이동 경로와 착지점을 마음속으로 먼저 계산해내는 역할을 한다.
Sim-to-Real (가상 현실 전환 기법)
실제 현실 공간에서 비싼 로봇을 직접 작동시키며 학습시키면 시간도 오래 걸리고 고장 리스크가 크기 때문에, 컴퓨터 그래픽 가상 시뮬레이터 공간 안에서 로봇을 고속으로 먼저 예습시킨 뒤 완성된 코드만 실제 로봇 몸체에 복사해 넣는 학습 방법론이다.
행동 데이터 (Action Data)
인터넷의 글자나 이미지와 달리, 로봇의 카메라 영상 정보와 각 관절 기어 모터가 실제로 움직인 물리적 수치를 실시간으로 일치시켜 놓은 움직임 전용 학습 자산이다. 로봇이 현실에서 힘을 조절하고 요령을 터득하게 만드는 핵심 자양분이 된다.

※ 특정 산업이나 자산에 대한 투자 판단은 본인의 책임 하에 신중히 결정하시기 바랍니다.