피지컬 AI의 두뇌 구조는 어떻게 진화해왔는가

피지컬 AI는 단순히 텍스트나 이미지로 답변하는 가상 세계의 인공지능이 아니다. 현실을 스스로 인식하고 물리적 신체를 직접 움직이는 실체적 존재다. 추상적인 지식을 처리하던 ‘생각하는 두뇌’에서 시작해 물리 법칙을 지배하는 ‘행동하는 두뇌’에 이르기까지, 피지컬 AI의 아키텍처가 거쳐온 진화를 추적해 본다.

피지컬 AI 이전, 현실을 이해하지 못했던 초기 인공지능

초기의 인공지능은 현실 세계의 불확실성을 전혀 견디지 못했다. 먼지 하나 없이 깨끗한 컴퓨터 내부와 달리 우리가 사는 현실은 온갖 변수와 소음으로 가득하기 때문이다.

예전 개발자들은 완벽한 규칙만 미리 입력해 주면 인공지능이 사람처럼 행동할 수 있을 줄 알았다. 하지만 갑자기 조명이 바뀌거나 먼지가 센서를 가리는 작은 돌발 상황에도 기계는 그대로 멈춰 서 버렸다. 현실의 가변성을 수많은 조건문과 수학 공식으로 전부 짜 맞추는 것은 불가능에 가까웠기 때문이다. 결국 이 시기의 소프트웨어는 세상을 이해하는 진짜 두뇌가 아니라, 사전에 정의된 궤적만 무한 반복하는 공장의 자동화 기계에 머물렀다.

인지 아키텍처의 등장, 생각하는 두뇌 구조의 시작

실험실을 벗어나기 위해 학계는 인간이 생각하는 과정을 그대로 프로그래밍하기 시작했다. 인간의 기억 구조와 추론 방식을 흉내 낸 ‘인지 아키텍처’라는 시스템이 등장한 배경이다.

당시 연구를 이끌었던 대표적인 모델이 바로 ACT-R과 SOAR, 그리고 CLARION이다. 인간의 기억 메커니즘을 본떠 지식을 매칭하거나, 명확한 목표를 세워 정교하게 단계를 밟아가며 문제를 해결하도록 설계되었다.

이 ‘생각하는 두뇌’들은 기호와 텍스트로 이루어진 데이터 영역에서는 훌륭한 성과를 냈다.

모델 이름	어떤 방식으로 작동했는가
ACT-R	인간 기억 구조를 모방한 인지 모델
SOAR	목표 기반 문제 해결 구조
CLARION	직관과 규칙을 결합한 이중 구조

하지만 이 똑똑한 모델들도 정작 현실 세계의 눈과 귀가 되어줄 센서 신호를 받아들이지 못했다. 컵을 쥐는 법을 수만 개의 논리로 코딩해도, 정작 카메라에 찍힌 원시 픽셀 데이터를 물리적 신호로 변환하는 계층이 존재하지 않았기 때문이다.

컴퓨터 비전과 VLM, 세상을 보는 피지컬 AI의 두뇌

현실의 벽에 부딪혔던 인공지능이 세상을 제대로 인지하기 시작한 건 딥러닝 덕분이다. 사람이 일일이 규칙을 적어주는 대신, 인공지능이 수많은 사진을 직접 보며 사물의 특징을 스스로 배우기 시작했다.

여기서 한 단계 더 나아가 이미지와 언어를 동시에 이해하는 비전 언어 모델(VLM)이 등장했다. 이제 인공지능은 단순히 사물의 이름만 맞히는 게 아니라 공간의 분위기와 맥락까지 읽어낼 수 있게 되었다.

글자만 파고들던 인공지능이 마침내 세상을 ‘보는 두뇌’로 진화한 셈이다. 눈이 생기면서 주변 환경을 파악하는 능력이 예전과는 비교할 수 없을 정도로 정교해졌다.

그러나 화면 속 사진을 잘 보는 것과 실제 그 안에서 부딪히며 움직이는 것은 완전히 다른 차원의 문제였다. 눈앞에 있는 물체를 정확히 ‘언제’, ‘얼마나 강한 토크(Torque)로’ 쥐어야 하는지 결정하는 실시간 제어와의 연결고리가 공백으로 남아 있었다.

월드 모델, 미래를 예측하는 피지컬 AI의 두뇌 구조

사물을 보는 것만으로 한계를 느낀 개발자들은 인간의 사고방식에서 힌트를 얻었다. 사람은 어떤 행동을 하기 전에 그 결과가 어떻게 될지 머릿속으로 먼저 시뮬레이션을 돌려본다.

이 개념을 로봇의 두뇌에 이식한 것이 바로 ‘월드 모델(World Model)’이다. 내가 이 물체를 밀면 바닥으로 떨어져 깨질 것이라는 물리 법칙을 인공지능이 물리적 신체를 움직이지 않고도 데이터 상에서 미리 예측하는 기술이다.

이 ‘예측하는 두뇌’ 덕분에 피지컬 AI의 안전성이 눈에 띄게 좋아졌다. 위험천만한 행동을 가상 공간에서 먼저 연습해 보며 실제 로봇 하드웨어가 부서지는 사고를 막을 수 있게 되었기 때문이다. 다만 월드 모델은 어디까지나 미래를 상상하는 시뮬레이터 역할에 집중되어 있었다. 상상한 결과 중 최적의 경로를 선택하고, 각 관절의 액추에이터를 정밀하게 조율하는 구체적인 제어 기술은 또 다른 영역의 문제였다.

VLA의 등장, 행동하는 피지컬 AI의 두뇌

머릿속 상상을 현실의 움직임으로 완벽하게 연결한 것이 비전 언어 행동 모델(VLA)이다. 구글의 RT-2 같은 최신 모델들은 사용자의 말 한마디를 듣고 로봇 관절의 움직임 좌표를 곧바로 계산해 낸다.

“쓰레기통에 쓰레기를 버려줘”라고 말하면 카메라로 주변을 보고 쓰레기를 찾아내 손을 뻗는다. 그리고 물건을 집어 올리는 손가락의 세부 각도까지 하나의 두뇌 흐름으로 매끄럽게 처리한다. 텍스트(Language)와 이미지(Vision)를 넘어, 물리적인 기하학 연산(Action)을 단일 신경망 안에서 통합 처리하기 시작한 것이다. 요즘 전 세계 휴머노이드 로봇 연구가 이 VLA 기술을 중심으로 돌아가는 이유도 여기에 있다.

하지만 이렇게 똑똑한 단일 모델도 실제 작업 현장에서는 예상치 못한 허점을 드러냈다. 거대한 인공지능 모델이 다음 행동을 연산하는 동안 발생하는 미세한 지연 시간이 문제였다. 모터에 제어 신호를 보내는 주기(Hz)가 실시간으로 맞아떨어지지 않으면, 로봇은 중심을 잃고 그대로 고꾸라지기 때문이다.

왜 하나의 AI 모델만으로는 휴머노이드 로봇을 만들 수 없는가

피지컬 AI의 두뇌 발전사를 보면 각자 자기가 잘하는 영역을 고집하며 따로 진화해 왔음을 알 수 있다. 어떤 두뇌는 논리적 추론을, 어떤 두뇌는 시각적 인지를, 또 다른 두뇌는 행동과 제어를 담당해 왔다.

하지만 도로를 달리는 자율주행차나 공장의 협동 로봇은 이 기술 중 단 하나라도 없으면 제대로 작동할 수 없다. 고차원적인 인공지능 연산은 물론이고, 실시간 통신 네트워크와 정밀한 하드웨어 제어가 한 몸처럼 움직여야 한다.

현실에서 로봇이 오작동을 일으키는 가장 큰 이유는 하드웨어와 소프트웨어의 손발이 맞지 않아서다. 아무리 천재 같은 인공지능을 달아주어도 데이터 전송이 늦어지면 기계는 돌발 상황에 대처하지 못한다. 결록 거대한 ‘거대 모델(Foundation Model)’ 하나에 모든 제어를 위임하는 방식은 물리 세계에서 치명적인 한계를 가질 수밖에 없다.

피지컬 AI 두뇌 구조의 진화 과정

초창기의 단순 자동화 시스템부터 오늘날의 통합 구조에 이르기까지 인공지능이 해결해야 했던 숙제는 계속해서 변해왔다.

두뇌의 진화 단계	가장 집중했던 기술	현실 세계에 적용할 때 막혔던 부분
초기 규칙 기반	완벽한 조건문 코딩하기	현실의 돌발 상황이나 센서의 소음을 견디지 못함
생각하는 두뇌	인간의 논리적인 사고 흐름 모사하기	외부 환경 데이터를 받아들이는 입력 통로가 없음
보는 두뇌	이미지 패턴 인식과 맥락 읽기	눈으로 보는 인지 영역과 손발을 움직이는 제어 영역이 단절됨
예측하는 두뇌	가상 공간에서 가상의 물리 법칙 연습하기	실시간으로 몸을 움직이는 정밀한 하드웨어 연동이 부족함
행동하는 두뇌	자연어 명령을 로봇의 관절 움직임으로 바꾸기	밀리초 단위의 미세한 타이밍 조절과 안전 윤리 제약이 없음
통합 구조	하드웨어 제어부터 안전 윤리까지 계층화하기	다양한 제조사의 기계 시스템을 하나로 묶을 표준 인터페이스 필요

피지컬 AI는 왜 통합 구조가 필요한가

따로 발전해 오던 기능들을 하나의 유기체로 묶기 위해, 최근 하이테크 산업계는 ‘하이브리드 계층화 구조’에 주목하고 있다. 인간의 몸이 대뇌(추론/판단), 소뇌(균형/감각 융합), 척수(실시간 반사 신경)로 분업화되어 있듯, 기계의 두뇌 역시 물리적 속도에 맞게 쪼개져야 한다는 뜻이다.

최근 학계에서 활발히 논의되는 피지컬 AI 참조 모델들의 핵심은 다음과 같다.

클라우드 및 상위 에지(Edge) 계층에서는 VLM과 대형 언어 모델을 통해 고차원적인 임무를 계획하고 상상(월드 모델)한다.
반면 로봇 내부의 실시간 온디바이스(On-device) 계층에서는 밀리초(ms) 단위로 모터 변위와 균형을 제어하는 경량 제어 루프를 독립적으로 구동시킨다.

이러한 계층화가 이루어져야만 인공지능이 판단을 내리는 동안 하드웨어가 멍청하게 멈춰 서거나 오작동하는 실시간성 문제를 해결할 수 있다. 결국 피지컬 AI의 진화는 단일 모델의 체급을 키우는 거대화 경쟁이 아니다. 인식, 예측, 행동, 그리고 로우 레벨(Low-level)의 하드웨어 제어 체계를 얼마나 유기적이고 안전하게 배치하느냐는 ‘시스템 아키텍처’의 싸움이 될 것이다.

글에서 사용한 머리 아픈 용어

인지 아키텍처 (Cognitive Architecture): 인간의 마음과 사고방식을 컴퓨터 프로그램으로 만들기 위해, 지식의 저장 형태나 추론 규칙 등을 종합적으로 본떠 만든 시스템 설계도다.
비전 언어 행동 모델 (VLA, Vision-Language-Action): 카메라가 보는 시각 정보와 사람의 말 명령을 하나의 인공지능이 통째로 학습해서, 로봇이 즉각 움직일 수 있는 관절 신호로 바꿔주는 최신 기술이다.
월드 모델 (World Model): 인공지능이 주변 환경의 물리 법칙을 스스로 학습하여, 자신이 어떤 행동을 했을 때 미래가 어떻게 변할지 머릿속으로 미리 상상하고 시뮬레이션해 보는 시스템이다.
실시간 운영체제 (RTOS, Real-Time Operating System): 아무리 계산이 정확해도 명령이 지정된 밀리초(ms) 타임라인 안에 반드시 실행되도록 타이밍을 보장해 주는 로봇 및 정밀 기계 전용 운영체제다.

※ 특정 산업이나 자산에 대한 투자 판단은 본인의 책임 하에 신중히 결정하시기 바랍니다.