피지컬 AI는 단순히 답변하는 AI가 아니라 현실을 인식하고 직접 움직이는 인공지능이다.
생각하는 두뇌에서 행동하는 두뇌까지, 피지컬 AI의 두뇌 구조가 어떻게 진화해왔는지 살펴본다.
피지컬 AI 이전, 현실을 이해하지 못했던 초기 인공지능

초기의 인공지능은 현실 세계의 불확실성을 전혀 견디지 못했다. 먼지 하나 없이 깨끗한 컴퓨터 내부와 달리 우리가 사는 현실은 온갖 변수와 소음으로 가득하기 때문이다.
예전 개발자들은 완벽한 규칙만 미리 입력해 주면 인공지능이 사람처럼 행동할 수 있을 줄 알았다. 하지만 갑자기 조명이 바뀌거나 먼지가 센서를 가리는 작은 돌발 상황에도 기계는 그대로 멈춰 서 버렸다.
현실의 복잡함을 수학 공식으로 전부 짜 맞추는 것은 불가능에 가까웠다. 결국 이 시기의 소프트웨어는 세상을 이해하는 진짜 두뇌가 아니라 정해진 명령만 무한 반복하는 공장의 자동화 기계에 머물렀다.
인지 아키텍처의 등장, 생각하는 두뇌 구조의 시작
실험실을 벗어나기 위해 학계는 인간이 생각하는 과정을 그대로 프로그래밍하기 시작했다. 인간의 기억 구조와 추론 방식을 흉내 낸 ‘인지 아키텍처’라는 시스템이 등장한 배경이다.
당시 연구를 이끌었던 대표적인 모델이 바로 ACT-R과 SOAR, 그리고 CLARION이다. 인간의 기억 메커니즘을 본떠 지식을 매칭하거나, 명확한 목표를 세워 정교하게 단계를 밟아가며 문제를 해결하도록 설계되었다.
이 ‘생각하는 두뇌’들은 기호와 텍스트로 이루어진 데이터 영역에서는 훌륭한 성과를 냈다.
| 모델 이름 | 어떤 방식으로 작동했는가 |
|---|---|
| ACT-R | 인간 기억 구조를 모방한 인지 모델 |
| SOAR | 목표 기반 문제 해결 구조 |
| CLARION | 직관과 규칙을 결합한 이중 구조 |
하지만 이 똑똑한 모델들도 정작 현실 세계의 눈과 귀가 되어줄 센서 신호를 받아들이지 못했다. 컵을 쥐는 법을 수만 개의 논리로 코딩해도, 정작 카메라에 찍힌 이미지를 신호로 바꾸는 기술이 없었기 때문이다.
컴퓨터 비전과 VLM, 세상을 보는 피지컬 AI의 두뇌
현실의 벽에 부딪혔던 인공지능이 세상을 제대로 인지하기 시작한 건 딥러닝 덕분이다. 사람이 일일이 규칙을 적어주는 대신, 인공지능이 수많은 사진을 직접 보며 사물의 특징을 스스로 배우기 시작했다.
여기서 한 단계 더 나아가 이미지와 언어를 동시에 이해하는 비전 언어 모델(VLM)이 등장했다. 이제 인공지능은 단순히 사물의 이름만 맞히는 게 아니라 공간의 분위기와 맥락까지 읽어낼 수 있게 되었다.
글자만 파고들던 인공지능이 마침내 세상을 ‘보는 두뇌’로 진화한 셈이다. 눈이 생기면서 주변 환경을 파악하는 능력이 예전과는 비교할 수 없을 정도로 정교해졌다.
그러나 화면 속 사진을 잘 보는 것과 실제 그 안에서 부딪히며 움직이는 것은 완전히 다른 차원의 문제였다. 앞에 있는 물체를 언제, 얼마나 강한 힘으로 쥐어야 하는지 알려주는 연결고리가 아직 부족했다.

월드 모델, 미래를 예측하는 피지컬 AI의 두뇌 구조
사물을 보는 것만으로 한계를 느낀 개발자들은 인간의 사고방식에서 힌트를 얻었다. 사람은 어떤 행동을 하기 전에 그 결과가 어떻게 될지 머릿속으로 먼저 시뮬레이션을 돌려본다.
이 개념을 로봇의 두뇌에 이식한 것이 바로 ‘월드 모델’이다. 내가 이 물체를 밀면 바닥으로 떨어져 깨질 것이라는 물리 법칙을 인공지능이 경험해 보지 않고도 내부적으로 미리 예측하는 기술이다.
이 ‘예측하는 두뇌’ 덕분에 피지컬 AI의 안전성이 눈에 띄게 좋아졌다. 위험천만한 행동을 가상 공간에서 먼저 연습해 보며 실제 로봇 하드웨어가 부서지는 사고를 막을 수 있게 되었기 때문이다.
다만 월드 모델은 어디까지나 미래를 상상하는 시뮬레이터 역할에 집중되어 있었다. 상상한 결과 중 가장 좋은 행동을 고르고, 실제 모터를 미세하게 꺾어주는 구체적인 제어 기술은 또 다른 두뇌의 몫이었다.
VLA의 등장, 행동하는 피지컬 AI의 두뇌
머릿속 상상을 현실의 움직임으로 완벽하게 연결한 것이 비전 언어 행동 모델(VLA)이다. 구글의 RT-2 같은 최신 모델들은 사용자의 말 한마디를 듣고 로봇 관절의 움직임 좌표를 곧바로 계산해 낸다.
“쓰레기통에 쓰레기를 버려줘”라고 말하면 카메라로 주변을 보고 쓰레기를 찾아내 손을 뻗는다. 그리고 물건을 집어 올리는 손가락의 세부 각도까지 하나의 두뇌 흐름으로 매끄럽게 처리한다.
기계가 드디어 물리적인 역학 관계를 스스로 통제하는 ‘행동하는 두뇌’가 된 순간이다. 요즘 전 세계 휴머노이드 로봇 연구가 이 VLA 기술을 중심으로 돌아가는 이유도 여기에 있다.
하지만 이렇게 똑똑한 단일 모델도 실제 작업 현장에서는 예상치 못한 허점을 드러냈다. 아무리 완벽한 행동 계획을 짜놓아도, 모터에 명령을 보내는 속도가 밀리초 단위로 맞아떨어지지 않으면 로봇이 그대로 넘어지기 때문이다.
왜 하나의 AI 모델만으로는 휴머노이드 로봇을 만들 수 없는가
피지컬 AI의 두뇌 발전사를 보면 각자 자기가 잘하는 영역을 고집하며 따로 진화해 왔음을 알 수 있다. 어떤 두뇌는 논리적 추론을, 어떤 두뇌는 시각적 인지를, 또 다른 두뇌는 행동과 제어를 담당해 왔다.
하지만 도로를 달리는 자율주행차나 공장의 협동 로봇은 이 기술 중 단 하나라도 없으면 제대로 작동할 수 없다. 고차원적인 인공지능 연산은 물론이고, 실시간 통신 네트워크와 정밀한 하드웨어 제어가 한 몸처럼 움직여야 한다.
현실에서 로봇이 오작동을 일으키는 가장 큰 이유는 하드웨어와 소프트웨어의 손발이 맞지 않아서다. 아무리 천재 같은 인공지능을 달아주어도 데이터 전송이 늦어지면 기계는 돌발 상황에 대처하지 못한다.
결국 개별 알고리즘의 성능을 높이는 경쟁보다, 이 파편화된 두뇌들을 체계적으로 배치하는 통합 아키텍처가 필요하다는 결론에 도달했다. 데이터 처리부터 물리적 실행까지 한 번에 묶어줄 프레임워크가 요구되는 시점이다.
피지컬 AI 두뇌 구조의 진화 과정
초창기의 단순 자동화 시스템부터 오늘날의 통합 구조에 이르기까지 인공지능이 해결해야 했던 숙제는 계속해서 변해왔다.
| 두뇌의 진화 단계 | 가장 집중했던 기술 | 현실 세계에 적용할 때 막혔던 부분 |
|---|---|---|
| 초기 규칙 기반 | 완벽한 조건문 코딩하기 | 현실의 돌발 상황이나 센서의 소음을 견디지 못함 |
| 생각하는 두뇌 | 인간의 논리적인 사고 흐름 모사하기 | 외부 환경 데이터를 받아들이는 입력 통로가 없음 |
| 보는 두뇌 | 이미지 패턴 인식과 맥락 읽기 | 눈으로 보는 인지 영역과 손발을 움직이는 제어 영역이 단절됨 |
| 예측하는 두뇌 | 가상 공간에서 가상의 물리 법칙 연습하기 | 실시간으로 몸을 움직이는 정밀한 하드웨어 연동이 부족함 |
| 행동하는 두뇌 | 자연어 명령을 로봇의 관절 움직임으로 바꾸기 | 밀리초 단위의 미세한 타이밍 조절과 안전 윤리 제약이 없음 |
| 통합 구조 | 하드웨어 제어부터 안전 윤리까지 계층화하기 | 다양한 제조사의 기계 시스템을 하나로 묶을 표준 인터페이스 필요 |
피지컬 AI는 왜 통합 구조가 필요한가
따로 발전해 오던 인공지능의 다양한 두뇌 기능들을 하나의 유기체처럼 연결하기 위해 최근 학계와 산업계에서는 구조적인 계층화 작업이 활발히 진행되고 있다. 하위 계층은 실시간 기계 제어와 하드웨어 동작을 담당하고, 상위 계층은 환경 인식과 추론, 의사결정, 안전 규범을 담당하는 방식이다.
이러한 문제의식 속에서 최근에는 피지컬 AI를 구성하는 다양한 기능들을 하나의 구조 안에서 설명하기 위한 참조 모델 연구가 등장하고 있다. 특정 인공지능 기술이나 알고리즘에 의존하기보다 시스템 전체의 정보 흐름과 기능 관계를 체계적으로 설명하려는 시도다.
이러한 통합 구조는 인공지능이 제멋대로 행동하지 않도록 제어 체계와 안전장치를 함께 고려한다. 인공지능의 판단 결과가 실제 하드웨어의 정밀 제어 과정을 거쳐 실행되므로 현실 세계에서의 안정성과 신뢰성을 확보할 수 있다.
결국 피지컬 AI의 미래는 더 뛰어난 단일 모델을 만드는 경쟁이 아니다. 환경 인식, 예측, 행동, 제어, 안전성 등 서로 다른 기능 계층을 얼마나 유기적으로 연결하느냐가 핵심 경쟁력이 될 가능성이 높다.
이러한 관점에서 피지컬 AI를 계층적으로 설명하려는 다양한 참조 모델 연구가 등장하고 있으며, 앞으로는 개별 알고리즘보다 전체 시스템 구조를 이해하는 능력이 더욱 중요해질 것으로 보인다.
피지컬 AI의 두뇌는 더 이상 하나의 모델로 설명되지 않는다. 생각하는 두뇌, 보는 두뇌, 예측하는 두뇌, 행동하는 두뇌가 하나의 시스템 안에서 유기적으로 연결될 때 비로소 현실 세계를 이해하고 움직일 수 있다. 결국 피지컬 AI의 진화는 더 똑똑한 인공지능을 만드는 과정이 아니라, 서로 다른 기능들을 하나의 구조로 통합해 나가는 과정이라 할 수 있다.
글에서 사용한 머리 아픈 용어
- 인지 아키텍처 (Cognitive Architecture): 인간의 마음과 사고방식을 컴퓨터 프로그램으로 만들기 위해, 지식의 저장 형태나 추론 규칙 등을 종합적으로 본떠 만든 시스템 설계도다.
- 비전 언어 행동 모델 (VLA, Vision-Language-Action): 카메라가 보는 시각 정보와 사람의 말 명령을 하나의 인공지능이 통째로 학습해서, 로봇이 즉각 움직일 수 있는 관절 신호로 바꿔주는 최신 기술이다.
- 월드 모델 (World Model): 인공지능이 주변 환경의 물리 법칙을 스스로 학습하여, 자신이 어떤 행동을 했을 때 미래가 어떻게 변할지 머릿속으로 미리 상상하고 시뮬레이션해 보는 시스템이다.
- 실시간 운영체제 (RTOS, Real-Time Operating System): 아무리 계산이 정확해도 명령이 지정된 밀리초(ms) 타임라인 안에 반드시 실행되도록 타이밍을 보장해 주는 로봇 및 정밀 기계 전용 운영체제다.
※ 특정 산업이나 자산에 대한 투자 판단은 본인의 책임 하에 신중히 결정하시기 바랍니다.