인간의 데이터를 학습해 성장한 인공지능이 자신이 만든 데이터를 반복적으로 학습할 경우, 희귀 정보가 점차 사라지고 성능이 저하되는 모델 붕괴(Model Collapse) 현상이 발생할 수 있다.
특히 피지컬 AI는 모델 붕괴의 영향을 더욱 심각하게 받을 수 있다. 텍스트 생성 AI의 경우 잘못된 답변으로 끝날 수 있지만, 현실 세계에서 움직이는 로봇은 잘못된 학습이 곧 잘못된 행동으로 이어질 수 있다. 따라서 피지컬 AI 시대에는 인간이 만든 데이터뿐 아니라 실제 세계에서 수집한 행동 데이터의 가치가 더욱 높아질 가능성이 크다.

AI는 무엇을 먹고 성장하는가
인공지능은 기본적으로 인간이 남긴 흔적을 먹고 성장한다. 지금까지 거대 언어 모델들이 지식을 쌓을 수 있었던 원천은 명확하다. 인터넷에 올라온 수많은 글, 인류가 수백 년간 축적한 책, 학자들이 밤낮으로 연구한 논문이다. 즉, 우리가 일상적으로 생산한 콘텐츠 전체가 인공지능의 훌륭한 자양분이었다.
그런데 최근 인터넷 공간의 공기가 급격하게 바뀌기 시작했다. 사람이 직접 쓰고 그린 콘텐츠보다 인공지능이 쏟아내는 데이터가 더 빠른 속도로 영토를 넓히고 있다. 자동 생성된 블로그 글이 검색 엔진을 도배하고, 인공지능이 그린 이미지와 영상이 사회관계망서비스에 넘쳐난다. 이제 인터넷은 더 이상 인간만의 전유물이 아니다.
- 기존 학습 데이터: 인터넷 게시글, 전문 서적, 학술 논문, 인간 창작물
- 현재 급증 데이터: AI 블로그 글, AI 생성 이미지, AI 합성 영상, AI 자동 코드
AI가 AI를 학습하면 왜 문제가 될까
문제는 고품질 인간 데이터 확보가 점점 어려워지고 있다는 점이다. 데이터가 부족해진 인공지능 기업들은 결국 인터넷에 떠도는 인공지능 생성 데이터를 다시 모델에 집어넣기 시작했다. 이 과정에서 기이한 순환 구조가 만들어진다.
인간 데이터 -> AI 최초 학습 -> AI 데이터 생성 -> AI 반복 재학습
이 순환이 반복되면 데이터의 왜곡과 변형이 일어난다. 인공지능은 자신이 만든 결과물의 오류를 걸러내지 못하고 그대로 흡수한다. 통계적 정밀함이 무너지면서 결국 인공지능 모델 자체가 바보로 변하는 현상이 발생한다.
모델 붕괴란 무엇인가
이러한 퇴화 현상을 학계에서는 ‘모델 붕괴(Model Collapse)’라고 부른다. 2024년 영국 옥스퍼드 대학교 일리아 슈마일로프(Ilia Shumailov) 연구팀은 세계적인 과학 학술지 네이처(Nature)에 이와 관련한 충격적인 논문을 발표했다.
“모델 붕괴는 인공지능이 생성한 데이터를 반복 학습하면서 정보의 다양성이 감소하고 희귀 정보가 사라지는 현상이다. 가장 먼저 사라지는 것은 희귀한 정보다.”

연구팀은 인공지능에게 14세기 중세 건축에 대한 글을 주며 반복 학습을 시켰다. 세대를 거듭하며 자기가 만든 글을 다시 학습한 모델은 점차 원본 데이터의 특징을 잃기 시작했다. 연구팀은 반복적으로 생성 데이터를 학습시킨 결과 데이터 분포의 꼬리(Tail Distribution)에 해당하는 희귀 정보가 점차 사라지고, 모델이 특정 패턴만 과도하게 반복하는 현상을 관찰했다.
| 학습 단계 | 데이터 상태 | 인공지능의 변화 |
|---|---|---|
| 1세대 (인간 데이터) | 매우 다양하고 풍부함 | 높은 성능과 독창성 유지 |
| 초기 붕괴 단계 | AI 데이터가 섞이기 시작함 | 오차 누적, 데이터 다양성 감소 |
| 말기 붕괴 단계 | AI 데이터만 남게 됨 | 현실 왜곡, 특정 답변만 반복 |
지금 당장 완전한 모델 붕괴가 일어나지 않는 이유
인터넷에 인공지능이 만든 저품질 글이 넘쳐나는데도 우리가 쓰는 서비스들이 여전히 똑똑한 성능을 유지하는 것은 기업들이 강력한 방어벽을 세웠기 때문이다.
- 엄격한 데이터 계보 관리: 기업들은 인공지능을 새로 학습시킬 때 데이터의 출처와 경로를 철저하게 추적한다. 인공지능이 생성한 패턴이 보이거나 품질이 떨어지는 블로그 글은 학습 대상에서 기계적으로 걸러낸다.
- 인간 피드백 기반 강화학습: 사용자가 실시간으로 누르는 ‘좋아요’와 ‘싫어요’, 그리고 전문 검수원들이 직접 검증하고 정제한 고품질 데이터가 모델에 계속 주입된다. 이 정기적인 인간의 개입이 인공지능이 바보가 되는 것을 수혈하듯 막아준다.
- 비공개 고품질 원천 데이터 확보: 대형 기술 기업들은 인터넷을 긁어오는 것 외에도 이미 검증된 출판사, 뉴스 그룹, 전문 학술지 등과 유료 계약을 맺고 인공지능 오염이 전혀 없는 ‘청정 인간 데이터’를 별도로 확보해 학습 파이프라인을 유지하고 있다.
현업과 일상에서 관찰되는 모델 붕괴의 전조 현상
현재 치명적인 모델 붕괴가 실제 서비스에서 발생했다고 보기는 어렵다. 다만 생성형 AI가 인터넷 생태계에 빠르게 확산되면서 일부 연구자들은 미래의 모델 붕괴로 이어질 수 있는 여러 징후를 주목하고 있다.
- 답변의 평균화 현상
- 많은 사용자는 최신 생성형 AI의 답변이 점점 더 안전하고 모범적이지만 동시에 비슷비슷해지고 있다고 느낀다. 이는 모델 붕괴가 발생했다는 증거는 아니지만, AI가 통계적으로 가장 가능성이 높은 답변을 반복적으로 생성하는 과정에서 나타나는 평균화 현상으로 해석할 수 있다.
- 특정 표현의 반복적 확산
- 영어권에서는 ‘Delve’, ‘Testament’ 같은 표현이, 한국어권에서는 ‘선두주자’, ‘중요한 이정표’, ‘혁신적인 여정’ 같은 문구가 생성형 AI 콘텐츠에서 반복적으로 등장한다. AI가 생성한 문서가 다시 인터넷에 축적되면서 특정 표현이 과도하게 증폭되는 현상은 데이터 다양성 감소의 초기 신호로 해석되기도 한다.
- 인간 데이터 생산 생태계의 약화
- 생성형 AI가 개발자 커뮤니티, 지식 공유 사이트, 질의응답 플랫폼의 역할 일부를 대체하기 시작하면서 인간이 직접 생산하는 신규 데이터의 양과 질이 장기적으로 감소할 수 있다는 우려도 제기되고 있다. 만약 새로운 인간 경험과 지식이 충분히 공급되지 않는다면 미래 AI 모델의 학습 기반 역시 약해질 수 있다.
가장 먼저 사라지는 것은 희귀한 정보
이 논문의 가장 핵심적인 발견은 정보의 소실 순서에 있다. 데이터가 순환할 때 평범하고 흔한 정보는 끝까지 살아남지만, 독특하고 소수만 아는 희귀 정보는 순식간에 지워진다. 이해를 돕기 위해 현실의 예시를 들어보겠다.
- 흔한 정보: 100명의 사람 중 95명이 알고 있는 대중적인 지식이나 생각
- 희귀 정보: 100명의 사람 중 단 5명만 알고 있는 독창적인 아이디어나 소수의 의견
- 인공지능의 선택: 인공지능이 반복 학습을 할 때, 95명의 흔한 정보는 증폭되고 5명의 희귀 정보는 통계적 오류로 취급되어 먼저 소실됨
인공지능은 본질적으로 평균값을 향해 수렴하는 특성을 가진다. 자기가 만든 데이터를 다시 먹을 때마다 뾰족하고 독창적인 생각들은 둥글게 깎여 나간다. 결국 세상에 하나뿐인 독창적인 관점이나 가치 있는 비주류 데이터가 인공지능의 뇌 속에서 완전히 사라지게 된다.
인간 사회에도 모델 붕괴는 존재한다
흥미롭게도 이러한 모델 붕괴는 인공지능만의 문제가 아니다. 우리가 살아가는 인간 사회에서도 똑같이 관찰할 수 있는 현상이다. 매일 같은 알고리즘이 추천하는 뉴스만 읽고, 나와 비슷한 성향의 사람들과만 대화하는 현대인의 삶이 대표적이다.
- 인간의 뇌: 같은 뉴스 반복 -> 생각의 획일화 -> 창의성 감소 및 고립
- 인공지능의 뇌: 같은 데이터 반복 -> 데이터 다양성 감소 -> 모델 붕괴
사람이 편향된 정보에 갇히면 생각이 딱딱하게 굳어지며 새로운 생각을 하지 못하게 된다. 인공지능의 모델 붕괴 역시 근친교배처럼 유전자가 단조로워지다가 집단 전체가 절멸하는 생물학적 현상과 정확히 닮아 있다.
모델 붕괴를 막는 방법은 무엇인가
그렇다면 기술 기업들은 이 파멸적인 루프를 어떻게 해결하고 있을까. 최근 발표되는 연구들에 따르면 두 가지 확실한 돌파구가 제시되고 있다. 첫째는 인간이 만든 순수한 청정 데이터를 끝까지 보호하고 격리하는 것이다. 둘째는 정밀하게 설계된 고품질 합성 데이터를 똑똑하게 결합하는 방식이다.
여기서 주목해야 할 핵심 분야가 바로 물리 세계와 결합한 ‘피지컬 AI’와 ‘로봇 공학’이다. 가상 세계의 텍스트는 오염되기 쉽지만, 실제 현실에서 로봇이 몸으로 부딪치며 얻는 데이터는 텍스트 데이터보다 훨씬 직접적이고 검증 가능하다. 물리적 공간의 예측 불가능함과 수많은 돌발 상황(Edge Case)은 인공지능에게 가상 공간이 줄 수 없는 완벽한 실시간 검증된 데이터를 제공한다.
- 피지컬 AI: 실제 로봇이 현실 세계와 상호작용하며 수집하는 가치 높은 행동 데이터
- 실제 세계 데이터: 가상 공간의 왜곡을 바로잡아 줄 수 있는 가장 강력한 해독제
AI 시대에 인간이 더 중요해지는 이유
인공지능이 발전할수록 역설적으로 인간이 직접 생산한 고유한 데이터의 가치는 상상을 초월할 정도로 높아진다. 인공지능은 결코 스스로 완벽해질 수 없으며, 모델 붕괴를 막기 위해서라도 인간의 창의성과 실세계 경험을 끊임없이 공급받아야만 생존할 수 있다.
따라서 미래 AI 경쟁은 더 큰 모델을 만드는 경쟁이 아니라 더 많은 현실 세계 데이터와 인간 경험을 확보하는 경쟁으로 이동할 가능성이 높다.
[글에서 사용한 머리 아픈 용어]
- 모델 붕괴 (Model Collapse): 인공지능이 사람이 만든 데이터 대신 인공지능이 생성한 데이터를 학습하면서 정보가 단조로워지고 성능이 망가지는 현상이다.
- 합성 데이터 (Synthetic Data): 실제 현실에서 수집한 데이터가 아니라, 컴퓨터 시뮬레이션이나 인공지능 모델을 통해 인위적으로 만들어낸 가짜 데이터다.
- 피지컬 AI (Physical AI): 소프트웨어 안에만 갇혀 있는 인공지능을 넘어, 로봇이나 자율주행차처럼 실제 물리적인 몸을 가지고 현실 세계에서 작동하는 인공지능 기술이다.
※ 특정 산업이나 자산에 대한 투자 판단은 본인의 책임 하에 신중히 결정하시기 바랍니다.