로봇의 지능에 대한 연구는 오래동안 계속되어 왔지만, 최근 AI로 불리는 머신러닝의 눈부신 발전으로 부터 연구가 급격히 활발해진 것 같습니다. IEEE Spectrum에 관련된 좋은 기사가 있어 이번 포스팅에서 그 내용을 전해보고자 합니다.
개요
ChatGPT, Midjourney 등의 도구를 통해 구현된 생성적 AI 혁명은 근본적으로 간단한 공식에 기반합니다. 매우 큰 신경망을 취해서 웹에서 가져온 거대한 데이터셋으로 훈련한 다음, 다양한 사용자 요청을 충족하는 데 사용합니다. 대규모 언어 모델(LLM)은 질문에 답하거나 코드를 작성하거나 시를 작성할 수 있으며, 이미지 생성 시스템은 설득력 있는 동굴 그림이나 현대 예술을 만들어냅니다.
그렇다면 왜 이러한 놀라운 AI 능력이 과학 소설에서 본 것과 같이 유용하고 널리 사용되는 로봇으로 전환되지 않았을까요? 식탁을 정리하고 세탁물을 접으며 아침 식사를 만들어주는 로봇은 어디에 있나요?
유감스럽게도, 매우 성공적인 생성적 AI 공식 – 큰 모델이 웹에서 가져온 많은 데이터로 훈련됨 – 은 로봇공학으로 쉽게 이어지지 않습니다. 왜냐하면 인터넷이 텍스트와 이미지로 가득한 것처럼 로봇 상호작용 데이터로 가득 차 있지 않기 때문입니다. 로봇은 배우기 위해 로봇 데이터가 필요하며, 이 데이터는 주로 연구원들이 매우 구체적인 작업을 위해 실험실 환경에서 느리고 지루하게 생성합니다. 로봇 학습 알고리즘에 큰 진전이 있었지만, 풍부한 데이터 없이는 아직 실험실 외부에서 실제 작업(아침 식사 만들기와 같은)을 수행할 수 없습니다. 가장 인상적인 결과는 일반적으로 한 실험실에서만 작동하며, 한 대의 로봇에 대해서만, 종종 소수의 행동만 포함합니다.
각 로봇의 능력이 새로운 작업을 수행하는 데 필요한 시간과 노력에 의해 제한된다면, 많은 로봇의 경험을 모아서 새로운 로봇이 한꺼번에 그 경험을 학습할 수 있도록 하면 어떨까요? 연구자들은 이를 시도하기로 결정했습니다. 2023년에 구글과 캘리포니아 대학 버클리 캠퍼스의 연구실은 북미, 유럽 및 아시아의 32개의 로봇공학 연구소와 협력하여 RT-X 프로젝트를 시작했습니다. 이 프로젝트의 목표는 일반적인 목적의 로봇을 실현하기 위해 데이터, 자원 및 코드를 모으는 것입니다.
이러한 노력의 첫 단계에서 우리가 배운 것은 다음과 같습니다.
범용적인 로봇 지능
인간은 이러한 종류의 학습에 탁월합니다. 우리의 뇌는 약간의 연습을 통해 도구를 집거나 자전거를 타거나 차에 타는 것과 같이 본질적으로 우리의 신체 계획이 변하는 것을 처리할 수 있습니다. 즉, 우리의 “신체 체형”이 바뀝니다. 하지만 우리의 뇌는 적응합니다. RT-X 프로젝트는 로봇에서도 비슷한 것을 목표로 합니다: 단일 심층 신경망을 사용하여 여러 종류의 로봇을 제어하는 능력, 즉 크로스 엠보디먼트라고 불리는 능력을 가능하게 하는 것입니다. 질문은 충분히 많은 종류의 로봇에서 훈련된 심층 신경망이 매우 다른 외관, 물리적 특성 및 기능을 갖춘 모든 로봇을 “운전”할 수 있는지 여부입니다. 그렇다면, 이러한 접근 방식은 잠재적으로 로봇 학습을 위한 대규모 데이터셋의 능력을 발휘할 수 있습니다.
이 프로젝트의 규모는 매우 크기 때문에 매우 큽니다. RT-X 데이터셋은 현재 시장에서 가장 일반적으로 사용되는 로봇 팔을 포함하여 22 종류의 로봇에 대한 거의 백만 개의 로봇 시행을 포함합니다. 이 데이터셋의 로봇은 물체를 집고 놓는 것부터 조립, 케이블 라우팅과 같은 전문화된 작업까지 다양한 행동을 수행합니다. 총 500가지 다른 기술과 수천 개의 다양한 객체와의 상호작용이 있습니다. 이는 존재하는 실제 로봇 행동의 최대 오픈 소스 데이터셋입니다.
놀랍게도, 연구자들은 우리의 다중 로봇 데이터를 상대적으로 간단한 기계 학습 방법과 함께 사용할 수 있음을 발견했습니다. 대규모 신경망 모델과 대규모 데이터셋을 사용하는 레시피를 따르면 특별한 기능 없이도 크로스 엠보디먼트를 위한 제어 알고리즘을 훈련시킬 수 있습니다. ChatGPT와 같은 현재 LLM에 사용되는 종류의 모델을 활용하여 RT-X 데이터셋에서 훈련된 모델은 로봇의 카메라 관측에서 보이는 것을 통해 어떤 종류의 로봇을 제어하는지 간단히 인식할 수 있습니다. 로봇의 카메라가 UR10 산업용 로봇 팔을 보면 모델은 UR10에 적합한 명령을 보냅니다. 모델이 대신 저렴한 WidowX 취미용 로봇 팔을 보면 모델은 해당 로봇을 이동시킵니다.
우리 모델의 능력을 테스트하기 위해 RT-X 협력에 참여한 다섯 개의 연구소가 각각 자체 로봇에 독립적으로 개발한 최고의 제어 시스템과 직접 비교하여 테스트했습니다. 각 연구소의 테스트는 각자의 연구에 사용되는 작업을 포함했으며, 이는 물체를 집고 이동하는 것부터 문을 열고 클립을 통해 케이블을 라우팅하는 것과 같은 작업을 포함합니다. 놀랍게도, 단일 통합 모델은 각 연구소의 최고의 방법보다 성능이 향상되어 평균적으로 작업을 약 50% 더 자주 성공적으로 수행했습니다.
이 결과가 놀라워 보일 수 있지만, 연구자들은 RT-X 컨트롤러가 다른 로봇의 다양한 경험을 활용하여 다양한 환경에서 강도를 향상시킬 수 있다는 것을 발견했습니다. 같은 실험실 내에서도, 로봇이 작업을 시도할 때마다 약간 다른 상황에 처하게 되므로 다른 상황에서의 다른 로봇들의 경험을 활용하면 RT-X 컨트롤러가 자연스러운 변동성과 엣지 케이스를 처리하는 데 도움이 됩니다. 여기 몇 가지 이러한 작업의 범위 예시가 있습니다:
사고할 수 있는 로봇 만들기
여러 로봇 유형의 데이터를 결합하는 데 성공한 연구자들은 다음으로 이러한 데이터가 보다 심층적인 추론 능력을 갖춘 시스템에 어떻게 통합될 수 있는지 조사하기로 결정했습니다. 복잡한 의미 추론은 로봇 데이터만으로는 학습하기 어렵습니다. 로봇 데이터는 다양한 물리적 능력을 제공할 수 있지만, “사과를 캔과 오렌지 사이로 옮기기”와 같은 보다 복잡한 작업은 이미지의 객체들 간의 의미적 관계, 기본적인 상식, 로봇의 물리적 능력과 직접적으로 관련이 없는 다른 기호적 지식을 이해하는 것도 필요합니다.
그래서 연구자들은 믹스에 또 다른 거대한 데이터 원천을 추가하기로 결정했습니다: 인터넷 규모의 이미지 및 텍스트 데이터. 이미지와 자연어 간의 연결을 이해하는 데 일부 이해가 필요한 많은 작업에 이미 능숙한 기존 대규모 비전-언어 모델을 사용했습니다. 이 모델은 ChatGPT나 Bard와 같이 대중에게 제공되는 모델과 유사합니다. 이러한 모델은 이미지가 포함된 프롬프트에 대한 텍스트를 출력하여 시각적 질의응답, 캡션 작성 및 기타 열린 형태의 시각적 이해 작업과 같은 문제를 해결할 수 있도록 훈련됩니다. 연구자들은 이러한 모델이 간단히 로봇 제어로 적용될 수 있음을 발견했습니다. 이를 위해 로봇 명령으로 구성된 프롬프트에 대한 응답으로 로봇 조작을 출력하도록 이러한 모델을 훈련시키는 것입니다. 연구자들은 이 접근법을 RT-X 협력의 로봇 데이터에 적용했습니다.
인터넷에서 획득한 지식과 다중 로봇 데이터의 결합을 평가하기 위해 연구자들은 Google의 모바일 조작 로봇에 대한 RT-X 모델을 테스트했습니다. 연구자들은 가장 어려운 일반화 벤치마크 테스트를 진행했습니다. 로봇은 객체를 인식하고 성공적으로 조작해야 했으며, 또한 복잡한 텍스트 명령에 응답하여 텍스트와 이미지에서 정보를 통합하는 논리 추론을 해야 했습니다. 후자는 인간을 좋은 종합주의자로 만드는 요소 중 하나입니다. 우리의 로봇들에게 이러한 능력의 적어도 힌트를 줄 수 있을까요?
연구자들은 두 가지 종류의 평가를 진행했습니다. 기준으로는 Google의 로봇과 관련이 없는 모든 일반화된 다중 로봇 RT-X 데이터를 제외한 모델을 사용했습니다. 사실, Google의 로봇 특정 데이터셋은 RT-X 데이터셋의 가장 큰 부분으로, 10만 건 이상의 데모가 포함되어 있기 때문에 다른 모든 다중 로봇 데이터가 이 경우 실제로 도움이 되는지에 대한 문제는 매우 열려 있었습니다. 그런 다음 모든 다중 로봇 데이터를 포함하여 다시 시도했습니다.
가장 어려운 평가 시나리오 중 하나에서 Google 로봇은 공간 관계에 대해 추론하는 작업을 수행해야 했습니다(“사과를 캔과 오렌지 사이로 옮기기”); 다른 작업에서는 기본적인 수학 문제를 해결해야 했습니다(“2+3의 해가 적힌 종이 위에 물체를 놓으십시오”). 이러한 도전은 추론 및 결론 도출의 중요한 능력을 테스트하기 위한 것입니다.
이 경우 추론 능력(예: “사이” 및 “위에”의 의미)은 비전-언어 모델의 훈련에 포함된 웹 규모 데이터에서 나왔으며, 추론 결과를 로봇 행동에 대한 지식으로 변환하는 능력은 RT-X의 다중 로봇 데이터에서의 크로스 엠보디먼트 로봇 훈련에서 나왔습니다.
RT-X 프로젝트는 로봇 학습 커뮤니티가 함께 행동할 때 어떤 가능성이 있는지를 보여줍니다. 이 교차 기관 노력 덕분에 연구자들은 다양한 로봇 데이터셋을 모으고 어느 한 기관에서는 불가능한 포괄적인 다중 로봇 평가를 수행할 수 있었습니다. 로봇 공동체는 인터넷에서 훈련 데이터를 스크랩하는 것에 의존할 수 없기 때문에 이러한 데이터를 직접 만들어야 합니다. 연구자들은 더 많은 연구자가 자신들의 데이터를 RT-X 데이터베이스에 기여하고 이 공동 노력에 참여하기를 희망합니다. 또한 교차 엠보디먼트 연구를 지원하기 위한 도구, 모델 및 인프라를 제공하기를 희망합니다. 연구자들은 연구실 간에 데이터를 공유하는 것을 넘어서고, RT-X가 데이터 표준, 재사용 가능한 모델 및 새로운 기술 및 알고리즘을 개발하기 위한 공동 노력으로 성장할 것을 희망합니다.
우리의 초기 결과는 대규모 교차 엠보디먼트 로봇 모델이 분야를 어떻게 변화시킬 수 있는지를 암시합니다. 큰 언어 모델이 다양한 언어 기반 작업을 숙달했듯이, 미래에는 동일한 기반 모델을 여러 실제 세계 로봇 작업의 기초로 사용할 수 있을 것입니다. 아마도 미세 조정이나 심지어 미리 훈련된 기반 모델에 프롬프트를 제공함으로써 새로운 로봇 기술을 활성화할 수 있을 것입니다. ChatGPT에 특정 이야기를 먼저 훈련시키지 않고도 그 이야기를 전하도록 하는 것과 유사하게, 파이프링 백이나 손글씨 텍스트의 모습에 대해 알려주지 않고도 로봇에게 “생일 축하”를 케이크에 쓰도록 할 수 있을 것입니다. 물론, 이러한 모델이 그러한 종합적인 능력을 갖출 수 있도록 하기 위해서는 더 많은 연구가 필요하며, 우리의 실험은 단일 팔과 두 개의 손가락 그리퍼로 간단한 조작 작업에 중점을 두었습니다.
마무리
더 많은 연구실이 교차 엠보디먼트 연구에 참여함에 따라, 연구자들은 하나의 신경망이 여러 로봇을 제어할 수 있는 가능성에 대한 지평을 더욱 넓혀 나갈 것을 기대합니다. 이러한 발전에는 생성된 환경으로부터 다양한 시뮬레이션 데이터를 추가하는 것, 다른 수의 팔이나 손가락을 가진 로봇을 다루는 것, 깊이 카메라 및 촉각 감지와 같은 다양한 센서 스위트를 사용하는 것, 심지어 조작 및 이동 행동을 결합하는 것 등이 포함될 수 있습니다. RT-X는 이러한 작업을 위한 문을 열었지만, 가장 흥미로운 기술적 발전은 아직 앞에 있습니다.
이것은 단지 시작에 불과합니다. 연구자들은 이 첫걸음으로 함께 세계의 모든 로봇이 공유한 데이터를 활용하여 일반적인 로봇 뇌가 모든 로봇을 움직이는 미래를 만들어 나갈 수 있기를 희망합니다.