Physical AI란 무엇인가?

728x90

피지컬 AI는 물리적인 시스템에 인공지능이 내장되어, 인간과 상호작용하고 현실 세계에 영향을 미칠 수 있는 AI를 말하는데, 즉, 단순히 소프트웨어 안에만 존재하는 AI가 아닌 실제 물리적인 장치나 기계 안에 탑재되어 외부 환경을 센서로 감지하고, 스스로 판단하여 주변과 *유기적으로 상호작용할 수 있게 만든 형태입니다. (*상황에 맞게 서로 영향을 주고받으며 자연스럽고 연속적으로 반응한다는 의미)
아래 그림을 보시면 피지컬 AI는 보통 세 가지의 핵심 단계로 구성이 됩니다. 먼저 Perception(지각, 인지) 단계에서는 AI가 센서를 통해 데이터를 수집하고 통합합니다. Cognitive(인지, 사고) 단계에서는 수집된 데이터를 분석하고 학습하여 의사 결정을 내립니다. 마지막으로 Action(행동) 단계에서는 앞에서 내린 결정을 바탕으로 실제 물리적인 행동을 수행합니다.

피지컬 AI의 첫 번째 단계인 Perception에 대해 자세히 설명드리겠습니다. Perception 단계에서는 이전 슬라이드에서 말씀드린것처럼 AI가 외부 환경을 감지하고 인식하기 위해 다양한 종류의 센서를 활용합니다.
대표적으로는 4가지 센서가 있는데, 첫번째로는 비주얼 센서입니다. 비주얼 센서는 카메라나 LiDAR와 같은 장치를 통해 시각 정보를 수집하여 객체 인식, 거리 측정 등에 사용됩니다.
두번째는 텍타일(촉각) 센서입니다. 텍타일 센서는 물체를 잡거나 눌렀을 때의 압력을 감지하여 로봇이 힘의 세기를 조절하는 데 도움을 줍니다.
세번째는 포지션(위치) 센서입니다. 포지션 센서는 GPS등을 활용하여 현재 위치, 방향, 이동 경로 등의 정보를 제공합니다.
마지막 4번째는 포스(힘) 센서입니다. 포스 센서는 외부에서 작용하는 힘을 감지하여 균형을 유지하거나 작업 강도를 조절하는 데 사용됩니다. 이러한 다양한 센서들의 정보는 Sensor Fusion, 즉 센서 융합 기술을 통해 통합됩니다. 센서 융합이 중요한 이유는 하나의 센서만 사용할 경우, 오차가 발생하거나 정보가 불완전할 수 있기 때문에 여러 센서의 데이터를 통합하고 보완함으로써 보다 정확하고 신뢰할 수 있는 환경 정보를 생성할 수 있습니다. 이처럼 Perception 단계에선 단순히 감지만 하는 것이 아니라 여러 센서의 협력과 통합을 통해 상황을 정확히 파악하는 것이 핵심이라고 할 수 있습니다.

피지컬 AI의 두 번째 핵심 단계인 Cognitive에 대해 설명을 시작하겠습니다.
Cognitive 단계에서는 크게 물리모델 -> 의사결정 -> 적응학습 이 세가지 과정으로 나뉩니다.
먼저 물리 모델은 로봇이 실제로 움직이기 전에 중력, 마찰력, 충돌과 같은 물리적 현상을 *수학적 모델로 시뮬레이션 합니다. 이러한 물리 모델을 통해 로봇이 어떤 환경에서 어떻게 반응할지를 미리 예측하고 검증할 수 있습니다. (*실제 환경에서 일어나는 힘, 움직임 접촉 등 물리 현상을 수학 공식이나 방정식으로 표현해 컴퓨터가 이해하고 시뮬레이션할 수 있게 만든것)
다음은 의사 결정 단계로, 해당 단계에서는 센서 데이터인 거리, 속도, 온도와 같은 정보와 시뮬레이션 모델 로봇의 움직임, 충돌 상황 등을 결합하여, 현재 상황을 평가하고, 목표를 달성하기 위한 최적의 행동을 결정합니다. 즉, 현실 세계에서 지금 어떤 일이 일어나고 있는지 판단을 하고, 상황에 맞춰 가장 적절한 반응을 선택하는 것입니다.
마지막 단계는 적응 학습입니다. 여기서는 기계학습(머신러닝)과 강화학습(리인포스먼트 러닝)을 통해 로봇이 환경 변화에 스스로 적응합니다. 즉, 경험 데이터를 기반으로 오류를 수정하고, 반복적인 학습을 통해 성능을 계속해서 향상 시킬 수 있게 됩니다. 이처럼 Cognitive 단계는 단순히 생각하는 범위를 넘어 물리 기반의 판단을 하고 실제 환경을 맞춘 결단을 내리면서 경험을 통한 적응까지 이루어지는 지능의 핵심 과정이라 말 할 수 있습니다.

피지컬 AI의 마지막 단계인 Action 단계입니다. Action 단계는 실제로 로봇이 물리적으로 움직이고 환경과 상호작용하는 과정으로, 이동 제어(Motion Control), 로봇 구동기(Robot Actuators), 힘의 적용(Force Application) 이렇게 세가지 단계로 구성이 됩니다.
먼저 이동 제어 알고리즘은 로봇의 위치, 속도, 가속도 등을 계획하고 제어하여, 원하는 동작을 정확하게 수행할 수 있도록 합니다. 다시 말해서 로봇이 어떻게 어디로 얼마나 빠르게 움직일지를 설계하는 단계입니다.
다음은 로봇 구동기로 이 장치는 전기, 유압, 공압 등 다양한 에너지원을 이용하여 모더나 관절을 작동시킵니다. 이를 통해서 로봇은 실제로 팔을 뻗거나, 걷거나, 물체를 집는 등의 물리적 행동을 수행할 수 있습니다.
Action의 마지막 단계인 힘의 적용으로, 말 그대로 힘을 외부에 적용하는 과정입니다. 로봇이 실제로 물체를 밀거나, 잡거나 하는 물리적 힘을 외부 환경에 적용시키고, 그 결과에 따라 반응을 조정하여 안정적이고 효과적인 작업 수행이 가능하도록 만드는 것입니다.
전체적으로 Action 단계에서는 Cognitive 단계에서 결정한 내용을 실제 로봇의 움직임과 힘으로 구현하게 되며, 이 과정을 통해 피지컬 AI는 현실 세계와 물리적으로 상호작용하게 됩니다.

기존의 전통적인 AI가 생각하는 소프트웨어라면 피지컬 AI는 직접 생각하고 행동하는 지능형 기계라고 표현할 수 있습니다. 즉, 소프트웨어에서만 머무르던 AI가 실제 세상과 물리적으로 연결된다는 점이 핵심입니다.
먼저 형태 부분부터 살펴보겠습니다. 전통적인 AI는 소프트웨어 기반으로, 가상환경에서만 동작합니다. 하지만 피지컬 AI는 하드웨어와 통합되어 실제 물리 환경과 상호작용하는 차이점이 있습니다.
입력 데이터 부분에서 전통적인 AI는 텍스트, 음성, 이미지 처럼 디지털 정보를 입력으로 받고, 피지컬 AI는 온도, 거리, 압력, 터치 등 센서 기반의 물리적 데이터를 입력으로 받습니다.
출력/행동 부분에서 전통적인 AI는 텍스트 생성, 예측, 분류등 소프트웨어적인 결과를 출력하는 반면에 피지컬 AI는 움직임, 조작, 물리적 힘의 작용처럼 실제 행동을 수행합니다. 각 예시로는 챗봇, 추천 시스템, 번역기, 이미지 생성기 같은것을 전통적인 AI의 예로 들 수 있고, 자율주행차, 로봇 팔, 휴머노이드, 드론등을 피지컬 AI의 예로 들 수 있습니다.
마지막으로 환경과의 상호작용 부분에서의 차이점은 보통 화면속 결과로만 나타나고 실제 환경에서는 관여하지 않는것이 전통적인 AI라면, 피지컬 AI는 실시간으로 반응하고, 실제 환경과 물리적으로 상호작용할 수 있습니다. 이렇게 피지컬 AI는 기존의 전통적인 AI와 다르게 생각만 하는 AI를 넘어서, 실제로 행동하고 반응하는 AI로 확장된 개념이라고 볼 수 있습니다. 이러한 차이 덕분에 피지컬 AI는 산업 현장, 물류, 의료 서비스 등에서 직접적으로 실제 환경과 물리적으로 상호작용을 하는 역할을 수행할 수 있게 됩니다.

피지컬 AI는 크게 5가지의 특징으로 정리 할 수 있었습니다.
첫번째로는 자율성입니다. 피지컬 AI는 센서와 AI 알고리즘을 통해 환경을 스스로 인식하고, 외부 명령 없이도 스스로 판단하여 행동할 수 있는 자율성을 가집니다. (예: 자율 주행차, 무인 드론, AI로봇 등에서 활용되는 특징)
두번째는 적응성입니다. 딥러닝과 강화학습을 통해, 환경 변화에 따라 최적의 행동을 학습하고 적응할 수 있습니다. (예: 공장 로봇, 의료 로봇 등이 이에 해당)
세번째는 상호작용성입니다. 피지컬 AI는 사람과 자연스럽게 소통하고 협력할 수 있는 능력을 갖추고 있습니다. 이로 인해 인간과의 협업이 가능해지고, 사용자의 요구를 실시간으로 반영할 수 있게 됩니다. (예: AI 음성 비서, 반려 로봇 등에 활용)
네번째는 지능형 물리 행동입니다. 피지컬 AI는 단순 명령 수행을 넘어서서, 주변 환경을 고려하여 최적의 행동을 수행합니다. (예: 장애물을 피하면서 이동하는 자율주행 로봇이 대표적)
마지막 다섯번째는 연결성입니다. IoT및 클라우드 기술과 결합되어, 데이터 분석 및 원격 제어가 가능합니다. 이로 인해서 피지컬 AI는 스마트 팩토리나 스마트 시티와 같은 환경에서 강력한 기능을 발휘합니다. (IoT: 현실 세계의 물리적 기계에 인터넷이 연결되어 데이터를 주고 받고, 제어하는 기술.) (클라우드: 인터넷을 통해 서버, 스토리지, 컴퓨팅 파워, AI 분석 등을 제공하는 서비스 기반 기술)
이렇게 5가지 특징을 바탕으로, 피지컬 AI는 단순한 자동화를 넘어 지능적으로 행동하고, 환경에 적응하며, 인간과 협력할 수 있는 차세대 AI 기술로 주목 받고 있습니다.

피지컬 AI에서 사용되는 핵심 기술들중 먼저 AI 알고리즘에 대해 설명을 드리겠습니다. 피지컬 AI가 환경을 인식하고, 계획을 세우고, 복잡한 상황에서 스스로 판단하고 행동할 수 있도록 만드는 핵심 기술이 바로 AI 알고리즘입니다. 특히, 방대한 데이터를 학습하고, 이를 기반으로 자율적인 판단과 행동을 수행하는 능력이 중요한데, 이것이 기존 고정된 명령 수행에서 벗어나, 유동적이고 예측 불가능한 현실 상황에서도 실시간으로 판단할 수 있게 해줍니다. 이러한 AI 알고리즘 중 하나로 주목받는 것이 바로 강화학습입니다. 강화학습은 피지컬 AI가 시행착오를 통해 최적의 행동을 학습하는 방식으로, 특히 동적인 환경에서도 적절한 판단을 내릴 수 있도록 도와줍니다. (예를 들어, 자율주행 로봇이 장애물을 피하면서 경로를 학습하는 과정에 적용됩니다.)
또 다른 하나는 언어-시각-행동 정보를 결합하는 VLA(Vision Language Action)모델입니다. 아래 그림을 보시면 기본적인 VLA의 구조인데, 구조를 보시면 이미지 관찰과 언어 명령을 각각 비전 인코더와 언어 인코더가 처리합니다. 이 정보들은 액션 디코더에 의해서 통합이되어, 상황에 맞는 행동으로 이어지게 됩니다. 즉 , 이 모델은 AI가 사람의 말과 시각 정보를 함께 해석하고, 맥락에 맞는 행동을 스스로 설계하도록 돕는 역할을 합니다. 그리고 최근 AI 기술은 단일 입력 정보에서 벗어나 텍스트, 이미지, 음성, 3D 데이터 등을 통합 처리하는 멀티모달 구조로 진화하고 있습니다. 대표적인 예시로는 트랜스포머 기반의 대규모 AI모델로, 정해진 라벨 없이도 대규모 데이터를 학습하여, 사람의 명령을 더 정확히 이해하고, 그에 맞는 행동을 설계할 수 있도록 지원합니다. 이러한 멀티모달 처리 덕분에 피지컬 AI는 사람의 말, 시각적 정보, 공간 정보 등을 모두 종합해서 상황을 판단하고 행동할 수 있게 됩니다.
이렇게 AI 알고리즘은 피지컬 AI가 단순한 반응을 넘어서 지능적으로 주변을 이해하고, 행동 계획을 세우며, 상황에 맞게 반응할 수 있도록 해주는 핵심 기술이라고 할 수 있습니다.

피지컬 AI가 현실 세계를 인식하고 이해하기 위해 사용되는 두 가지 핵심 기술인 컴퓨터 비전과 센서 기술에 대해 설명드리겠습니다. 먼저 컴퓨터 비전은 현실 세계의 시각 정보를 인식하고 해석하는 기술입니다. 이 기술은 피지컬 AI가 사물 인식, 위치 파악, 장면 이해 등을 수행할 수 있도록 도와주며, 이는 곧 경로 계획, 장애물 회피, 상황 인지와 같은 실시간 의사 결정의 기반이 됩니다. 이 예로 오른쪽 하단에 이미지를 보시면, 차량, 사람, 교통 신호 등을 인식해서 어떤 물체가 어디에 있는지를 정확히 파악하는 모습을 보여주고 있습니다.
다음으로는 센서 기술입니다. 센서 기술은 피지컬 AI가 물리적인 특성을 감지하고 이에 반응할 수 있게 해주는 핵심 기술입니다. 센서는 시각, 거리, 자세, 압력, 힘 등 다양한 데이터를 수집하고, 이 데이터를 통합해주는 기술이 Perception 단계에서 말씀드린 센서 퓨전입니다. 이러한 기술 덕분에 피지컬 AI는 주어진 환경을 더 정확하게 인식하고, 상태를 확인하며, 정밀하게 제어하거나 예측 기반 시뮬레이션을 수행할 수 있게 됩니다.

핵심 기반 기술은 엣지 컴퓨팅입니다. 먼저 엣지 컴퓨팅은 중앙 서버에 의존하지 않고, 로컬 디바이스 자체에서 연산과 판단을 수행하는 기술입니다. 그 덕분에 로봇이나 AI 시스템이 빠르게 반응하고, 중단 없이 작동할 수 있는 환경을 만들어 줍니다. 다시 말해, 클라우드에 보내지 않고 기기 내부에서 바로 연산 처리가 가능하기 때문에 네트워크 지연 없이 즉각적인 판단과 동작이 가능해지는 것입니다.
다음으로는 엣지 컴퓨팅이 왜 피지컬 AI에게 필요한 기술인지에 대한 설명을 드리겠습니다. 그 이유는 크게 3가지로 나눌 수 있습니다.
첫째로는 실시간 데이터 처리와 빠른 의사결정이 가능하다는 점입니다. 데이터를 클라우드로 전송하지 않고 로컬에서 직접 처리하기 때문에 응답 시간이 크게 단축되며, 이는 산업용 로봇, 자율 주행차, 의료 로봇 처럼 즉각적인 반응이 필수적인 분야에서 매우 유용합니다.
다음 두번째는 네트워크 트래픽을 줄일 수 있습니다 센서나 카메라로부터 생성되는 대량의 데이터를 모두 클라우드로 전송하게되면 네트워크에 큰 부하가 걸릴 수 있습니다. 하지만 엣지 컴퓨팅은 필요한 정보만 선별하여 전송하기 때문에 트래픽을 줄이고, 네트워크 비용도 절감할 수 있습니다.
마지막 세번째로는 보안성과 개인정보 보호 측면에서도 유리합니다. 민감한 정보를 클라우드에 보내지않고, 로컬에서 처리하기 때문에 보안 위협을 줄일 수 있습니다. 이는 특히, 의료나 스마트홈 등 프라이버시가 중요한 분야에서 매우 효과적입니다. 그래서 엣지 컴퓨팅은 피지컬 AI가 실시간으로 반응하고, 네트워크 자원을 아끼며, 보안까지 강화할 수 있도록 도와주는 필수적인 기술입니다.

설명드릴 핵심기술중 마지막으로 제어와 액추에이터에 대해 설명드리겠습니다.
피지컬 AI가 단순히 판단만 하는 것이 아니라, AI의 결정을 실제 물리적인 움직임으로 바꾸는 핵심 장치가 바로 액추에이터입니다. 이때 중요한것이 CPS 즉 Cyber-Physical System입니다. CPS는 디지털 인식(센서,판단)과 물리적 반응(모터, 움직임)을 연결하는 시스템으로 로봇이 실제 환경에서 실시간으로 감지하고 반응할 수 있게 만들어 줍니다. 그래서 AI의 결정이 단지 이론에 머무르는 것이 아니라 실제 환경과 연결되는 접점이자 실행 인터페이스라고 볼 수 있습니다.
이러한 CPS 기반의 제어 시스템과 결합된 피지컬 AI는, 감지-판단-행동이 하나의 루프로 연결된 실시간 피드백 구조를 갖추고 있어 실시간으로 행동을 조정하고 환경 변화에 적응할 수 있습니다. 여기서 중요한 점은 재프로그래밍 없이도 상황에 따라 바로 행동을 수정할 수 있다는 점입니다.
이는 강화학습과 딥러닝 기반의 제어 알고리즘, 그리고 고도화된 센서-제어기 통합 구조 덕분에 가능해진 것입니다. 또한 최근에는 액추에이터의 정밀도와 유연성도 크게 향상되고 있는데, 이 덕분에 로봇은 보다 정교하고 자연스러운 동작을 수행할 수 있게되었고, 사람과의 상호작용에서도 더 안전하고, 실제 움직임을 정확히 따라갈 수 있게 되었습니다. 특히, 사람의 의도나 움직임을 인식하고 이에 맥락적으로 반응할 수 있어서, 휴면-로봇 상호작용의 품질을 크게 향상 시키는데 중요한 역할을 하고 있습니다.

피지컬 AI는 현재 크게 4가지 유형에 분류되어 활용되고 있습니다.
먼저 첫 번째는 휴머노이드형입니다. 이 타입은 사람과 유사한 형태를 갖춘 피지컬 AI로, *기초 모델, 컴퓨터 비전, 엣지 컴퓨팅, 자율 제어 기술 등이 통합된 고도화된 형태이며, 걷기, 보기, 듣기, 말하기 같은 인간과 유사한 행동을 수행할 수 있습니다. (예시로 밑에 있는 아틀라스 로봇이 산업현장에서 일하는 모습을 보여주고있습니다.) (*여기서 말하는 기초 모델은 GPT와 BERT와 같은 대규모 사전 학습 모델로, 텍스트, 이미지, 센서 데이터를 함께 처리할 수 있는 멀티모달 AI 구조를 의미합니다.)
다음은 자율주행차형입니다. 이 유형은 도로 인식, 고속 시각 처리, 정밀한 경로 제어 기술이 통합된 차량 기반의 피지컬 AI입니다. 복잡한 주행 시나리오에서도 스스로 판단하고 안전하게 주행할 수 있습니다. (예시로는 중국의 Pony ai 처럼 실제 차량에 AI가 탑재되어 차선 인식, 장애물 회피, 상황 판단 등을 수행합니다.)
세번째로는 드론형입니다. 공중에서 자율 비행을 수행할 수 있도록 경량화된 AI와 실시간 공간 인식 센서가 탑재되어 있습니다. 이것을 이용해 장애물 회피, 위치 추적, 자율 착륙 등의 작업을 효율적으로 수행하며 고도 조절 및 안정성도 함께 고려됩니다. (예시로는 퀄컴사의 자율 드론이 있습니다.)
마지막으로 AGV와 AMR타입이 있는 자율 이동 로봇형입니다. AGV는 자기 유도선, QR코드, 마그네틱 테이프 등을 따라 이동하는 고전적인 방식입니다. 주로 창고나 공장처럼 정형화된 환경에서 사용되는 반면에, AMR은 *SLAM 기술과 함께 비전, LiDAR 등을 활용해 동적 환경에서도 지도를 생성하고, 자율적으로 장애물을 피하며 이동할 수 있습니다. (*SLAM은 GPS없이도 동시에 위치 추정과 지도 생성을 수행할 수 있는 기술입니다.) (예시로 왼쪽 빨간 로봇이 AGV 오른쪽이 AMR입니다.) 이처럼 피지컬 AI는 적용 목적과 환경에 따라 여러 유형으로 다양하게 구현되고 있으며, 각 기술 특성에 맞는 하드웨어와 AI 알고리즘이 통합되어 현실 환경에서 직접 작동할 수 있는 지능형 시스템으로 발전하고 있습니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

메모장

Physical AI란 무엇인가?

티스토리툴바