Nova estrutura permite movimentos ágeis semelhantes aos de animais em robôs de quatro patas

 

Um modelo hierárquico para atingir movimentos ágeis semelhantes aos de animais em robôs quadrúpedes
Uma visão geral da estrutura do método proposto. Inicialmente, treinamos um PMC para imitar movimentos de animais usando embeddings latentes discretos (Estágio 1). O decodificador do PMC é reutilizado para treinar controladores de nível ambiental para caminhada geral, recuperação de queda, rastejamento em espaço estreito e travessia de obstáculos, blocos e escadas separadamente, que são compactados em um controlador uniforme de nível ambiental por destilação multiespecialista (Estágio 2). No estágio final, reutilizamos as redes de nível ambiental e primitivo pré-treinadas para treinar uma rede de nível estratégico para resolver um jogo de perseguição multiagente projetado (Estágio 3). Crédito: Natureza Máquina Inteligência (2024). DOI: 10.1038/s42256-024-00861-3

Animais de quatro patas são inatamente capazes de movimentos ágeis e adaptáveis, o que lhes permite se mover em uma ampla gama de terrenos. Nas últimas décadas, roboticistas em todo o mundo têm tentado reproduzir efetivamente esses movimentos em robôs quadrúpedes (ou seja, de quatro patas).

Descobriu-se que modelos computacionais treinados via aprendizado por reforço alcançam resultados particularmente promissores para permitir locomoção ágil em robôs quadrúpedes. No entanto, esses modelos são tipicamente treinados em ambientes simulados e seu desempenho às vezes declina quando são aplicados a robôs reais em ambientes do mundo real.

Abordagens alternativas para realizar a locomoção ágil de quadrúpedes utilizam filmagens de animais em movimento coletadas por sensores de movimento e câmeras como demonstrações, que são usadas para treinar controladores (ou seja, algoritmos para executar os movimentos de robôs). Essa abordagem, chamada de “aprendizagem por imitação”, foi descoberta para permitir a reprodução de movimentos semelhantes aos de animais em alguns robôs quadrúpedes.

Pesquisadores da Tencent Robotics X na China introduziram recentemente uma nova estrutura hierárquica que poderia facilitar a execução de movimentos ágeis semelhantes aos de animais em robôs de quatro patas. Esta estrutura, introduzida em um artigo publicado em Natureza Máquina Inteligênciafoi inicialmente aplicado a um robô quadrúpede chamado MAX, produzindo resultados altamente promissores.

“Vários esforços foram feitos para atingir locomoção ágil em robôs quadrúpedes por meio de controladores clássicos ou abordagens de aprendizado por reforço”, Lei Han, Qingxu Zhu e seus colegas escreveram em seu artigo. “Esses métodos geralmente dependem de modelos físicos ou recompensas artesanais para descrever com precisão o sistema específico, em vez de uma compreensão generalizada como os animais fazem. Propomos uma estrutura hierárquica para construir conhecimento de nível primitivo, ambiental e estratégico que seja pré-treinável, reutilizável e enriquecível para robôs com pernas.”

O desempenho de todas as políticas treinadas em simulação. Crédito: Natureza Máquina Inteligência (2024). DOI: 10.1038/s42256-024-00861-3

A nova estrutura proposta pelos pesquisadores abrange três estágios de aprendizado por reforço, cada um dos quais foca na extração de conhecimento em um nível diferente de tarefas de locomoção e percepção do robô. O controlador da equipe em cada um desses estágios de aprendizado é chamado de controlador motor primitivo (PMC), controlador motor ambiental-primitivo (EPMC) e controlador motor estratégico-ambiental-primitivo (SEPMC), respectivamente.

“O módulo primitivo resume o conhecimento de dados de movimento animal, onde, inspirados por grandes modelos pré-treinados em linguagem e compreensão de imagem, introduzimos modelos generativos profundos para produzir sinais de controle motor estimulando robôs com pernas a agirem como animais reais”, escreveram os pesquisadores. “Em seguida, moldamos várias capacidades de travessia em um nível mais alto para alinhar com o ambiente, reutilizando o módulo primitivo. Finalmente, um módulo estratégico é treinado, focando em tarefas complexas de downstream, reutilizando o conhecimento de níveis anteriores.”

Os pesquisadores avaliaram sua estrutura proposta em uma série de experimentos, onde a aplicaram a um robô quadrupedal chamado MAX. Especificamente, dois robôs MAX foram feitos para competir em um jogo do tipo pega-pega e a estrutura foi usada para controlar seus movimentos.

“Aplicamos os controladores hierárquicos treinados ao robô MAX, um robô quadrúpede desenvolvido internamente, para imitar animais, atravessar obstáculos complexos e jogar um jogo de perseguição multiagente desafiador e projetado, onde agilidade e estratégia realistas emergem nos robôs”, escreveu a equipe.

Em seus testes iniciais, os pesquisadores descobriram que seu modelo permitiu que o robô MAX atravessasse com sucesso diferentes ambientes, realizando movimentos ágeis que lembram os dos animais. No futuro, o modelo poderia ser adaptado e aplicado a outros robôs de quatro patas, potencialmente facilitando sua implantação em ambientes do mundo real.

Mais Informações:
Lei Han et al, Agilidade e brincadeira realistas em robôs quadrúpedes usando aprendizagem por reforço e modelos generativos pré-treinados, Natureza Máquina Inteligência (2024). DOI: 10.1038/s42256-024-00861-3

[ad_2]
Fonte – Tech Xplore

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *