O software usado para controlar um robô é normalmente altamente adaptado à sua configuração física específica. Mas agora os pesquisadores criaram uma única política de controle robótico de propósito geral que pode operar braços robóticos, robôs com rodas, quadrúpedes e até drones.
Um dos maiores desafios quando se trata de aplicar machine learning à robótica é a escassez de dados. Enquanto a visão computacional e o processamento de linguagem natural podem aproveitar as vastas quantidades de dados de imagem e texto encontrados na Internet, coletar dados de robôs é custoso e demorado.
Para contornar isso, tem havido esforços crescentes para reunir dados coletados por diferentes grupos em diferentes tipos de robôs, incluindo os conjuntos de dados Open X-Embodiment e DROID. A esperança é que o treinamento em dados diversos de robótica leve à “transferência positiva”, que se refere a quando as habilidades aprendidas com o treinamento em uma tarefa ajudam a impulsionar o desempenho em outra.
O problema é que os robôs geralmente têm formas de realização muito diferentes — um termo usado para descrever seu layout físico e conjunto de sensores e atuadores — então os dados que eles coletam podem variar significativamente. Por exemplo, um braço robótico pode ser estático, ter um arranjo complexo de articulações e dedos e coletar vídeos de uma câmera em seu pulso. Em contraste, um robô quadrúpede está regularmente em movimento e depende do feedback de força de suas pernas para manobrar. Os tipos de tarefas e ações que essas máquinas são treinadas para realizar também são diversos: o braço pode pegar e colocar objetos, enquanto o quadrúpede precisa de navegação aguçada.
Isso torna o treinamento de um único modelo de IA nessas grandes coleções de dados desafiador, diz Homer Walke, um aluno de doutorado na Universidade da Califórnia, Berkeley. Até agora, a maioria das tentativas se concentrou em dados de uma seleção mais restrita de robôs semelhantes ou os pesquisadores ajustaram manualmente os dados para tornar as observações de diferentes robôs mais semelhantes. Mas em uma pré-impressão recente publicada no arXiv, Walke e colegas revelaram um novo modelo chamado CrossFormer que pode treinar em dados de um conjunto diversificado de robôs e controlá-los tão bem quanto políticas de controle especializadas.
“Queremos ser capazes de treinar com todos esses dados para obter o robô mais capaz”, diz Walke. “O principal avanço neste artigo é descobrir que tipo de arquitetura funciona melhor para acomodar todas essas entradas e saídas variáveis.”
Como controlar diversos robôs com o mesmo modelo de IA
A equipe usou a mesma arquitetura de modelo que alimenta o modelo de linguagem grande, conhecido como transformador. De muitas maneiras, o desafio que os pesquisadores estavam tentando resolver não é diferente daquele enfrentado por um chatbot, diz Walke. Na modelagem de linguagem, a IA tem que escolher padrões semelhantes em frases com diferentes comprimentos e ordens de palavras. Os dados do robô também podem ser organizados em uma sequência muito parecida com uma frase escrita, mas dependendo da forma de realização específica, as observações e ações variam em comprimento e ordem também.
“Palavras podem aparecer em diferentes locais em uma frase, mas ainda significam a mesma coisa”, diz Walke. “Em nossa tarefa, uma imagem de observação pode aparecer em diferentes locais na sequência, mas ainda é fundamentalmente uma imagem e ainda queremos tratá-la como uma imagem.”
Universidade da Califórnia em Berkeley/Universidade Carnegie Mellon
A maioria das abordagens de machine learning trabalha por meio de uma sequência, um elemento de cada vez, mas os transformadores podem processar todo o fluxo de dados de uma vez. Isso permite que eles analisem o relacionamento entre diferentes elementos e os torna melhores em lidar com sequências que não são padronizadas, muito parecidas com os dados diversos encontrados em grandes conjuntos de dados de robótica.
Walke e seus colegas não são os primeiros a treinar transformadores em dados de robótica em larga escala. Mas abordagens anteriores treinaram somente em dados de braços robóticos com personificações amplamente semelhantes ou converteram manualmente dados de entrada para um formato comum para facilitar o processamento. Em contraste, o CrossFormer pode processar imagens de câmeras posicionadas acima de um robô, na altura da cabeça ou no pulso de um braço robótico, bem como dados de posição articular de quadrúpedes e braços robóticos, sem nenhum ajuste.
O resultado é uma política de controle única que pode operar braços robóticos individuais, pares de braços robóticos, quadrúpedes e robôs com rodas em tarefas tão variadas quanto pegar e colocar objetos, cortar sushi e evitar obstáculos. Crucialmente, ele correspondeu ao desempenho de modelos especializados adaptados para cada robô e superou abordagens anteriores treinadas em dados robóticos diversos. A equipe até testou se o modelo poderia controlar uma forma de realização não incluída no conjunto de dados — um pequeno quadricóptero. Embora eles tenham simplificado as coisas fazendo o drone voar em uma altitude fixa, o CrossFormer ainda superou o melhor método anterior.
“Isso foi definitivamente muito legal”, diz Ria Doshi, uma estudante de graduação em Berkeley. “Acho que, à medida que ampliamos nossa política para poder treinar em conjuntos ainda maiores de dados diversos, ficará mais fácil ver esse tipo de transferência de tiro zero para robôs que foram completamente invisíveis no treinamento.”
As limitações de um modelo de IA para todos os robôs
A equipe admite que ainda há trabalho a ser feito, no entanto. O modelo é grande demais para qualquer um dos chips incorporados dos robôs e, em vez disso, precisa ser executado a partir de um servidor. Mesmo assim, os tempos de processamento são apenas rápidos o suficiente para suportar a operação em tempo real, e Walke admite que isso pode quebrar se eles aumentarem a escala do modelo. “Quando você coloca tantos dados em um modelo, ele precisa ser muito grande e isso significa que executá-lo para controle em tempo real se torna difícil.”
Mais importante, a equipe não conseguiu ver nenhuma transferência positiva em seus experimentos, pois o CrossFormer simplesmente igualou o desempenho anterior em vez de excedê-lo. Walke acha que o progresso na visão computacional e no processamento de linguagem natural sugere que o treinamento em mais dados pode ser a chave.
Outros dizem que pode não ser tão simples. Jeannette Bohg, professora de robótica na Universidade de Stanford, diz que a capacidade de treinar em um conjunto de dados tão diverso é uma contribuição significativa. Mas ela se pergunta se parte da razão pela qual os pesquisadores não viram transferência positiva é sua insistência em não alinhar os dados de entrada. Pesquisas anteriores que treinaram em robôs com dados de observação e ação semelhantes mostraram evidências de tais cruzamentos. “Ao se livrar desse alinhamento, eles também podem ter se livrado dessa transferência positiva significativa que vimos em outros trabalhos”, diz Bohg.
Também não está claro se a abordagem aumentará o desempenho em tarefas específicas para determinadas personificações ou aplicações robóticas, diz Ram Ramamoorthy, professor de robótica na Universidade de Edimburgo. O trabalho é um passo promissor para ajudar os robôs a capturar conceitos comuns à maioria dos robôs, como “evitar esse obstáculo”, diz ele. Mas pode ser menos útil para lidar com problemas de controle específicos de um robô em particular, como amassar massa ou navegar em uma floresta, que geralmente são os mais difíceis de resolver.
Artigos do seu site
Artigos relacionados na Web
[ad_2]