Робот на базе чат-бота от Google DeepMind — часть более масштабной революции
Фото: kolibri.press
Исследователи в области робототехники изучают, как большие языковые модели могут сделать физические машины более интеллектуальными.
В загроможденном офисе с открытой планировкой в Маунтин-Вью, Калифорния, высокий и стройный колесный робот был занят игрой в гида и неформального помощника в офисе — благодаря большому обновлению языковой модели, как показала сегодня компания Google DeepMind . Робот использует последнюю версию большой языковой модели Gemini от Google как для анализа команд, так и для поиска пути.
Например, когда человек говорит: «Найди мне место, где можно писать», робот послушно уезжает, ведя человека к безупречно чистой доске, расположенной где-то в здании.
Способность Gemini обрабатывать видео и текст — в дополнение к его способности поглощать большие объемы информации в виде ранее записанных видеотуров по офису — позволяет роботу «помощнику Google» понимать свое окружение и правильно ориентироваться, когда ему дают команды, требующие некоторого здравого смысла. Робот объединяет Gemini с алгоритмом, который генерирует определенные действия для робота, такие как поворот, в ответ на команды и то, что он видит перед собой.
Когда в декабре был представлен Gemini, Демис Хассабис, генеральный директор Google DeepMind, сказал WIRED , что его мультимодальные возможности, вероятно, откроют новые возможности робота. Он добавил, что исследователи компании усердно работают над тестированием роботизированного потенциала модели.
В новой статье, описывающей проект, исследователи, стоящие за работой, говорят, что их робот доказал свою надежность в навигации до 90 процентов, даже при выполнении сложных команд, таких как «Где я оставил свою горку?» Система DeepMind «значительно улучшила естественность взаимодействия человека и робота и значительно увеличила удобство использования робота», пишет команда.
Демонстрация наглядно демонстрирует потенциал больших языковых моделей для проникновения в физический мир и выполнения полезной работы. Gemini и другие чат-боты в основном работают в рамках веб-браузера или приложения, хотя они все больше способны обрабатывать визуальный и слуховой ввод, как недавно продемонстрировали Google и OpenAI . В мае Хассабис продемонстрировал обновленную версию Gemini , способную осмысливать планировку офиса, видимую через камеру смартфона.
Фото: overclockers.ru
Академические и промышленные исследовательские лаборатории соревнуются в том, как языковые модели могут быть использованы для улучшения способностей роботов. Майская программа Международной конференции по робототехнике и автоматизации, популярного мероприятия для исследователей робототехники, содержит список почти двух десятков статей, в которых используются модели языка зрения.
В своей статье исследователи говорят, что планируют протестировать систему на разных типах роботов. Они добавляют, что Gemini должен уметь понимать более сложные вопросы, например, «Есть ли у них сегодня мой любимый напиток?» от пользователя, на столе которого много пустых банок из-под колы.