El nuevo modelo Helix de Figure integra un enfoque moderno conocido como Vision-Language-Action (VLA), que permite a los robots procesar información tanto visual como a través de lenguaje natural. Esta tecnología se inspira en ejemplos ya establecidos como el sistema RT-2 de Google DeepMind, que combina vídeos y modelos de lenguaje para entrenar a los robots.
Con la capacidad de generalizar objetos, Helix permite que un robot reconozca y manipule diversos artículos del hogar, desde diferentes tamaños y formas hasta materiales nunca previamente utilizados en su entrenamiento. Gracias a esto, los usuarios pueden interactuar con el robot mediante órdenes de voz para que realice tareas específicas en su hogar.
Además, Helix está diseñado para gestionar múltiples robots simultáneamente, facilitando la colaboración entre ellos en tareas cotidianas. Por ejemplo, se pueden dar órdenes como pasar un paquete de galletas, lo que refleja un estudio del entorno que realizan previamente para ejecutar de manera efectiva las instrucciones recibidas.
Sin embargo, el camino hacia la integración de los robots en los hogares no está exento de desafíos. Las variaciones en los entornos domésticos y la complejidad de las tareas cotidianas suponen un obstáculo importante. Figure subraya que la programación manual no es sostenible, dado el número de situaciones imprevistas que un robot puede encontrar, lo que requiere un enfoque de entrenamiento intensivo y repetitivo.