Nuestros ordenadores hacen lo que queremos, pero lo hacen por pasos y siempre tras nuestra interacción distinta. Si queremos borrar un fichero tenemos que abrir el explorador de ficheros, ir a la carpeta donde está, seleccionarlo y enviarlo a la papelera. ¿Qué pasaría si pudieramos decirle con una sola orden al ordenador simplemente que encontrase el fichero y lo borrase?
Eso es lo que plantea la función ‘Computer Use’ de Claude, el chatbot de Anthropic. Presentada esta semana en formato casi experimental, esta característica permite darle órdenes a nuestro ordenador para que haga cosas que normalmente necesitaríamos hacer con ratón y teclado.
Se trata de una de las demostraciones más convincentes que hemos visto de cómo los agentes de IA pueden efectivamente simplificar nuestra vida. De los chatbots que nos dan respuestas («este es un buen hotel») podemos pasar a agentes que hagan cosas con esas respuestas («te he reservado este hotel para el sábado»). El cambio de paradigma es brutal.
Esto nos hace reflexionar sobre el futuro, donde nuestros ordenadores y especialmente nuestros móviles nos resolverán la vida en cierta medida. Se convertirán en secretarios/mayordomos a los que pedirles cosas como si se las estuviéramos pidiendo a un secretario humano.
La magia radica en algo que parece trivial pero no lo es: los nuevos sistemas de IA de Anthropic pueden ver lo que hay en pantalla, reconocerlo y realizar acciones con ratón y teclado.
Es algo similar a lo que Microsoft plantea con Windows Recall o Google propone con su nueva opción de Pixel Screenshots, ya que en ambos casos se sacan capturas de pantalla para reconocer, etiquetar y analizar información de esas capturas. En estos casos, el objetivo es poder consultar esa información. Con «Computer Use» lo que podemos hacer es actuar sobre ella, lo que representa un avance significativo.
Algunos usuarios ya han mostrado su potencial
Por el momento, la propuesta de Anthropic se puede probar de forma limitada para evitar problemas. Como explicaba en sus pruebas el experto Simon Willison, la función se utiliza dentro de un contenedor de Docker con Ubuntu 22.04 preconfigurado con varias aplicaciones y un servidor VNC, que es el que permite que veamos todo en nuestra pantalla.
Él realizó algunas pruebas sencillas como navegar a su sitio web y buscar si había escrito algo sobre «pelícanos», compilar y ejecutar el típico «Hello World» en C, instalar el paquete ffmpeg en Ubuntu o intentar solucionar un Sudoku, algo en lo que Claude por lo visto fracasó estrepitosamente.
Estas pruebas, realizadas con el entorno aislado de Anthropic, pronto se han quedado en algo curioso pero que ha demostrado que se puede ir mucho más allá. Mckay Wrigley, un experto en IA, mostraba en un vídeo en X (antes Twitter) cómo había logrado controlar su iPhone al conectarlo a su MacBook Pro en modo espejo y luego utilizar comandos para hacer distintas cosas sobre la pantalla del móvil.
Los ejemplos que muchos usuarios han compartido en plataformas como X son llamativos y demuestran dos cosas. La primera, que esta tecnología tan solo está dando sus primeros pasos y por tanto tiene limitaciones importantes tanto en velocidad como en capacidad. La segunda, que su potencial es enorme.
Lo vemos por ejemplo en las pruebas que un usuario hacía al intentar lograr que el chatbot jugase a Doom de forma autónoma, otro que lo probó en combinación con Figma para diseño de una interfaz de usuario, otro que pidió una pizza, u otro que creó una aplicación para Windows, macOS y Linux con la que controlar nuestro ordenador.
Otro desarrollador llamado simplemente ‘killian’ en X demostraba cómo herramientas ya conocidas como open-interpreter (que permite ejecutar código con grandes modelos de lenguaje como el de Claude) se puede combinar con esta nueva función de Computer Use. El resultado: salirte del entorno aislado de Anthropic para, efectivamente, automatizar cosas en tu propio ordenador.
Este desarrollador avisaba: la interacción no es especialmente rápida, y Claude se toma su tiempo antes de hacer cada cosa porque tiene que analizar toda la pantalla e ir poco a poco ejecutando las acciones que teóricamente van a dar como resultado eso que le hemos pedido.
Hay otro factor importante aquí: el coste. Para poder usar todas estas funciones necesitaremos créditos de Claude, y esos créditos cuestan dinero. Un usuario apodado «near» en X mostraba cómo había encargado su comida con la plataforma Doordash desde su portátil, pero lograrlo —unos 15 minutos de uso del agente— implicó consumir 2,5 millones de tokens en Claude 3.5 Sonnet. El precio actual de esa API es de 15 dólares por cada millón de tokens de salida (3 dólares para los tokens de entrada, sus peticiones), así que pedir esa comida le salió bastante cara.
A pesar de ello, es normal que estos primeros experimentos sean costosos: la tecnología está aún algo verde y su consumo de recursos es notable. Sin embargo, es de esperar que tanto la eficiencia como el coste mejoren de forma notable, lo que teóricamente hará que tengamos acceso a opciones mucho más potentes en los próximos meses. Esa parece desde luego ser una de las apuestas de Anthropic con esta propuesta, y desde luego la opción es muy, muy prometedora.
Imagen | Danhasnotes con Midjourney
En Xataka | Microsoft comienza a ofrecer agentes de IA autónomos. De momento son recetas IFTTT hipervitaminadas