Agente IA de Anthropic: Cambiando vidas con inteligencia artificial

Por

octubre 27, 2024

Nuestros ordenadores hacen lo que queremos, pero lo hacen por pasos y siempre tras nuestra interacción distinta. Si queremos borrar un fichero tenemos que abrir el explorador de ficheros, ir a la carpeta donde está, seleccionarlo y enviarlo a la papelera. ¿Qué pasaría si pudieramos decirle con una sola orden al ordenador simplemente que encontrase el fichero y lo borrase?
Eso es lo que plantea la función ‘Computer Use’ de Claude, el chatbot de Anthropic. Presentada esta semana en formato casi experimental, esta característica permite darle órdenes a nuestro ordenador para que haga cosas que normalmente necesitaríamos hacer con ratón y teclado.
Se trata de una de las demostraciones más convincentes que hemos visto de cómo los agentes de IA pueden efectivamente simplificar nuestra vida. De los chatbots que nos dan respuestas («este es un buen hotel») podemos pasar a agentes que hagan cosas con esas respuestas («te he reservado este hotel para el sábado»). El cambio de paradigma es brutal.

Esto nos hace reflexionar sobre el futuro, donde nuestros ordenadores y especialmente nuestros móviles nos resolverán la vida en cierta medida. Se convertirán en secretarios/mayordomos a los que pedirles cosas como si se las estuviéramos pidiendo a un secretario humano.
La magia radica en algo que parece trivial pero no lo es: los nuevos sistemas de IA de Anthropic pueden ver lo que hay en pantalla, reconocerlo y realizar acciones con ratón y teclado.
Es algo similar a lo que Microsoft plantea con Windows Recall o Google propone con su nueva opción de Pixel Screenshots, ya que en ambos casos se sacan capturas de pantalla para reconocer, etiquetar y analizar información de esas capturas. En estos casos, el objetivo es poder consultar esa información. Con «Computer Use» lo que podemos hacer es actuar sobre ella, lo que representa un avance significativo.
Algunos usuarios ya han mostrado su potencial
Por el momento, la propuesta de Anthropic se puede probar de forma limitada para evitar problemas. Como explicaba en sus pruebas el experto Simon Willison, la función se utiliza dentro de un contenedor de Docker con Ubuntu 22.04 preconfigurado con varias aplicaciones y un servidor VNC, que es el que permite que veamos todo en nuestra pantalla.
Él realizó algunas pruebas sencillas como navegar a su sitio web y buscar si había escrito algo sobre «pelícanos», compilar y ejecutar el típico «Hello World» en C, instalar el paquete ffmpeg en Ubuntu o intentar solucionar un Sudoku, algo en lo que Claude por lo visto fracasó estrepitosamente.
Estas pruebas, realizadas con el entorno aislado de Anthropic, pronto se han quedado en algo curioso pero que ha demostrado que se puede ir mucho más allá. Mckay Wrigley, un experto en IA, mostraba en un vídeo en X (antes Twitter) cómo había logrado controlar su iPhone al conectarlo a su MacBook Pro en modo espejo y luego utilizar comandos para hacer distintas cosas sobre la pantalla del móvil.

Los ejemplos que muchos usuarios han compartido en plataformas como X son llamativos y demuestran dos cosas. La primera, que esta tecnología tan solo está dando sus primeros pasos y por tanto tiene limitaciones importantes tanto en velocidad como en capacidad. La segunda, que su potencial es enorme.
Lo vemos por ejemplo en las pruebas que un usuario hacía al intentar lograr que el chatbot jugase a Doom de forma autónoma, otro que lo probó en combinación con Figma para diseño de una interfaz de usuario, otro que pidió una pizza, u otro que creó una aplicación para Windows, macOS y Linux con la que controlar nuestro ordenador.
Otro desarrollador llamado simplemente ‘killian’ en X demostraba cómo herramientas ya conocidas como open-interpreter (que permite ejecutar código con grandes modelos de lenguaje como el de Claude) se puede combinar con esta nueva función de Computer Use. El resultado: salirte del entorno aislado de Anthropic para, efectivamente, automatizar cosas en tu propio ordenador.

Este desarrollador avisaba: la interacción no es especialmente rápida, y Claude se toma su tiempo antes de hacer cada cosa porque tiene que analizar toda la pantalla e ir poco a poco ejecutando las acciones que teóricamente van a dar como resultado eso que le hemos pedido.
Hay otro factor importante aquí: el coste. Para poder usar todas estas funciones necesitaremos créditos de Claude, y esos créditos cuestan dinero. Un usuario apodado «near» en X mostraba cómo había encargado su comida con la plataforma Doordash desde su portátil, pero lograrlo —unos 15 minutos de uso del agente— implicó consumir 2,5 millones de tokens en Claude 3.5 Sonnet. El precio actual de esa API es de 15 dólares por cada millón de tokens de salida (3 dólares para los tokens de entrada, sus peticiones), así que pedir esa comida le salió bastante cara.
A pesar de ello, es normal que estos primeros experimentos sean costosos: la tecnología está aún algo verde y su consumo de recursos es notable. Sin embargo, es de esperar que tanto la eficiencia como el coste mejoren de forma notable, lo que teóricamente hará que tengamos acceso a opciones mucho más potentes en los próximos meses. Esa parece desde luego ser una de las apuestas de Anthropic con esta propuesta, y desde luego la opción es muy, muy prometedora.
Imagen | Danhasnotes con Midjourney
En Xataka | Microsoft comienza a ofrecer agentes de IA autónomos. De momento son recetas IFTTT hipervitaminadas

‘El que no gana no ama’ Capítulo 11: Horario y dónde...

Recurso del fiscal general contra deducciones de la Guardia Civil: anular...

Fernández Díaz niega reunión con Villarejo a pesar del audio sobre...

Encuentro entre Real Jaén y Arenas de Armilla: Sensaciones y arranque.

El impactante testimonio de Caroline Garcia y su retiro del tenis...

Entrenamiento de Thomas Tuchel con Inglaterra antes de la clasificatoria al...

Isa Pantoja corta relación con su madre por falta de interés...

Oferta AliExpress: ASUS ROG Ally más barata que en Black Friday

Irlanda vence a Zimbabue en su tercera victoria consecutiva en pruebas...

Países Bajos multa a Clearview AI por robar fotos de personas...

Canal de Camboya financiado por China: Inicio de obras y controversias

Clínic de wingfoil X-15 con Maksim Oberemko en Vela Ibiza

Tratamiento revolucionario para regenerar dientes será probado en humanos

Brígida, la amiga de Matilde – Avance La Moderna Capítulo 209

Apple continuará brindando soporte a iOS 17 a pesar del lanzamiento de iOS 18

La paternidad de Josh Hartnett: Descubre su nueva etapa como padre

La moto eléctrica de Tom Cruise en los Juegos Olímpicos y Misión Imposible 8 – Híbridos y Eléctricos

LALOLA 2: Fecha y horario de transmisión de la nueva temporada de Bárbara de Regil