news-28102024-162033

Anthropic, en sus planes para competir con OpenAI, acaba de anunciar el lanzamiento de una versión mejorada de su modelo Claude 3.5 Sonnet que puede interactuar con cualquier aplicación del ordenador de un usuario. A través de una nueva API de «uso de ordenador», ahora disponible en versión beta abierta, el modelo es capaz de emular pulsaciones de teclas, clics de botones y gestos del ratón o del trackpad, emulando esencialmente a un usuario sentado frente a un ordenador.

El entrenamiento del algoritmo incluye que pueda ver los procesos que tienen lugar en una pantalla, y que posteriormente pueda utilizar las herramientas disponibles para llevar a cabo tareas, de manera que cuando un desarrollador pide a Claude que utilice un programa determinado y le otorga el acceso necesario, Claude puede recurrir a capturas de pantalla de lo que es visible para el usuario, contar cuántos píxeles necesita mover vertical u horizontalmente el cursor, y hacer clic en el lugar adecuado.

El algoritmo pasa a ser así un agente para el usuario capaz de emular prácticamente cualquier tarea, aunque se lleve a cabo utilizando distintas herramientas. Una idea que algunos académicos llevan ya algún tiempo avanzando y comentando, y que Cory Doctorow describe como «agentes del usuario» leales al mismo, capaces, por ejemplo, de gestionar las preferencias de un navegador para que la carga de las páginas se lleve a cabo como a él le interesan (si quieres bloquear los anuncios, usar determinadas combinaciones de colores que te resulten más fáciles de ver, eliminar las cookies tras la visita, logarte de una manera determinada, etc.), siempre dando preferencia al usuario frente a lo que las páginas proponen.

Anthropic denomina a su interpretación del concepto de agente de inteligencia artificial como una «capa de ejecución de acciones» que permite al algoritmo ejecutar comandos a nivel de escritorio, y que además, gracias a su capacidad para acceder a recursos a través de la web, que es la primera versión de Claude que tiene, puede utilizar cualquier sitio o aplicación web e introducir datos en ellas. La idea de automatización, pero llevada a un nivel «sensible» y siempre con el control del usuario.

Por el momento, en acciones como cambiar una reserva de un vuelo, el algoritmo se ha mostrado todavía relativamente torpe y con algunos errores en su ejecución, pero hablamos de lo de siempre en inteligencia artificial: procesos que van mejorando a medida que el algoritmo va recibiendo más retroalimentación del usuario que incide en su proceso de entrenamiento.

Algunos potenciales problemas de un proceso de ese tipo estriban, por ejemplo, en lo que ocurre con la información capturada de la pantalla del usuario, y si esa información podría llegar a un tercero como la policía si es demandada mediante un proceso legal válido, algo que Anthropic no puede afirmar que no llegue a ocurrir en algunos casos. Para evitar ese tipo de problemas potenciales, la compañía propone una evaluación y mejora continua de nuestras medidas de seguridad, y el aislamiento de Claude de datos especialmente sensibles del ordenador.

Estamos, obviamente, en los primeros estadios de desarrollo de este tipo de tecnologías, pero sin duda, nos dirigimos a un futuro en el que un usuario tendrá y manejará de manera habitual agentes de todo tipo para distintas tareas que quiera llevar a cabo. Y resulta como mínimo interesante echarle imaginación y empezar a plantearse las circunstancias y el contexto en las que esas interacciones con nuestros agentes particulares irán teniendo lugar.