Anthropic ha lanzado una versión mejorada de Claude 3.5 Sonnet que puede tomar el control de tu PC para concretar varias tareas a través de la nueva función ‘computer use’.
Anthropic ha lanzado una versión mejorada de Claude 3.5 Sonnet, su modelo de inteligencia artificial más potente, y llega acompañado de una interesante novedad: computer use. Se trata de una función, disponible a través de la API, que le permite a la IA tomar el control de un ordenador para concretar varias tareas.
Dicho de esta forma puede que no suene demasiado relevante o sorprendente, pero realmente lo es. Básicamente, computer use permite que Claude 3.5 Sonnet pueda interactuar directamente con el ordenador y sus aplicaciones, imitando acciones que habitualmente realizan las personas.
Esto significa que la inteligencia artificial de Anthropic puede identificar la información en pantalla e identificarla para luego mover el cursor del ratón, escribir texto, navegar por un documento o una página web o pulsar botones, entre otras actividades.
Lo nuevo de Claude 3.5 Sonnet es una función experimental y está disponible a modo de beta pública. De acuerdo con Anthropic, su modelo de lenguaje es el primero en el mercado en ofrecer esta función. Y si bien la compañÃa advierte que todavÃa queda mucho trabajo por hacer y que en su estado actual computer use todavÃa es bastante propenso a los errores, es un punto de partida prometedor.
¿Cómo funciona computer use en Claude 3.5 Sonnet?
La API de computer use le permite a Claude 3.5 Sonnet interactuar con interfaces de ordenadores y completar acciones a partir de un prompt de texto. En un vÃdeo mostrando esta nueva función, Anthropic mostró que la herramienta puede extraer información de un documento o la web para rellenar los distintos campos de un formulario en lÃnea.
YouTube video
Lo que hace la inteligencia artificial es tomar capturas de pantalla de lo que ven los usuarios y analizarlas para comprender el entorno. En la demo en cuestión, le piden a Claude 3.5 Sonnet que encuentre los datos necesarios en una hoja de cálculo de Google, o que los busque en una base de datos en la web.
Como la información no está en el documento, la IA cambia automáticamente de pestaña del navegador y realiza la búsqueda por su cuenta. Una vez que encuentra lo que necesita, incluso haciendo scrolling en la página de resultados, transfiere los datos al formulario y los completa tal y como lo harÃa una persona.
Por supuesto que hablamos de una prueba que se ha realizado en un entorno controlado, asà que las posibilidades de error son más bajas. De todos modos, lo que puede hacer el nuevo Claude 3.5 Sonnet de la mano de computer use es impresionante. En el vÃdeo pueden ver que a la izquierda de la pantalla se genera una lista con cada paso y acción que completa por su cuenta cuando interactúa con el ordenador (un Mac en este caso).
Para los ingenieros de Anthropic, lograr que computer use funcione con la nueva versión de Claude 3.5 Sonnet no fue nada sencillo y requirió de mucha prueba y error. En su blog oficial han publicado un resumen de cómo abordaron la investigación y el desarrollo de esta caracterÃstica, y es muy interesante. Aquà una breve explicación general de su funcionamiento:
"Cuando un desarrollador le pide a Claude que use un software y le otorga el acceso necesario, Claude observa capturas de pantalla de lo que es visible para el usuario y luego cuenta cuántos pÃxeles necesita mover el cursor vertical u horizontalmente para hacer clic en el lugar correcto. Entrenar a Claude para que contara los pÃxeles con precisión fue fundamental. Sin esta habilidad, al modelo le resulta difÃcil dar órdenes con el mouse, de manera similar a cómo los modelos a menudo tienen dificultades con preguntas aparentemente simples como '¿Cuántas A tiene la palabra banana?'.
[...] Aún queda mucho por hacer. A pesar de que se trata de la tecnologÃa de punta, la función computer use de Claude sigue siendo lenta y propensa a errores. Hay muchas acciones que la gente hace rutinariamente con las computadoras (arrastrar, hacer zoom, etc.) que Claude aún no puede intentar. La naturaleza de 'libro animado' de la vista de la pantalla de Claude (toma capturas de pantalla y las junta, en lugar de observar una secuencia de video más granular) significa que puede pasar por alto acciones o notificaciones de corta duración".
Anthropic.
Anthropic afirma que computer use en Claude 3.5 Sonnet se está desarrollando con un fuerte enfoque en la seguridad. La compañÃa reconoce que esta función podrÃa llegar a usarse para fines fraudulentos, de desinformación o spam, y por ello ha trabajado en nuevas protecciones. Por ejemplo, ha desarrollado un sistema que puede detectar si se está usando computer use y si su implementación podrÃa tener fines maliciosos.
De todos modos, advierten que la nueva función de Claude 3.5 Sonnet no es capaz de funcionar a gran escala o a un nivel avanzado como para representar una amenaza en lo inmediato.
No hay comentarios:
Publicar un comentario