Claude Sonnet 5 vs Opus 4.8: qué modelo elige tu pyme

Cada pocas semanas aparece un modelo de IA nuevo que promete cambiarlo todo. El anuncio de Claude Sonnet 5, el modelo más "agéntico" de Anthropic hasta la fecha, es un buen ejemplo: llega con comparativas frente a Sonnet 4.6 y Opus 4.8, benchmarks de programación autónoma y una tabla de precios de API que puede marear a cualquiera. Si diriges una pyme, la pregunta no es cuál es el modelo más potente, sino cuál te da la mejor relación coste-rendimiento para tu caso concreto. Vamos a traducir el anuncio a decisiones de negocio.

Qué cambia en Claude Sonnet 5 frente a Sonnet 4.6

Anthropic presenta Claude Sonnet 5 como su Sonnet más capaz de trabajar de forma autónoma: planifica tareas, usa herramientas como navegadores y terminales, y ejecuta procesos de varios pasos sin supervisión constante. Según la compañía, mejora a su predecesor, Sonnet 4.6, en aspectos clave para el trabajo real: razonamiento, uso de herramientas, programación y tareas de conocimiento.

En la práctica, "más agéntico" significa que el modelo termina tareas complejas donde antes se quedaba a medias y que revisa su propio resultado sin que se lo pidas. Para una empresa, eso se traduce en menos intervención manual en los flujos que decidas automatizar.

Sonnet 5 vs Opus 4.8: el verdadero debate es el coste-rendimiento

Durante el último año, los mayores avances agénticos venían de los modelos Opus, más potentes y más caros. La novedad es que Sonnet 5 acorta distancias: su rendimiento se acerca al de Opus 4.8, pero a un precio menor.

Anthropic lo ilustra con curvas de coste-rendimiento en dos evaluaciones: BrowseComp (búsqueda agéntica) y OSWorld-Verified (uso del ordenador). La idea central es que puedes ajustar el "nivel de esfuerzo" del modelo: a esfuerzo medio, Sonnet 5 ofrece una eficiencia de coste muy superior; a esfuerzo alto, llega a igualar a Opus 4.8 en algunas tareas. No hay un único ganador, sino un rango de opciones donde elegir tu equilibrio entre gasto y capacidad.

Precios de API: lo que de verdad paga tu empresa

Aquí está la parte que impacta en tu factura. Estos son los precios publicados por Anthropic:

Claude Sonnet 5: precio introductorio de 2 $ por millón de tokens de entrada y 10 $ por millón de salida hasta el 31 de agosto de 2026; después, 3 $ y 15 $ respectivamente.
Opus 4.8: 5 $ por millón de tokens de entrada y 25 $ por millón de salida.

Hay un matiz importante: Sonnet 5 usa un tokenizador nuevo, así que el mismo texto puede consumir más tokens que antes (entre 1,0 y 1,35 veces según el tipo de contenido). Anthropic ajusta el precio introductorio para que el cambio sea aproximadamente neutro en coste, pero conviene tenerlo presente al estimar tu gasto real: el precio por token no es lo mismo que el coste por tarea.

Benchmarks de programación agéntica: cómo leerlos sin marearte

Los benchmarks son útiles, pero no son tu negocio. Una puntuación alta en OSWorld-Verified (Sonnet 4.6 obtuvo un 78,5 %, por ejemplo) o en exámenes de conocimiento general te dice que el modelo es competente, no que vaya a resolver tu problema concreto.

Tres ideas para interpretarlos con cabeza:

El nivel de esfuerzo cambia el resultado y el coste. Más esfuerzo suele significar más tokens, más tiempo y más gasto.
La tarea importa más que la media. Un modelo puede brillar en búsqueda agéntica y ser del montón en otra cosa.
Compara con criterios de negocio: coste total, encaje con tu proceso, integración con tus sistemas y soporte.

Fiabilidad: un factor que no sale en la tabla de precios

Anthropic afirma que Sonnet 5 muestra menos comportamientos indeseados que Sonnet 4.6, alucina y "adula" menos, y resiste mejor los intentos de inyección de instrucciones (prompt injection). También señala que su capacidad para tareas de ciberseguridad ofensiva es mucho menor que la de Opus, y que el modelo se lanza con salvaguardas activadas por defecto. En un contexto empresarial, menos alucinaciones y mayor resistencia a manipulaciones no son un detalle técnico: son fiabilidad, justo lo que necesitas si un agente va a tocar tus procesos.

Qué significa esto para tu pyme

La conclusión no es "usa Sonnet 5" ni "usa Opus 4.8". Es que hoy puedes ajustar el modelo y el nivel de esfuerzo al valor real de cada tarea, en lugar de pagar siempre por lo más potente. Un asistente que clasifica correos no necesita el mismo músculo que un agente que automatiza un proceso crítico.

Para aprovecharlo hacen falta tres cosas que no aparecen en ningún benchmark: un caso de uso medible, datos ordenados y gobernados, e integración con tus sistemas. Sin datos bien gestionados, hasta el mejor modelo rinde poco. Y una buena noticia para quien ya trabaja en el ecosistema Microsoft: los modelos Claude están disponibles en Microsoft Foundry (sobre Azure), lo que facilita conectarlos con el resto de tu tecnología de negocio.

Del titular a la decisión

En Tisa ayudamos a las empresas a pasar del anuncio a la decisión: identificar el caso de uso, preparar los datos y elegir la tecnología con criterio de negocio, no por moda. Llevamos desde 1987 aterrizando tecnología en pymes, y la IA la abordamos igual que un buen proyecto de ERP: por el valor que genera, no por las siglas.

Si quieres explorar dónde encaja la IA en tu empresa —y con qué coste realista—, hablemos. Solicita una valoración sin compromiso llamando al (+34) 971 305 885, escríbenos a info@grupotisa.com o visita grupotisa.com.

Hablemos de tu proyecto

En TISA Internacional ayudamos a empresas como la tuya a sacar partido de la tecnologia. Cuentanos que necesitas.