Comparar GPT-4o con Claude Sonnet 4 basándose en benchmarks de lenguaje natural o velocidad es útil para papers académicos. Pero si tu chatbot en WhatsApp ve un cliente de Guadalajara que escribe "¿me lo apartan hasta el viernes?" y no entiende la intención, ningún benchmark te salvó.
En Uniamos llevábamos seis meses trabajando con dos clientes reales en México — una distribuidora de insumos y una tienda de ropa — cuyas conversaciones de WhatsApp están cargadas de modismos, colocacionalismos y sintaxis que los benchmarks estándar nunca contemplan. Decidimos probar a fondo: GPT-4o, Claude 3.5 Sonnet, Claude Haiku y GPT-4o-mini contra 20 frases típicas mexicanas, en producción, con evaluadores humanos. Aquí está lo que encontramos.
Por qué los benchmarks genéricos no te sirven aquí
MMLU, HELM, HellaSwag. Si leíste esos nombres y pensaste "¿quién le importa?", estás en lo correcto para este caso de uso. Los benchmarks públicos miden capacidad de razonamiento abstracto, conocimiento general, lógica. Son importantes si estás entrenando un modelo. Pero son casi irrelevantes si necesitas que tu bot entienda qué quiere decir un cliente mexicano cuando escribe "¿sí me lo mandan hoy o ya mejor el lunes?"
Ese mensaje tiene un intent claro (el cliente quiere saber sobre fechas de entrega), pero la sintaxis es puro español de la calle. La pregunta tiene dos opciones que suena como si el cliente fuera entre sarcástico y cansado — el tono importa. Un modelo que no mapee esa frase a "consulta de tiempo de entrega + tono exploratorio" va a responder con un template genérico tipo "Claro, nos toma 3-5 días hábiles" y el cliente se va a otra empresa porque se sintió ignorado.
Es por eso que hicimos esta prueba específicamente para español mexicano coloquial.
Metodología: lo que probamos y cómo
Seleccionamos 20 frases que nuestros clientes reciben de verdad por WhatsApp, representando seis categorías de intención de compra común en distribución y retail:
- Disponibilidad y stock: "¿tienen en chico, mediano y jumbo?", "¿tienen surtido?", "¿qué modelos tienen ahorita?"
- Logística: "¿cuánto me cuesta el flete?", "¿el envío es x paquetería o propio?", "¿hacen envíos a Monterrey?"
- Especificaciones y duda: "ay, no sé si me convenga...", "¿me lo apartan hasta el viernes?", "¿aguanta hasta mañana?"
- Pago y términos: "¿puedo pagar con transfer?", "¿hacen factura?", "¿aceptan vales de despensa?", "¿me pasas tu CLABE?"
- Precio y negociación: "¿me haces un precio?", "¿me aguanta la oferta si paso mañana?"
- Clarificación y contexto: "¿mande?", "¿qué onda con los tiempos de entrega?"
Para cada frase usamos la misma configuración en ambos modelos:
- System prompt idéntico: "Eres un asistente de atención al cliente amable y conciso para una distribuidora mexicana. Responde en español mexicano natural. Sé honesto si no tienes información. Máximo 100 palabras."
- Temperatura: 0.3 (conservador, predecible).
- Máximo de tokens de respuesta: 200.
- Evaluadores: tres personas mexicanas con experiencia en atención al cliente (una gerente de ventas, un ejecutivo de cuenta, un community manager).
Cada evaluador calificó cada respuesta en tres dimensiones: ¿entiende la intención real del cliente? ¿La respuesta suena natural en español mexicano? ¿Qué tan seguro te sentirías dejando que esta respuesta se envíe automáticamente sin revisión?
Los 20 casos: ejemplos concretos
Caso 1: "¿me lo apartan hasta el viernes?"
Claude Sonnet 4: "Claro, sin problema. Aparamos tu producto hasta el viernes sin costo. Solo dame tu nombre y el detalle de qué necesitas. Así no se te pierde." [Nota del evaluador: entiende "apartar" como reserva, tono cálido, se siente mexicano]
GPT-4o: "Claro, podemos reservar el artículo hasta el viernes para ti. Por favor, proporciona tu nombre y qué artículos deseas apartar." [Nota: entiende intent, pero respuesta más formal, menos mexicana]
Caso 2: "¿puedo pagar con transfer?"
Claude Sonnet 4: "Sí, aceptamos transferencias. Solo necesitamos tu CLABE o si prefieres, envío los datos bancarios por aquí. ¿A qué hora planeas hacer la transferencia?" [Señal de riesgo detectada: solicita CLABE directo. Evaluador flagged como posible riesgo de fraude en flujo automático]
GPT-4o: "Sí, aceptamos transferencias bancarias. Por favor, ponte en contacto con nuestro equipo de ventas para obtener los detalles de la cuenta." [Redirige a humano, más seguro pero menos eficiente]
Caso 3: "¿qué onda con los tiempos de entrega?"
Claude Sonnet 4: "Los tiempos dependen de dónde estés. Si es CDMX, 24-48 horas. Fuera de la capital, 3-5 días hábiles. ¿De dónde nos escribes? Así te doy el plazo exacto." [Entiende "qué onda" como pregunta casual, responde específico]
GPT-4o: "Nuestros tiempos de entrega son de 3 a 5 días hábiles dependiendo de tu ubicación. Contáctanos para más detalles específicos." [Respuesta genérica, no aprovecha la oportunidad de personalizar]
Caso 4: "¿me haces un precio?"
Claude Sonnet 4: "Depende de la cantidad. A partir de 20 unidades tenemos descuento. ¿Cuánto necesitas? Así te paso el precio justo." [Entiende que es negociación, abre la puerta a dialogo]
GPT-4o: "Nuestros precios son fijos y están disponibles en nuestro catálogo. Si tienes alguna pregunta específica sobre precios, por favor contáctanos." [Cierra la conversación, pierde oportunidad]
En estos primeros cuatro casos ya ves el patrón: Claude gana en naturalidad y en reconocer cuándo abrir conversación vs. cuándo redirigir. GPT es más defensivo, menos flexible con el lenguaje mexicano.
Resultados: las métricas crudas
Comprensión de intención
Claude Sonnet 4: 18/20 correctas. GPT-4o: 17/20. Claude gana aquí porque detecta mejor las frases sarcásticas y los dobles sentidos típicos del lenguaje de calle.
Naturalidad en español mexicano
Claude: 9/10 en promedio (usa "por aquí", "así", estructura de frase característica). GPT: 7/10 (tiende a ser más formal, estructura más castellana o neutral).
Latencia en Latinoamérica (p95)
GPT-4o: 1.2 segundos. Claude Sonnet 4: 1.8 segundos. GPT es 33% más rápido. Si latencia es crítica en tu caso de uso, importa.
Costo por conversación típica
Una conversación de 50 turnos promedio (cliente + bot): GPT-4o cuesta ~0.015 USD (225 MXN). Claude Sonnet 4: ~0.021 USD (315 MXN). Diferencia: 40% más caro Claude.
Confianza en automatización directa
Evaluadores dijeron "mandaría sin revisar" a Claude en 14/20 casos. Con GPT, 11/20. Razón: Claude es menos probable que genere respuestas vagas que necesiten escalamiento a humano.
Detección de riesgos (ej. fraude)
Claude más cuidadoso pidiendo CLABEs (quizá demasiado cuidadoso — requiere supervisión). GPT redirige pronto. Empate técnico, pero requiere calibración por caso.
"El mejor modelo no es el que gana en un benchmark general. Es el que entiende los 20 casos difíciles que tu cliente enfrenta cada día."
Los modelos pequeños: Haiku y GPT-4o-mini
Probamos también Claude 3.5 Haiku (~$0.80 USD por 1M tokens input) y GPT-4o-mini (~$0.15 USD por 1M tokens input) porque la realidad es que el 80% del tráfico en chatbots es commoditizado — "¿tienen stock?", "¿cuánto cuesta?", "¿dónde quedan?" — preguntas que cualquier modelo pequeño responde bien.
Claude Haiku: En 16/20 casos, responde decentemente. Es 70% más barato que Sonnet. Si usas un clasificador ligero adelante que detecte los 20% de preguntas complejas y las manda a Sonnet, ahorras 60% en costo total sin sacrificar calidad. Es la estrategia que más recomendamos para PYMEs.
GPT-4o-mini: Muy similar a Haiku en precio y desempeño. Responde bien a preguntas directas, pero un poco más plano en español mexicano que Haiku. Pequeña ventaja a Haiku en naturalidad.
Cuándo usar cada uno: tabla de decisión
GPT-4o
- Cuándo elegirlo: volumen muy alto (10,000+ conversaciones al mes), latencia crítica (banca, urgencias), presupuesto limitado pero tráfico masivo.
- No lo uses si: la naturalidad conversacional en español es importante. Vas a tener respuestas que suenan oficinistas.
- Costo estimado: distribuidor con 3,000 conversaciones/mes: $45-60 USD mensuales.
Claude Sonnet 4
- Cuándo elegirlo: calidad conversacional premium, equipo que trabaja en español mexicano, volumen medio (1,000-5,000 conversaciones/mes), casos de uso donde el cliente se deja hablar por el chatbot.
- No lo uses si: latencia es crítica (tiempos de respuesta < 1.5 segundos son requisito). Claude es 33% más lento.
- Costo estimado: misma distribuidora: $60-80 USD mensuales.
Claude Haiku + Sonnet (estrategia hibrida)
- Cuándo elegirlo: presupuesto ajustado, volumen alto (5,000+ conversaciones/mes), necesitas naturalidad pero también económico.
- Cómo funciona: Haiku maneja el 80% de preguntas comunes. Un router muy simple ("¿es una pregunta sobre disponibilidad?" sí → Haiku, no → Sonnet) envía las 20% difíciles a Sonnet. Ahorras 50-60%.
- Costo estimado: misma distribuidora: $30-40 USD mensuales.
GPT-4o-mini
- Cuándo elegirlo: es la opción más barata que sigue siendo competente. Volumen altísimo, márgenes bajos, no puedes gastar más de $15-20 USD al mes.
- No lo uses si: necesitas que el chatbot sea el "rostro" de tu marca en conversaciones largas. Las respuestas son muy planas.
Modelos chinos: mención honesta
DeepSeek (precio ultra-competitivo, ~$0.14 USD por 1M tokens input) y Qwen (Alibaba) están ganando terreno global. Los probamos brevemente: desempeño comparable a GPT-4o en inglés, pero con español mexicano coloquial siguen débiles. Las frases modismas ("¿me lo apartan?", "¿qué onda?") las entienden a nivel sintáctico pero no captúran la intención ni el tono. No los recomendamos aún para atención al cliente en español de México, aunque el precio los hace tentadores.
Probablemente en 6-12 meses sean opción viable. Ahora, no.
El cierre: el 20% que decide todo
Los benchmarks académicos miden cómo se desempeña un modelo en 10,000 ejemplos de "lenguaje promedio". Tu chatbot de WhatsApp no vive en lo promedio. Vive en el 20% de preguntas que son difíciles, ambiguas, mal redactadas, o culturalmente específicas.
Claude Sonnet 4 gana en ese 20%. GPT-4o gana en velocidad y costo. Si tienes volumen altísimo y márgenes bajos, híbrido con Haiku es lo smart. Si tienes presupuesto para calidad y el cliente mexicano te importa (spoiler: debería), Sonnet.
La prueba que hicimos fue real, con texto de clientes de verdad, evaluado por gente que sabe lo que significa un cliente mexicano insatisfecho. Eso vale más que 50 papers de benchmarking.
¿Quieres aplicar esto en tu empresa?
Te hacemos un diagnóstico gratuito de 30 minutos. Si no tiene sentido aplicarlo, te lo decimos.
Agendar diagnóstico →