GLM subió de precio… y cambió todo #z.ai #claude #codex #kimi

Introducción

Hace un tiempo GLM era mi “hack” favorito: calidad decente, costo bajísimo y un par de detalles técnicos que lo hacían rendir más de lo que salía. Pero pegó un salto de precio y, posta, cambió el juego. Grabé este video para contar por qué ya no lo recomiendo como antes y qué opciones me están funcionando mejor según el caso.

¿Qué cambió con GLM?

  • Antes tenía una relación precio/calidad que cerraba por todos lados. Ahora, con la suba, quedó mucho más cerca de los grandes… pero con las mismas fricciones de siempre (latencia variable, facturación rara, límites que se mueven).
  • El valor del “hack” era el gap: pagar poco por algo que rendía como un modelo más caro. Si ese gap desaparece, te quedás con pura complejidad sin el beneficio.
  • Si ya lo tenés integrado y te funciona estable, ok, podés seguir. Pero para nuevos proyectos, hoy no me parece la jugada más inteligente.

¿Cuándo todavía tiene sentido?

  • Tenés una integración andando y cambiar implica mucho refactor.
  • Tu caso de uso matchea perfecto con sus fortalezas y no te pega el nuevo costo.
  • Operás en mercados donde GLM tiene ventajas de disponibilidad/regulación.

Si no estás en ese grupo, hay alternativas más limpias y con mejor TCO (costo total de propiedad).

Alternativas que recomiendo según el caso

1) Calidad general, sin romper el chanchito

  • Claude (línea Sonnet) para razonamiento y consistencia. Suele ser un buen sweet spot.
  • Modelos “mini” de los grandes para tareas utilitarias (resúmenes, clasificación, reformulación), donde precio por token manda.

2) Código y pair programming

  • Open-source “potentes” que podés autohospedar o consumir en nubes baratas: Qwen2.5 Coder, DeepSeek Coder, Llama 3.1 Instruct (según tamaño).
  • Si tu stack lo permite, combiná uno de código para generación y uno “generalista” para explicaciones/razonamiento. Barato y rinde.
VER:  Esta herramienta gratis va EXPLOTAR tu productividad - Fabric

3) Navegación y research

  • Kimi es sólido para sesiones largas de browsing y lectura de PDFs extensos.
  • Para “buscar y sintetizar”, herramientas orientadas a research suelen ganarle a un LLM crudo con browsing.

4) Costos ultrabajos con control fino

  • Self-hosting con un 8B/14B bien afinado + RAG. Si tus datos son buenos, la magia está en el retrieval, no en tirar tokens premium.

Mi setup pos-GLM (lo que me está funcionando)

  • Router multi-model: usá algo tipo OpenRouter o un proxy como LiteLLM para intercambiar proveedores sin tocar tu app.
  • Fallbacks y timeouts claros: si el modelo A tarda, cae al B. Que el usuario no pague la inestabilidad.
  • Métricas de verdad: costo por 1k/1M tokens, latencia p95 y tasa de “reintentos”. Sin números, elegís a ciegas.
  • Caching y compresión de contexto: guardá respuestas frecuentes y resumí histórico. Menos tokens, menos plata.
  • Separá tareas: clasificación/resumen en “mini”; razonamiento/planificación en uno mejor. No todo amerita un modelo caro.

El video

Cierre

No hay que casarse con un modelo. GLM fue un gol mientras costó dos mangos; ahora que subió, perdió el diferencial. Lo importante es tener una arquitectura que te deje mover fichas rápido y elegir lo que más conviene hoy, no lo que convenía hace seis meses. Yo voy a seguir probando, cambiando y contándolo por acá. Traé el mate y venite a construir conmigo.

Loading

Esta entrada fue publicada el youtube. Agregá a favoritos el enlace permalink.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *