Por qué tu próximo LLM en producción debería…

may 11

Soberanía, especialización y apalancamiento operativo: el caso estructural por los modelos abiertos dentro del producto. Con Mercadona Online como referencia.

Leer →

5 Comentarios

Abel Caballero

May 11

Y, como en todo, entre el blanco y el negro, hay muchos grises. No es necesario usar Opus 4.7 para todo cuando Haiku es suficiente, igual que es un desperdicio coger el Ferrari para ir a por el Humus y el Guacamole al Mercadona del barrio…

Se pueden optimizar las llamadas a los modelos según las necesidades. E, incluso, existen soluciones como OpenRouter que te permiten usar modelos OSS sin pagar por tokens.

Esto va contra la soberanía, por supuesto. Pero pasa los que no somos Mercadona, nos puede servir. No siempre hay que pagar por el frontier full equip.

Por otro lado, no ttermino de ver que haya que hacer baseline contra un modelo frontier. Creo que habría que hacer estudios donde definas lo que es good enough y medir contra eso. Y con cada evolución de tu LoRa, medir si has mejorado. No necesitas estar a la altura del más listo para dar una buena experiencia.

En cualquier caso, esto va avanzando tan rápido que veo arriesgado decantarse por OSS ‘propio’ y ponerse a entrenarlo. Como dices, te estás cerrando a una versión y paaar a la siguiente puede ser más costoso. Habrá que ver qué recorrido de mejora tienen los modelos aún y cuándo empezar a estabilizarse la curva. Igual compensa esperar un poco y, llegado el caso, hacer como los ejemplos de cloud que pusiste y dar el salto más adelante.

Mercadona probablemente pueda permitirse hacerlo así, pero otros más pequeños creo que deberían centrarse en coger velocidad de crucero con modelos fuera y más adelante plantearse entrenar a uno propio.

Responder

Alfonso Rodríguez

May 11

Muy interesante el matiz del artículo, José Ramón.

En LinkedIn comentaba que tener un modelo propio reduce dependencia de terceros, pero que también exige músculo económico y conocimiento. Leyendo la versión completa, me parece clave precisamente ese umbral: no es una decisión ideológica entre frontier u OSS, sino una decisión de producto, escala, control y horizonte.

Me quedo especialmente con la idea de usar frontier para explorar y como baseline, y pasar a OSS cuando el caso de uso está claro, se repite, se puede evaluar bien y la IA ya forma parte estructural del producto.

Ahí el debate deja de ser “qué modelo es mejor en abstracto” y pasa a ser “qué relación quiere tener una empresa con su capa de IA dentro de unos años”.

Responder (1)

José Ramón Pérez Agüera

May 11

super de acuerdo con esta idea. Es una decisión estratégica muy importante que hay que tomar con mucho cuidado

Responder

diego C.

May 12

Muy interesante el artículo, salvando las distancias, nos vemos reflejados en bastantes de las cosas que comentas. Son muchos los comentarios que me surgen, y entiendo que no puedes contestarlos todos, pero quería destacar dos cosas que me han llamado especialmente la atención.

La primera es la elección de Qwen3 8B. Me ha sorprendido que el modelo sea relativamente pequeño. ¿Cómo tomasteis esa decisión frente a variantes más grandes de la misma familia? ¿Fue principalmente por latencia, por coste de inferencia, o visteis que el salto de calidad no justificaba el coste extra de parámetros?.

La segunda es sobre infraestructura, justificar internamente una inversión inicial en hardware serio (varias H100 pueden superar fácilmente los 100k€) no es trivial antes de tener funcionalidades en producción con volumen que lo justifiquen. ¿Empezasteis con hardware más modesto o con capacidad cloud, con la idea de migrar a on-premise potente cuando las funcionalidades demuestren su rendimiento?. Me parece una de las partes difíciles de este viaje, a nosotros por lo menos nos pasa.

Y por último, la estrategia de una especie de "cata a ciegas" de productos que describes, replicar en Qwen lo que ya hacéis con Claude y cambiar solo cuando el resultado es satisfactorio, me parece genial, entiendo que para cada caso de uso hacéis diversas iteraciones y aproximaciones, comparando el resultado de los dos modelos, ¿os habéis encontrado para alguna funcionalidad en un punto de "este no es el camino" y tener de dar marcha atrás o abandonar?, como se determina ese punto de seguir iterando, o abandonar esta vía y replantear.

Muchas gracias por compartir esta información tan interesante.

saludos

diego

Responder (1)

José Ramón Pérez Agüera

May 12

Qwen3 8b nos da la calidad suficiente, lo estamos exprimiendo pero si tocamos techo subiremos de tamaño del modelo, de momento va bien. En cuanto a la máquina, los modelos pequeños y medianos se pueden correr en cloud en máquinas tipo NVIDIA GPU L4 que se te va a unos 1000 euros al mes y va de sobra para un modelo de este tipo, incluso puedes usar servidores dedicados en Hetzner como el GEX44 (NVIDIA RTX 4000 SFF Ada Generation de 20 GB GDDR6 ECC) que te vale 200 euros al mes y da un rendimiento con Qwen3 8b excelente.

En cuanto a la elección del modelo aun es pronto para darte consejos con seguridad, Qwen3 8b pinta bien pero si no fuera suficiente hay modelos más grandes que serían nuestra opción si vemos que este modelo toca techo. Al final es mucho de prueba y error y estamos empezando a avanzar por ese camino.

Responder

Gemba

Por qué tu próximo LLM en producción debería…