{"id":35435,"date":"2026-04-17T10:43:28","date_gmt":"2026-04-17T10:43:28","guid":{"rendered":"https:\/\/aisuperior.com\/?p=35435"},"modified":"2026-04-17T10:43:28","modified_gmt":"2026-04-17T10:43:28","slug":"llm-cost-optimization-in-ai-deployment","status":"publish","type":"post","link":"https:\/\/aisuperior.com\/es\/llm-cost-optimization-in-ai-deployment\/","title":{"rendered":"Optimizaci\u00f3n de costes en la implementaci\u00f3n de IA (Gu\u00eda 2026)"},"content":{"rendered":"<p><b>Resumen r\u00e1pido: <\/b><span style=\"font-weight: 400;\">La optimizaci\u00f3n de costos de LLM en la implementaci\u00f3n de IA requiere un enfoque multicapa que combine la selecci\u00f3n inteligente de modelos, el ajuste de la infraestructura y la gesti\u00f3n de tokens. Las organizaciones pueden reducir los costos entre 60 y 851 TP3T mediante t\u00e9cnicas como el enrutamiento de modelos, el almacenamiento en cach\u00e9 sem\u00e1ntico y la optimizaci\u00f3n de la cach\u00e9 KV, sin sacrificar la precisi\u00f3n. La clave reside en tratar los costos de LLM como si fueran costos de unidades de fabricaci\u00f3n, en lugar de los gastos de software tradicionales.<\/span><\/p>\n<p>&nbsp;<\/p>\n<p><span style=\"font-weight: 400;\">Un chatbot de atenci\u00f3n al cliente que gestiona 500\u00a0000 solicitudes mensuales a 1500 tokens por solicitud genera aproximadamente 18\u00a0000 tokens al mes, solo por una \u00fanica funci\u00f3n. Si ampliamos esto a 10\u00a0000 conversaciones diarias, los costes superan los 1500 tokens diarios solo por los tokens de entrada.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Esto no es la gesti\u00f3n de costes tradicional en la nube. Los productos nativos de LLM heredan propiedades tanto de bienes f\u00edsicos como de software: se escalan instant\u00e1neamente como el c\u00f3digo, pero conllevan costes variables significativos por uso. A medida que las organizaciones implementan cada vez m\u00e1s modelos a gran escala, la gesti\u00f3n de costes se ha convertido en un factor diferenciador competitivo, m\u00e1s que en una simple cuesti\u00f3n operativa.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">La diferencia de precios entre proveedores es considerable. GPT-5.4 cobra $2.50 por mill\u00f3n de tokens de entrada, mientras que Claude 4.5 Sonnet cobra $3 por mill\u00f3n de tokens de entrada. Pero la selecci\u00f3n del proveedor es solo el comienzo: la optimizaci\u00f3n de los costos de producci\u00f3n exige una planificaci\u00f3n a nivel de infraestructura.<\/span><\/p>\n<h2><span style=\"font-weight: 400;\">\u00bfPor qu\u00e9 los costes de los m\u00e1steres en Derecho (LLM) se comportan de forma diferente?<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">El software tradicional funciona con un modelo econ\u00f3mico simple: altos costos iniciales de desarrollo y luego costos marginales que se acercan a cero por cada usuario adicional. Aloje la aplicaci\u00f3n una vez y d\u00e9 servicio a millones.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Las aplicaciones nativas de IA rompen por completo este modelo.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Cada inferencia conlleva un coste computacional real. Los tokens de entrada, los tokens de salida y los tokens en cach\u00e9 tienen estructuras de precios diferentes. El precio depende de varias variables interrelacionadas que cambian din\u00e1micamente seg\u00fan las caracter\u00edsticas de la carga de trabajo.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">La longitud del contexto es m\u00e1s importante de lo que la mayor\u00eda de los equipos esperan. Un modelo con un contexto de 2048 tokens puede procesar hasta 2048 tokens a la vez. Sin embargo, procesar contextos m\u00e1s largos aumenta los requisitos de memoria de forma exponencial, no lineal. La cach\u00e9 de clave-valor, que elimina el rec\u00e1lculo redundante de representaciones de tokens anteriores durante la generaci\u00f3n autorregresiva, crece proporcionalmente con la longitud de la secuencia.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Los sistemas de producci\u00f3n se enfrentan a cuellos de botella que no existen en la fase de desarrollo. El ancho de banda de la memoria se convierte en la principal limitaci\u00f3n durante la fase de decodificaci\u00f3n. El mecanismo de atenci\u00f3n multi-cabeza realiza m\u00faltiples c\u00e1lculos de atenci\u00f3n en paralelo, pero las limitaciones del hardware determinan el rendimiento real.<\/span><\/p>\n<h2><span style=\"font-weight: 400;\">El problema de la econom\u00eda unitaria<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">Las empresas emergentes de IA se enfrentan a desaf\u00edos \u00fanicos en tres \u00e1reas: econom\u00eda unitaria (coste por inferencia), planificaci\u00f3n de la capacidad (suministro de GPU) y optimizaci\u00f3n del rendimiento (calidad de la salida del modelo por token).<\/span><\/p>\n<p><span style=\"font-weight: 400;\">A diferencia del software tradicional, donde el costo marginal de un nuevo usuario es pr\u00e1cticamente cero, los productos nativos de LLM tienen componentes de costo variable significativos. Esto obliga a los equipos a pensar como fabricantes: monitorear la eficiencia de la producci\u00f3n, optimizar el rendimiento y gestionar las restricciones de suministro.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">En serio: la mayor\u00eda de los equipos no pueden explicar con precisi\u00f3n los costos de sus proyectos de IA. La complejidad de las estructuras de costos de la IA, que incluyen computaci\u00f3n, ancho de banda de memoria, almacenamiento y redes, genera lagunas en la rendici\u00f3n de cuentas. Los equipos de ingenier\u00eda carecen de visibilidad sobre qu\u00e9 casos de uso generan gastos o qu\u00e9 optimizaciones ofrecer\u00edan el mayor retorno de la inversi\u00f3n.<\/span><\/p>\n<h2><span style=\"font-weight: 400;\">Estrategias de selecci\u00f3n de modelos y enrutamiento<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">Los recientes avances en los modelos de lenguaje han creado un ecosistema en expansi\u00f3n. Actualmente, las organizaciones pueden elegir entre docenas de opciones de c\u00f3digo abierto y comerciales, cada una con diferentes ventajas y desventajas en cuanto a rendimiento y coste.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Pero tratar todas las consultas como igualmente complejas supone un derroche de dinero.<\/span><\/p>\n<table>\n<thead>\n<tr>\n<th><span style=\"font-weight: 400;\">Estrategia<\/span><\/th>\n<th><span style=\"font-weight: 400;\">C\u00f3mo funciona<\/span><\/th>\n<th><span style=\"font-weight: 400;\">Ahorros t\u00edpicos<\/span><\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td><span style=\"font-weight: 400;\">Enrutamiento est\u00e1tico<\/span><\/td>\n<td><span style=\"font-weight: 400;\">Dirigir las consultas a modelos predeterminados seg\u00fan el caso de uso.<\/span><\/td>\n<td><span style=\"font-weight: 400;\">30-40%<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 400;\">Enrutamiento din\u00e1mico<\/span><\/td>\n<td><span style=\"font-weight: 400;\">Analizar la complejidad de las consultas en tiempo real y seleccionar el modelo \u00f3ptimo.<\/span><\/td>\n<td><span style=\"font-weight: 400;\">45-60%<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 400;\">Cascada<\/span><\/td>\n<td><span style=\"font-weight: 400;\">Pruebe primero con modelos m\u00e1s econ\u00f3micos y recurra a medidas m\u00e1s urgentes solo cuando sea necesario.<\/span><\/td>\n<td><span style=\"font-weight: 400;\">50-70%<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 400;\">M\u00e1ster en Derecho Pastoral<\/span><\/td>\n<td><span style=\"font-weight: 400;\">Utilice modelos costosos para obtener pistas y modelos m\u00e1s econ\u00f3micos para la ejecuci\u00f3n.<\/span><\/td>\n<td><span style=\"font-weight: 400;\">60-75%<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p><span style=\"font-weight: 400;\">Una investigaci\u00f3n de arXiv demuestra que los Modelos de Lenguaje Peque\u00f1os (SLM, por sus siglas en ingl\u00e9s) con sugerencias espec\u00edficas de Modelos de Lenguaje Grandes (LLM, por sus siglas en ingl\u00e9s) logran mejoras en la precisi\u00f3n con un uso m\u00ednimo de recursos de LLM. Los datos muestran que la precisi\u00f3n del SLM (Llama-3.2-3B-Instruct) en funci\u00f3n del tama\u00f1o de la sugerencia del LLM (Llama-3.3-70B-Versatile) mejora sustancialmente con sugerencias peque\u00f1as que representan solo entre 10 y 30% de la respuesta completa del LLM, con rendimientos decrecientes m\u00e1s all\u00e1 de 60%.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Esto justifica un enfoque de acompa\u00f1amiento: solicitar sugerencias en lugar de respuestas completas. La estrategia trata al costoso modelo como un consultor en lugar de un ejecutor: se paga por orientaci\u00f3n, no por respuestas completas.<\/span><\/p>\n<h2><span style=\"font-weight: 400;\">T\u00e9cnicas de optimizaci\u00f3n a nivel de infraestructura<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">La selecci\u00f3n del modelo es solo una de las herramientas. La optimizaci\u00f3n de la infraestructura aborda los cuellos de botella impuestos por el hardware que limitan el rendimiento y aumentan los costos.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Gesti\u00f3n de cach\u00e9 KV<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">La cach\u00e9 clave-valor es una optimizaci\u00f3n fundamental en los modelos basados en Transformer. Pero tambi\u00e9n consume mucha memoria.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Durante la generaci\u00f3n autorregresiva, el modelo calcula la atenci\u00f3n sobre todos los tokens anteriores en cada paso. Sin almacenamiento en cach\u00e9, esto requiere recalcular repetidamente las representaciones de toda la secuencia. La cach\u00e9 KV almacena estos c\u00e1lculos, priorizando la velocidad sobre la memoria.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">El problema radica en que el tama\u00f1o de la cach\u00e9 crece linealmente con la longitud de la secuencia y el tama\u00f1o del lote. Para aplicaciones de contexto largo, la memoria cach\u00e9 puede superar los pesos del modelo. Algunas estrategias para gestionar esto incluyen:<\/span><\/p>\n<ul>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Cuantificaci\u00f3n de valores almacenados en cach\u00e9 a menor precisi\u00f3n (8 bits o 4 bits)<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Implementar pol\u00edticas de desalojo que descarten los tokens menos relevantes.<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Uso de la atenci\u00f3n de ventana deslizante para el crecimiento de memoria limitada<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Compresi\u00f3n de entradas de cach\u00e9 mediante tokens de compresi\u00f3n aprendidos<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400;\">Las investigaciones sobre la compresi\u00f3n de la esencia de las oraciones demuestran que los modelos de lenguaje natural preentrenados pueden ajustarse para comprimir el contexto mediante tokens aprendidos, lo que reduce las exigencias de memoria y computaci\u00f3n para secuencias largas. Los m\u00e9todos de ajuste fino, que optimizan el uso de par\u00e1metros, permiten que los modelos compactos gestionen tareas de razonamiento sin necesidad de expandir completamente la cach\u00e9 de clave-valor.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Optimizaci\u00f3n del procesamiento por lotes y del rendimiento<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Los sistemas de inferencia deben equilibrar la latencia con el rendimiento. Los lotes de mayor tama\u00f1o mejoran la utilizaci\u00f3n del hardware, pero aumentan los tiempos de espera para las solicitudes individuales.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">La fase de c\u00e1lculo durante el prellenado (procesamiento de tokens de entrada) se beneficia enormemente del procesamiento por lotes: la utilizaci\u00f3n de la GPU aumenta linealmente con el tama\u00f1o del lote hasta los l\u00edmites del hardware. Sin embargo, la fase de decodificaci\u00f3n est\u00e1 limitada por el ancho de banda. A\u00f1adir m\u00e1s solicitudes a un lote no aumenta proporcionalmente el rendimiento, ya que el ancho de banda de la memoria se convierte en el cuello de botella.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Las estrategias eficaces separan el prellenado y la decodificaci\u00f3n en lotes distintos, lo que permite la optimizaci\u00f3n independiente de cada fase. Las t\u00e9cnicas de procesamiento continuo por lotes a\u00f1aden nuevas solicitudes a los lotes en curso de forma din\u00e1mica, en lugar de esperar a que se complete el lote completo.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Cuantizaci\u00f3n de modelos<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">La cuantizaci\u00f3n reduce la precisi\u00f3n del modelo de punto flotante de 32 o 16 bits a enteros de 8 o 4 bits. Esto reduce proporcionalmente los requisitos de memoria y el consumo de ancho de banda.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Seg\u00fan una investigaci\u00f3n del IST Austria, la cuantizaci\u00f3n GPTQ es matem\u00e1ticamente equivalente al algoritmo del plano m\u00e1s cercano de Babai. Esta interpretaci\u00f3n geom\u00e9trica proporciona l\u00edmites de error para la cuantizaci\u00f3n de modelos de lenguaje de gran tama\u00f1o, lo que permite una precisi\u00f3n de 4 bits con par\u00e1metros cuidadosamente calibrados para minimizar la degradaci\u00f3n de la exactitud.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">DistilBERT demuestra el poder de la destilaci\u00f3n de modelos combinada con la cuantizaci\u00f3n. Creado por el equipo de Hugging Face, es 40% m\u00e1s peque\u00f1o y r\u00e1pido que BERT base (aproximadamente 66 millones de par\u00e1metros frente a 110 millones), a la vez que conserva 97% del rendimiento en tareas posteriores.<\/span><\/p>\n<table>\n<thead>\n<tr>\n<th><span style=\"font-weight: 400;\">T\u00e9cnica<\/span><\/th>\n<th><span style=\"font-weight: 400;\">Reducci\u00f3n de la memoria<\/span><\/th>\n<th><span style=\"font-weight: 400;\">Mejora de la velocidad<\/span><\/th>\n<th><span style=\"font-weight: 400;\">Impacto de la precisi\u00f3n<\/span><\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td><span style=\"font-weight: 400;\">Cuantizaci\u00f3n de 8 bits<\/span><\/td>\n<td><span style=\"font-weight: 400;\">50%<\/span><\/td>\n<td><span style=\"font-weight: 400;\">1,5-2x<\/span><\/td>\n<td><span style=\"font-weight: 400;\">&lt;1% p\u00e9rdida<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 400;\">Cuantizaci\u00f3n de 4 bits<\/span><\/td>\n<td><span style=\"font-weight: 400;\">75%<\/span><\/td>\n<td><span style=\"font-weight: 400;\">2-3 veces<\/span><\/td>\n<td><span style=\"font-weight: 400;\">P\u00e9rdida de 1-3%<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 400;\">Destilaci\u00f3n de modelos<\/span><\/td>\n<td><span style=\"font-weight: 400;\">40-60%<\/span><\/td>\n<td><span style=\"font-weight: 400;\">2-3 veces<\/span><\/td>\n<td><span style=\"font-weight: 400;\">P\u00e9rdida 2-5%<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 400;\">Cuantizaci\u00f3n de cach\u00e9 KV<\/span><\/td>\n<td><span style=\"font-weight: 400;\">30-50% (solo cach\u00e9)<\/span><\/td>\n<td><span style=\"font-weight: 400;\">1,3-1,8x<\/span><\/td>\n<td><span style=\"font-weight: 400;\">&lt;1% p\u00e9rdida<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h2><span style=\"font-weight: 400;\">Almacenamiento en cach\u00e9 sem\u00e1ntico para la reducci\u00f3n de costos<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">El almacenamiento en cach\u00e9 parece obvio: guardar los resultados y reutilizarlos. Pero las aplicaciones LLM presentan desaf\u00edos \u00fanicos.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">La coincidencia exacta de cadenas falla porque los usuarios formulan preguntas id\u00e9nticas de manera diferente. &quot;What is the capital of France?&quot; y &quot;Tell me the capital city France&quot; deber\u00edan coincidir con la misma entrada de cach\u00e9.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">El almacenamiento en cach\u00e9 sem\u00e1ntico resuelve este problema al incrustar las consultas en un espacio vectorial y realizar coincidencias basadas en la similitud, en lugar de en cadenas exactas. Cuando llega una nueva consulta, el sistema calcula su incrustaci\u00f3n y busca entradas cercanas almacenadas en cach\u00e9. Si existe una coincidencia por encima de un umbral, se devuelve la respuesta almacenada. De lo contrario, se llama al modelo y se almacena el resultado en cach\u00e9.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Para aplicaciones de alto volumen, el almacenamiento en cach\u00e9 sem\u00e1ntico suele alcanzar tasas de aciertos de entre 40 y 601 TP3T tras la primera semana de funcionamiento. Con los precios de GPT-5, esto representa un ahorro mensual considerable para una sola funci\u00f3n.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">La implementaci\u00f3n requiere un ajuste preciso del umbral de similitud. Si se establece demasiado alto, los aciertos de cach\u00e9 disminuyen dr\u00e1sticamente. Si se establece demasiado bajo, el sistema devuelve respuestas obsoletas o irrelevantes, lo que perjudica la experiencia del usuario.<\/span><\/p>\n<h2><span style=\"font-weight: 400;\">Ingenier\u00eda r\u00e1pida y gesti\u00f3n de tokens<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">Los tokens de entrada cuestan dinero. Los tokens de salida cuestan m\u00e1s, a menudo entre 3 y 5 veces m\u00e1s que la tarifa de entrada.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">La optimizaci\u00f3n de prompts se centra en lograr los mismos resultados con menos tokens. Las t\u00e9cnicas incluyen:<\/span><\/p>\n<ul>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Eliminar contexto o ejemplos innecesarios<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Utilizar instrucciones con una redacci\u00f3n m\u00e1s concisa.<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Aprovechar los mensajes del sistema de manera eficiente<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Implementaci\u00f3n del aprendizaje con pocos ejemplos<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Limitar la longitud de salida mediante instrucciones<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400;\">El reto consiste en encontrar el equilibrio entre brevedad y claridad. Las indicaciones demasiado concisas suelen generar resultados de menor calidad, lo que obliga a repetir los intentos, cuyo coste supera el ahorro inicial.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Las pruebas demuestran que la compresi\u00f3n sistem\u00e1tica de las indicaciones \u2014que elimina los tokens redundantes conservando el significado sem\u00e1ntico\u2014 puede reducir los costos de entrada entre 20 y 401 TP3T sin p\u00e9rdida de precisi\u00f3n. Sin embargo, esto requiere una infraestructura de evaluaci\u00f3n que valide que las indicaciones comprimidas mantengan la calidad de la salida.<\/span><\/p>\n<p><img fetchpriority=\"high\" decoding=\"async\" class=\"alignnone wp-image-35437 size-full\" src=\"https:\/\/aisuperior.com\/wp-content\/uploads\/2026\/04\/image2-5.avif\" alt=\"Los tokens de salida suelen representar entre 50 y 60% del coste total de LLM, lo que hace que la optimizaci\u00f3n de la longitud de salida sea fundamental para el control de costes.\" width=\"1134\" height=\"553\" srcset=\"https:\/\/aisuperior.com\/wp-content\/uploads\/2026\/04\/image2-5.avif 1134w, https:\/\/aisuperior.com\/wp-content\/uploads\/2026\/04\/image2-5-300x146.avif 300w, https:\/\/aisuperior.com\/wp-content\/uploads\/2026\/04\/image2-5-1024x499.avif 1024w, https:\/\/aisuperior.com\/wp-content\/uploads\/2026\/04\/image2-5-768x375.avif 768w, https:\/\/aisuperior.com\/wp-content\/uploads\/2026\/04\/image2-5-18x9.avif 18w\" sizes=\"(max-width: 1134px) 100vw, 1134px\" \/><\/p>\n<h2><span style=\"font-weight: 400;\">Creaci\u00f3n de un sistema de control de costes<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">No se puede optimizar lo que no se mide.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Los sistemas LLM de producci\u00f3n requieren instrumentaci\u00f3n que permita realizar un seguimiento de los costes con distintos niveles de detalle: por usuario, por funci\u00f3n, por modelo y por tipo de solicitud. Esta visibilidad posibilita la toma de decisiones de optimizaci\u00f3n basadas en datos.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">La mayor\u00eda de los equipos comienzan con las facturas mensuales agregadas de los proveedores. Eso es insuficiente. La instrumentaci\u00f3n deber\u00eda capturar:<\/span><\/p>\n<ul>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Recuento de tokens (entrada, salida, en cach\u00e9) por solicitud<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Modelo utilizado y decisiones de enrutamiento<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">M\u00e9tricas de latencia y rendimiento<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Tasas de aciertos y efectividad de la cach\u00e9<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Tasas de error y costes de reintento<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Atribuci\u00f3n de costos a caracter\u00edsticas o usuarios<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400;\">Los controles presupuestarios jer\u00e1rquicos permiten a los equipos establecer l\u00edmites de gasto en distintos niveles: a nivel de toda la organizaci\u00f3n, por equipo, por funci\u00f3n o por usuario. Cuando se alcanza un umbral presupuestario, el sistema puede redirigir autom\u00e1ticamente a modelos m\u00e1s econ\u00f3micos o implementar limitaciones de uso.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Seg\u00fan una investigaci\u00f3n del MIT sobre las leyes de escalado de la IA, es fundamental definir de antemano el presupuesto de computaci\u00f3n y la precisi\u00f3n objetivo del modelo. La investigaci\u00f3n revel\u00f3 que un error relativo promedio (ARE) de 4% representa aproximadamente la mejor precisi\u00f3n alcanzable debido al ruido aleatorio de la semilla, pero un ARE de hasta 20% sigue siendo \u00fatil para la toma de decisiones.<\/span><\/p>\n<h2><span style=\"font-weight: 400;\">El problema econ\u00f3mico del proveedor<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">Los servicios LLM gestionados, como Azure OpenAI, plantean desaf\u00edos de gesti\u00f3n de costes que difieren fundamentalmente de los modelos de nube tradicionales. La estructura de precios depende de los tokens de entrada, los tokens de salida, los tokens en cach\u00e9, las unidades de rendimiento aprovisionadas (PTU) y las configuraciones de implementaci\u00f3n.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Azure OpenAI oculta espec\u00edficamente los verdaderos factores que influyen en los costos debido a su arquitectura. Las organizaciones aprovisionan capacidad en PTU sin una visibilidad clara del consumo real de tokens ni de la utilizaci\u00f3n del modelo. Esto genera lagunas en la rendici\u00f3n de cuentas: los equipos de ingenier\u00eda no pueden determinar qu\u00e9 funciones generan costos ni si las optimizaciones realmente funcionan.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Las plataformas de gesti\u00f3n de costes en la nube dise\u00f1adas para infraestructuras tradicionales no gestionan eficazmente las cargas de trabajo de IA. Registran las horas de las m\u00e1quinas virtuales y los bytes de almacenamiento, pero carecen de la granularidad a nivel de token necesaria para la optimizaci\u00f3n de LLM.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">La gesti\u00f3n financiera para la IA requiere un an\u00e1lisis econ\u00f3mico de los casos de uso. Los equipos deben realizar un seguimiento de los costos unitarios (costo por conversaci\u00f3n, por documento resumido, por finalizaci\u00f3n de c\u00f3digo) en lugar de simplemente registrar el gasto total. Esto implica un cambio de enfoque, pasando de la gesti\u00f3n de costos de infraestructura a la eficiencia de la producci\u00f3n.<\/span><\/p>\n<h2><span style=\"font-weight: 400;\">Marco de implementaci\u00f3n en el mundo real<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">La optimizaci\u00f3n no es un proyecto puntual. Es una pr\u00e1ctica continua que evoluciona con los patrones de uso y la disponibilidad de los modelos.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Fase 1: L\u00ednea de base e instrumentaci\u00f3n<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Comience con una instrumentaci\u00f3n integral. Implemente un sistema de seguimiento que registre el uso de tokens, la selecci\u00f3n de modelos, la latencia y los costos con granularidad por solicitud. Establezca m\u00e9tricas de referencia: costos actuales, distribuci\u00f3n entre casos de uso y puntos de referencia de rendimiento.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Esta fase suele durar entre 2 y 4 semanas y requiere cambios m\u00ednimos en el c\u00f3digo, principalmente la adici\u00f3n de registros y la recopilaci\u00f3n de m\u00e9tricas.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Fase 2: Victorias r\u00e1pidas<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Implementar optimizaciones sencillas:<\/span><\/p>\n<ul>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Implementar el almacenamiento en cach\u00e9 sem\u00e1ntico para consultas de alta frecuencia.<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Dirija las consultas simples a modelos m\u00e1s econ\u00f3micos.<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Comprime las indicaciones eliminando el contexto redundante.<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Establecer l\u00edmites m\u00e1ximos de tokens de salida<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400;\">Estos cambios suelen generar reducciones de costes de entre 30 y 501 TP3T en cuesti\u00f3n de semanas, sin p\u00e9rdida de precisi\u00f3n.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Fase 3: Optimizaci\u00f3n de la infraestructura<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Ahora abordemos optimizaciones m\u00e1s profundas:<\/span><\/p>\n<ul>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Implementar enrutamiento din\u00e1mico con an\u00e1lisis de complejidad<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Implementar modelos cuantizados para cargas de trabajo tolerantes a la latencia.<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Optimizar la gesti\u00f3n de la cach\u00e9 KV<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Implementar el procesamiento por lotes continuo para mejorar el rendimiento.<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400;\">Esta fase requiere un mayor esfuerzo de ingenier\u00eda (normalmente de 1 a 3 meses), pero permite una reducci\u00f3n de costes adicional de 20-40%.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Fase 4: Mejora continua<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Establezca mecanismos de retroalimentaci\u00f3n. Supervise qu\u00e9 consultas se enrutan a d\u00f3nde, qu\u00e9 entradas de cach\u00e9 se acceden con frecuencia y d\u00f3nde surgen problemas de latencia o calidad. Utilice estos datos para refinar la l\u00f3gica de enrutamiento, actualizar las pol\u00edticas de cach\u00e9 y reajustar los par\u00e1metros de cuantificaci\u00f3n.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Probar nuevos modelos se convierte en algo rutinario. Cuando los proveedores lanzan opciones mejoradas, la instrumentaci\u00f3n permite realizar pruebas A\/B r\u00e1pidas para validar la relaci\u00f3n costo-calidad antes de su implementaci\u00f3n completa.<\/span><\/p>\n<p><img decoding=\"async\" class=\"alignnone wp-image-35438 size-full\" src=\"https:\/\/aisuperior.com\/wp-content\/uploads\/2026\/04\/image1-9.avif\" alt=\"Un enfoque gradual para la optimizaci\u00f3n de costos de LLM ofrece ahorros incrementales mientras se avanza hacia una reducci\u00f3n total de costos de 70-85% en 3-6 meses.\" width=\"1363\" height=\"662\" srcset=\"https:\/\/aisuperior.com\/wp-content\/uploads\/2026\/04\/image1-9.avif 1363w, https:\/\/aisuperior.com\/wp-content\/uploads\/2026\/04\/image1-9-300x146.avif 300w, https:\/\/aisuperior.com\/wp-content\/uploads\/2026\/04\/image1-9-1024x497.avif 1024w, https:\/\/aisuperior.com\/wp-content\/uploads\/2026\/04\/image1-9-768x373.avif 768w, https:\/\/aisuperior.com\/wp-content\/uploads\/2026\/04\/image1-9-18x9.avif 18w\" sizes=\"(max-width: 1363px) 100vw, 1363px\" \/><\/p>\n<h2><span style=\"font-weight: 400;\">Errores comunes que se deben evitar<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">La optimizaci\u00f3n de costes puede resultar contraproducente cuando los equipos optimizan las m\u00e9tricas equivocadas o sacrifican capacidades cr\u00edticas:<\/span><\/p>\n<ul>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><b>Degradaci\u00f3n de la latencia: <\/b><span style=\"font-weight: 400;\">El almacenamiento en cach\u00e9 agresivo o el enrutamiento a modelos m\u00e1s lentos pueden aumentar los tiempos de respuesta m\u00e1s all\u00e1 de la tolerancia del usuario. En las aplicaciones interactivas, la latencia es tan importante como el coste. Los usuarios abandonan las experiencias con retrasos de 3 a 5 segundos, independientemente de la precisi\u00f3n.<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><b>erosi\u00f3n de la calidad: <\/b><span style=\"font-weight: 400;\">El enrutamiento excesivo a modelos peque\u00f1os degrada la calidad de la salida. Las pruebas pueden mostrar una precisi\u00f3n aceptable en los conjuntos de datos de referencia, pero los casos extremos en producci\u00f3n revelan debilidades. Implemente un sistema de monitoreo de calidad junto con el seguimiento de costos.<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><b>Sobredise\u00f1o del almacenamiento en cach\u00e9:<\/b><span style=\"font-weight: 400;\"> El almacenamiento en cach\u00e9 sem\u00e1ntico aumenta la complejidad de la infraestructura. Para las funciones con poco tr\u00e1fico, el costo de ingenier\u00eda para implementar y mantener el almacenamiento en cach\u00e9 supera el ahorro. Conc\u00e9ntrese primero en los puntos finales con alto volumen de tr\u00e1fico.<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><b>Ignorando los costos de arranque en fr\u00edo: <\/b><span style=\"font-weight: 400;\">La carga e inicializaci\u00f3n de modelos pueden afectar el rendimiento y la eficiencia de costos. Las pol\u00edticas de escalado a cero requieren una cuidadosa consideraci\u00f3n de la latencia de inicio frente a los costos de inactividad. Equilibre los costos de inactividad con la latencia de inicio.<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><b>Dependencia del proveedor: <\/b><span style=\"font-weight: 400;\">La optimizaci\u00f3n exhaustiva para las API o la estructura de precios espec\u00edficas de un proveedor crea barreras para la migraci\u00f3n. Siempre que sea posible, abstraiga los detalles espec\u00edficos del proveedor mediante interfaces que permitan el cambio.<\/span><\/li>\n<\/ul>\n<h2><img decoding=\"async\" class=\"alignnone  wp-image-26755\" src=\"https:\/\/aisuperior.com\/wp-content\/uploads\/2024\/12\/AI-Superior-300x55-1.png\" alt=\"\" width=\"316\" height=\"85\" srcset=\"https:\/\/aisuperior.com\/wp-content\/uploads\/2024\/12\/AI-Superior-300x55-1.png 4000w, https:\/\/aisuperior.com\/wp-content\/uploads\/2024\/12\/AI-Superior-300x55-1-300x81.png 300w, https:\/\/aisuperior.com\/wp-content\/uploads\/2024\/12\/AI-Superior-300x55-1-1024x275.png 1024w, https:\/\/aisuperior.com\/wp-content\/uploads\/2024\/12\/AI-Superior-300x55-1-768x207.png 768w, https:\/\/aisuperior.com\/wp-content\/uploads\/2024\/12\/AI-Superior-300x55-1-1536x413.png 1536w, https:\/\/aisuperior.com\/wp-content\/uploads\/2024\/12\/AI-Superior-300x55-1-2048x551.png 2048w, https:\/\/aisuperior.com\/wp-content\/uploads\/2024\/12\/AI-Superior-300x55-1-18x5.png 18w\" sizes=\"(max-width: 316px) 100vw, 316px\" \/><\/h2>\n<h2><span style=\"font-weight: 400;\">Reduzca los costos de implementaci\u00f3n de LLM donde realmente comienzan.<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">La mayor\u00eda de los costes de implementaci\u00f3n de LLM no se deben \u00fanicamente al modelo, sino tambi\u00e9n a c\u00f3mo se dise\u00f1a, integra y escala el sistema. <\/span><a href=\"https:\/\/aisuperior.com\/es\/\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">IA superior<\/span><\/a><span style=\"font-weight: 400;\"> Trabajan en todo el ciclo de vida de la implementaci\u00f3n, desde la selecci\u00f3n y el ajuste de modelos hasta la configuraci\u00f3n y optimizaci\u00f3n de la infraestructura. Su enfoque se centra en la creaci\u00f3n de sistemas de IA que se ajusten a la carga de trabajo real, ya sea mediante el uso de modelos personalizados, la optimizaci\u00f3n de los existentes o el equilibrio entre el uso de API y la implementaci\u00f3n interna. Esto reduce la inferencia innecesaria, evita la sobredimensionaci\u00f3n de la infraestructura y mantiene un rendimiento predecible a medida que aumenta el uso.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Los problemas de costos en la implementaci\u00f3n generalmente provienen de decisiones tomadas antes del lanzamiento: tama\u00f1o del modelo, flujos de datos y frecuencia de las llamadas a los sistemas. Ajustar estos aspectos tiene un mayor impacto que cambiar de herramientas posteriormente. Si desea que su implementaci\u00f3n de LLM siga siendo eficiente a medida que crece, cont\u00e1ctenos. <\/span><a href=\"https:\/\/aisuperior.com\/es\/contact\/\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">IA superior<\/span><\/a><span style=\"font-weight: 400;\"> y adapta tu configuraci\u00f3n a c\u00f3mo se utilizar\u00e1 realmente en producci\u00f3n.<\/span><\/p>\n<h2><span style=\"font-weight: 400;\">Mirando hacia el futuro: Trayectorias de costos<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">Algunos creen que los costes de los m\u00e1steres en Derecho tender\u00e1n a cero, haciendo innecesaria la optimizaci\u00f3n. La historia sugiere lo contrario.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Los costos de computaci\u00f3n han disminuido constantemente durante d\u00e9cadas, pero la demanda crece a un ritmo mayor. Los modelos m\u00e1s potentes permiten nuevos casos de uso que consumen m\u00e1s recursos computacionales. Las ventanas de contexto se expanden de 2048 a m\u00e1s de 128\u00a0000 tokens, lo que multiplica los requisitos de memoria. Los modelos multimodales procesan im\u00e1genes y video junto con texto.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Las organizaciones que consideran los costos de LLM como estrat\u00e9gicos \u2014desarrollando capacidades de optimizaci\u00f3n desde el principio\u2014 crean ventajas competitivas que se multiplican con el tiempo. La eficiencia en costos permite una escalabilidad sostenible, facilitando una implementaci\u00f3n y experimentaci\u00f3n m\u00e1s amplias sin que las restricciones presupuestarias limiten el desarrollo del producto.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">La optimizaci\u00f3n de la infraestructura, la selecci\u00f3n de modelos y la gesti\u00f3n de tokens no son proyectos puntuales. Son competencias fundamentales para las empresas nativas de IA. Los equipos que desarrollen estas capacidades ahora operar\u00e1n con ventajas estructurales en cuanto a costes que sus competidores dif\u00edcilmente podr\u00e1n igualar.<\/span><\/p>\n<h2><span style=\"font-weight: 400;\">Preguntas frecuentes<\/span><\/h2>\n<div class=\"schema-faq-code\">\n<div class=\"faq-question\">\n<h3 class=\"faq-q\">\u00bfCu\u00e1l es la forma m\u00e1s r\u00e1pida de reducir los costos de LLM en 30% o m\u00e1s?<\/h3>\n<div>\n<p class=\"faq-a\">Implemente el almacenamiento en cach\u00e9 sem\u00e1ntico para consultas de alta frecuencia y dirija las solicitudes simples a modelos m\u00e1s econ\u00f3micos. Estos dos cambios suelen generar una reducci\u00f3n de costos de 30 a 50 TP3T en 4 a 6 semanas con un m\u00ednimo esfuerzo de ingenier\u00eda. Comience por instrumentar para identificar qu\u00e9 puntos finales tienen un alto volumen de solicitudes y poca diversidad de consultas; estos son candidatos ideales para el almacenamiento en cach\u00e9.<\/p>\n<\/div>\n<\/div>\n<div class=\"faq-question\">\n<h3 class=\"faq-q\">\u00bfDeber\u00eda usar GPT-4 o Claude para la optimizaci\u00f3n de costes?<\/h3>\n<div>\n<p class=\"faq-a\">Ninguno de los dos es exclusivo. GPT-5.4 cobra $2.50 por mill\u00f3n de tokens de entrada, mientras que Claude 4.5 Sonnet cobra $3 por mill\u00f3n de tokens de entrada. Pero el costo por token no es el \u00fanico factor: la calidad de la salida, la latencia y los requisitos de longitud del contexto tambi\u00e9n son importantes. Implemente un enrutamiento que utilice cada modelo para las cargas de trabajo donde ofrezca el mejor equilibrio entre costo, calidad y latencia. Probar diferentes modelos con datos de producci\u00f3n es la \u00fanica manera de determinar la asignaci\u00f3n \u00f3ptima.<\/p>\n<\/div>\n<\/div>\n<div class=\"faq-question\">\n<h3 class=\"faq-q\">\u00bfLa cuantizaci\u00f3n perjudica significativamente la precisi\u00f3n del modelo?<\/h3>\n<div>\n<p class=\"faq-a\">No, si se realiza correctamente. Las investigaciones demuestran que la cuantizaci\u00f3n de 8 bits suele provocar una p\u00e9rdida de precisi\u00f3n inferior a 11 TP3T, a la vez que reduce los requisitos de memoria en 501 TP3T. Incluso la cuantizaci\u00f3n de 4 bits con una calibraci\u00f3n cuidadosa (como GPTQ) solo pierde entre 1 y 31 TP3T de precisi\u00f3n, a la vez que reduce la memoria en 751 TP3T. La clave reside en probar los modelos cuantizados con conjuntos de datos de evaluaci\u00f3n representativos antes de su implementaci\u00f3n en producci\u00f3n para validar un rendimiento aceptable.<\/p>\n<\/div>\n<\/div>\n<div class=\"faq-question\">\n<h3 class=\"faq-q\">\u00bfCu\u00e1nto ahorro real puede suponer el almacenamiento en cach\u00e9 en un entorno de producci\u00f3n?<\/h3>\n<div>\n<p class=\"faq-a\">Las tasas de aciertos del almacenamiento en cach\u00e9 sem\u00e1ntico suelen alcanzar entre 40 y 60 TP3T tras la primera semana de funcionamiento para la mayor\u00eda de las aplicaciones. Para un chatbot de soporte que procesa 500\u00a0000 solicitudes mensuales con precios de GPT-4, esto se traduce en un ahorro mensual de entre 7200 y 10\u00a0800 TP4T. Sin embargo, la efectividad var\u00eda seg\u00fan el caso de uso: las aplicaciones de preguntas frecuentes (FAQ) obtienen tasas de aciertos m\u00e1s altas, mientras que las aplicaciones creativas o altamente personalizadas se benefician menos del almacenamiento en cach\u00e9.<\/p>\n<\/div>\n<\/div>\n<div class=\"faq-question\">\n<h3 class=\"faq-q\">\u00bfCu\u00e1l es el retorno de la inversi\u00f3n al construir una infraestructura de optimizaci\u00f3n personalizada?<\/h3>\n<div>\n<p class=\"faq-a\">Para aplicaciones con un gasto mensual superior a $5000 en costos de LLM, la infraestructura de optimizaci\u00f3n personalizada suele amortizarse en 3 a 6 meses. La inversi\u00f3n en ingenier\u00eda oscila entre 2 y 4 meses de trabajo de un desarrollador para una implementaci\u00f3n integral que incluya instrumentaci\u00f3n, almacenamiento en cach\u00e9 y enrutamiento. Las organizaciones con un presupuesto menor deber\u00edan centrarse en optimizaciones m\u00e1s sencillas, como la compresi\u00f3n de solicitudes y la selecci\u00f3n de proveedores, antes de desarrollar una infraestructura personalizada.<\/p>\n<\/div>\n<\/div>\n<div class=\"faq-question\">\n<h3 class=\"faq-q\">\u00bfC\u00f3mo puedo equilibrar la optimizaci\u00f3n de costes con la latencia de respuesta?<\/h3>\n<div>\n<p class=\"faq-a\">Mida ambas m\u00e9tricas en conjunto y defina los compromisos aceptables. Algunas optimizaciones, como el almacenamiento en cach\u00e9, reducen tanto el costo como la latencia. Otras, como el enrutamiento a modelos m\u00e1s peque\u00f1os, pueden aumentar ligeramente la latencia a la vez que reducen los costos. Defina acuerdos de nivel de servicio (SLA) de latencia para cada caso de uso: el chat interactivo podr\u00eda requerir respuestas en fracciones de segundo, mientras que el procesamiento de documentos por lotes tolera minutos. Optimice dentro de las restricciones en lugar de tratar el costo o la latencia de forma aislada.<\/p>\n<\/div>\n<\/div>\n<div class=\"faq-question\">\n<h3 class=\"faq-q\">\u00bfPuedo ejecutar los programas de m\u00e1ster en derecho (LLM) en mis propias instalaciones para reducir costes?<\/h3>\n<div>\n<p class=\"faq-a\">Quiz\u00e1s. La implementaci\u00f3n local elimina los costos de la API, pero requiere infraestructura de GPU, experiencia en ingenier\u00eda para la optimizaci\u00f3n del servicio y gastos operativos. Esto resulta rentable a gran escala (aproximadamente 500\u00a0000 solicitudes diarias o m\u00e1s), donde los costos fijos de infraestructura se amortizan entre un alto volumen de solicitudes. Por debajo de ese umbral, las API gestionadas suelen ser m\u00e1s econ\u00f3micas si se considera el costo total de propiedad, incluido el tiempo de ingenier\u00eda.<\/p>\n<h2><span style=\"font-weight: 400;\">Conclusi\u00f3n<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">La optimizaci\u00f3n de costes de LLM no es opcional para los productos nativos de IA. La econom\u00eda es fundamentalmente diferente a la del software tradicional: los costes variables aumentan con el uso, lo que genera una econom\u00eda unitaria similar a la de la fabricaci\u00f3n que exige atenci\u00f3n constante.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Pero la oportunidad es considerable. Las organizaciones que implementan una optimizaci\u00f3n integral, que combina la selecci\u00f3n inteligente de modelos, el ajuste de la infraestructura, el almacenamiento en cach\u00e9 sem\u00e1ntico y la gesti\u00f3n de tokens, logran reducciones de costos de entre 60 y 851 TP3T sin sacrificar la calidad ni la experiencia del usuario.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Empiece por la instrumentaci\u00f3n. Los equipos no pueden optimizar lo que no miden. Genere visibilidad sobre el uso de tokens, la selecci\u00f3n de modelos y la atribuci\u00f3n de costos con un nivel de detalle que permita evaluar las solicitudes.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Luego, implemente mejoras r\u00e1pidas: almacenar en cach\u00e9 las consultas de alta frecuencia y redirigir las solicitudes simples a modelos eficientes. Estas medidas generan un impacto inmediato a la vez que fortalecen la capacidad organizacional para una optimizaci\u00f3n m\u00e1s profunda.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">La ventaja competitiva la obtienen los equipos que consideran la optimizaci\u00f3n de costos como una disciplina continua, en lugar de un proyecto puntual. Es fundamental construir la infraestructura, establecer las pr\u00e1cticas y realizar iteraciones constantes a medida que evolucionan los patrones de uso y surgen nuevos modelos.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">El futuro de la implementaci\u00f3n de la IA pertenece a las organizaciones que resuelvan tanto los desaf\u00edos t\u00e9cnicos como los econ\u00f3micos. Empiece a optimizar hoy mismo.<\/span><\/p>\n<\/div>\n<\/div>\n<\/div>","protected":false},"excerpt":{"rendered":"<p>Quick Summary: LLM cost optimization in AI deployment requires a multi-layered approach combining smart model selection, infrastructure tuning, and token management. Organizations can reduce costs by 60-85% through techniques like model routing, semantic caching, and KV cache optimization\u2014without sacrificing accuracy. The key is treating LLM costs like manufacturing unit economics rather than traditional software expenses. [&hellip;]<\/p>\n","protected":false},"author":7,"featured_media":35436,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"inline_featured_image":false,"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"default","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","ast-disable-related-posts":"","theme-transparent-header-meta":"default","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"set","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"footnotes":""},"categories":[1],"tags":[],"class_list":["post-35435","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-blog"],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.7 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>LLM Cost Optimization in AI Deployment (2026 Guide)<\/title>\n<meta name=\"description\" content=\"Cut LLM costs by 60-85% without sacrificing performance. Learn proven strategies for model selection, caching, and infrastructure optimization in production.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/aisuperior.com\/es\/llm-cost-optimization-in-ai-deployment\/\" \/>\n<meta property=\"og:locale\" content=\"es_ES\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"LLM Cost Optimization in AI Deployment (2026 Guide)\" \/>\n<meta property=\"og:description\" content=\"Cut LLM costs by 60-85% without sacrificing performance. Learn proven strategies for model selection, caching, and infrastructure optimization in production.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/aisuperior.com\/es\/llm-cost-optimization-in-ai-deployment\/\" \/>\n<meta property=\"og:site_name\" content=\"aisuperior\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/aisuperior\" \/>\n<meta property=\"article:published_time\" content=\"2026-04-17T10:43:28+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/aisuperior.com\/wp-content\/uploads\/2026\/04\/imagem-1776422495589-1024x683.png\" \/>\n\t<meta property=\"og:image:width\" content=\"1024\" \/>\n\t<meta property=\"og:image:height\" content=\"683\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"author\" content=\"kateryna\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@aisuperior\" \/>\n<meta name=\"twitter:site\" content=\"@aisuperior\" \/>\n<meta name=\"twitter:label1\" content=\"Escrito por\" \/>\n\t<meta name=\"twitter:data1\" content=\"kateryna\" \/>\n\t<meta name=\"twitter:label2\" content=\"Tiempo de lectura\" \/>\n\t<meta name=\"twitter:data2\" content=\"14 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\\\/\\\/aisuperior.com\\\/llm-cost-optimization-in-ai-deployment\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/aisuperior.com\\\/llm-cost-optimization-in-ai-deployment\\\/\"},\"author\":{\"name\":\"kateryna\",\"@id\":\"https:\\\/\\\/aisuperior.com\\\/#\\\/schema\\\/person\\\/14fcb7aaed4b2b617c4f75699394241c\"},\"headline\":\"LLM Cost Optimization in AI Deployment (2026 Guide)\",\"datePublished\":\"2026-04-17T10:43:28+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/aisuperior.com\\\/llm-cost-optimization-in-ai-deployment\\\/\"},\"wordCount\":2932,\"publisher\":{\"@id\":\"https:\\\/\\\/aisuperior.com\\\/#organization\"},\"image\":{\"@id\":\"https:\\\/\\\/aisuperior.com\\\/llm-cost-optimization-in-ai-deployment\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/aisuperior.com\\\/wp-content\\\/uploads\\\/2026\\\/04\\\/imagem-1776422495589.png\",\"articleSection\":[\"Blog\"],\"inLanguage\":\"es\"},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/aisuperior.com\\\/llm-cost-optimization-in-ai-deployment\\\/\",\"url\":\"https:\\\/\\\/aisuperior.com\\\/llm-cost-optimization-in-ai-deployment\\\/\",\"name\":\"LLM Cost Optimization in AI Deployment (2026 Guide)\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/aisuperior.com\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/aisuperior.com\\\/llm-cost-optimization-in-ai-deployment\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/aisuperior.com\\\/llm-cost-optimization-in-ai-deployment\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/aisuperior.com\\\/wp-content\\\/uploads\\\/2026\\\/04\\\/imagem-1776422495589.png\",\"datePublished\":\"2026-04-17T10:43:28+00:00\",\"description\":\"Cut LLM costs by 60-85% without sacrificing performance. Learn proven strategies for model selection, caching, and infrastructure optimization in production.\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/aisuperior.com\\\/llm-cost-optimization-in-ai-deployment\\\/#breadcrumb\"},\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/aisuperior.com\\\/llm-cost-optimization-in-ai-deployment\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\\\/\\\/aisuperior.com\\\/llm-cost-optimization-in-ai-deployment\\\/#primaryimage\",\"url\":\"https:\\\/\\\/aisuperior.com\\\/wp-content\\\/uploads\\\/2026\\\/04\\\/imagem-1776422495589.png\",\"contentUrl\":\"https:\\\/\\\/aisuperior.com\\\/wp-content\\\/uploads\\\/2026\\\/04\\\/imagem-1776422495589.png\",\"width\":1536,\"height\":1024},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/aisuperior.com\\\/llm-cost-optimization-in-ai-deployment\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\\\/\\\/aisuperior.com\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"LLM Cost Optimization in AI Deployment (2026 Guide)\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/aisuperior.com\\\/#website\",\"url\":\"https:\\\/\\\/aisuperior.com\\\/\",\"name\":\"aisuperior\",\"description\":\"\",\"publisher\":{\"@id\":\"https:\\\/\\\/aisuperior.com\\\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/aisuperior.com\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"es\"},{\"@type\":\"Organization\",\"@id\":\"https:\\\/\\\/aisuperior.com\\\/#organization\",\"name\":\"aisuperior\",\"url\":\"https:\\\/\\\/aisuperior.com\\\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\\\/\\\/aisuperior.com\\\/#\\\/schema\\\/logo\\\/image\\\/\",\"url\":\"https:\\\/\\\/aisuperior.com\\\/wp-content\\\/uploads\\\/2026\\\/02\\\/logo-1.png.webp\",\"contentUrl\":\"https:\\\/\\\/aisuperior.com\\\/wp-content\\\/uploads\\\/2026\\\/02\\\/logo-1.png.webp\",\"width\":320,\"height\":59,\"caption\":\"aisuperior\"},\"image\":{\"@id\":\"https:\\\/\\\/aisuperior.com\\\/#\\\/schema\\\/logo\\\/image\\\/\"},\"sameAs\":[\"https:\\\/\\\/www.facebook.com\\\/aisuperior\",\"https:\\\/\\\/x.com\\\/aisuperior\",\"https:\\\/\\\/www.linkedin.com\\\/company\\\/ai-superior\",\"https:\\\/\\\/www.instagram.com\\\/ai_superior\\\/\"]},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/aisuperior.com\\\/#\\\/schema\\\/person\\\/14fcb7aaed4b2b617c4f75699394241c\",\"name\":\"kateryna\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\\\/\\\/aisuperior.com\\\/wp-content\\\/litespeed\\\/avatar\\\/6c451fec1b37608859459eb63b5a3380.jpg?ver=1779802214\",\"url\":\"https:\\\/\\\/aisuperior.com\\\/wp-content\\\/litespeed\\\/avatar\\\/6c451fec1b37608859459eb63b5a3380.jpg?ver=1779802214\",\"contentUrl\":\"https:\\\/\\\/aisuperior.com\\\/wp-content\\\/litespeed\\\/avatar\\\/6c451fec1b37608859459eb63b5a3380.jpg?ver=1779802214\",\"caption\":\"kateryna\"}}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Optimizaci\u00f3n de costes en la implementaci\u00f3n de IA (Gu\u00eda 2026)","description":"Reduzca los costos de LLM entre 60 y 851 TP3T sin sacrificar el rendimiento. Aprenda estrategias comprobadas para la selecci\u00f3n de modelos, el almacenamiento en cach\u00e9 y la optimizaci\u00f3n de la infraestructura en producci\u00f3n.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/aisuperior.com\/es\/llm-cost-optimization-in-ai-deployment\/","og_locale":"es_ES","og_type":"article","og_title":"LLM Cost Optimization in AI Deployment (2026 Guide)","og_description":"Cut LLM costs by 60-85% without sacrificing performance. Learn proven strategies for model selection, caching, and infrastructure optimization in production.","og_url":"https:\/\/aisuperior.com\/es\/llm-cost-optimization-in-ai-deployment\/","og_site_name":"aisuperior","article_publisher":"https:\/\/www.facebook.com\/aisuperior","article_published_time":"2026-04-17T10:43:28+00:00","og_image":[{"width":1024,"height":683,"url":"https:\/\/aisuperior.com\/wp-content\/uploads\/2026\/04\/imagem-1776422495589-1024x683.png","type":"image\/png"}],"author":"kateryna","twitter_card":"summary_large_image","twitter_creator":"@aisuperior","twitter_site":"@aisuperior","twitter_misc":{"Escrito por":"kateryna","Tiempo de lectura":"14 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/aisuperior.com\/llm-cost-optimization-in-ai-deployment\/#article","isPartOf":{"@id":"https:\/\/aisuperior.com\/llm-cost-optimization-in-ai-deployment\/"},"author":{"name":"kateryna","@id":"https:\/\/aisuperior.com\/#\/schema\/person\/14fcb7aaed4b2b617c4f75699394241c"},"headline":"LLM Cost Optimization in AI Deployment (2026 Guide)","datePublished":"2026-04-17T10:43:28+00:00","mainEntityOfPage":{"@id":"https:\/\/aisuperior.com\/llm-cost-optimization-in-ai-deployment\/"},"wordCount":2932,"publisher":{"@id":"https:\/\/aisuperior.com\/#organization"},"image":{"@id":"https:\/\/aisuperior.com\/llm-cost-optimization-in-ai-deployment\/#primaryimage"},"thumbnailUrl":"https:\/\/aisuperior.com\/wp-content\/uploads\/2026\/04\/imagem-1776422495589.png","articleSection":["Blog"],"inLanguage":"es"},{"@type":"WebPage","@id":"https:\/\/aisuperior.com\/llm-cost-optimization-in-ai-deployment\/","url":"https:\/\/aisuperior.com\/llm-cost-optimization-in-ai-deployment\/","name":"Optimizaci\u00f3n de costes en la implementaci\u00f3n de IA (Gu\u00eda 2026)","isPartOf":{"@id":"https:\/\/aisuperior.com\/#website"},"primaryImageOfPage":{"@id":"https:\/\/aisuperior.com\/llm-cost-optimization-in-ai-deployment\/#primaryimage"},"image":{"@id":"https:\/\/aisuperior.com\/llm-cost-optimization-in-ai-deployment\/#primaryimage"},"thumbnailUrl":"https:\/\/aisuperior.com\/wp-content\/uploads\/2026\/04\/imagem-1776422495589.png","datePublished":"2026-04-17T10:43:28+00:00","description":"Reduzca los costos de LLM entre 60 y 851 TP3T sin sacrificar el rendimiento. Aprenda estrategias comprobadas para la selecci\u00f3n de modelos, el almacenamiento en cach\u00e9 y la optimizaci\u00f3n de la infraestructura en producci\u00f3n.","breadcrumb":{"@id":"https:\/\/aisuperior.com\/llm-cost-optimization-in-ai-deployment\/#breadcrumb"},"inLanguage":"es","potentialAction":[{"@type":"ReadAction","target":["https:\/\/aisuperior.com\/llm-cost-optimization-in-ai-deployment\/"]}]},{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/aisuperior.com\/llm-cost-optimization-in-ai-deployment\/#primaryimage","url":"https:\/\/aisuperior.com\/wp-content\/uploads\/2026\/04\/imagem-1776422495589.png","contentUrl":"https:\/\/aisuperior.com\/wp-content\/uploads\/2026\/04\/imagem-1776422495589.png","width":1536,"height":1024},{"@type":"BreadcrumbList","@id":"https:\/\/aisuperior.com\/llm-cost-optimization-in-ai-deployment\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/aisuperior.com\/"},{"@type":"ListItem","position":2,"name":"LLM Cost Optimization in AI Deployment (2026 Guide)"}]},{"@type":"WebSite","@id":"https:\/\/aisuperior.com\/#website","url":"https:\/\/aisuperior.com\/","name":"aisuperior","description":"","publisher":{"@id":"https:\/\/aisuperior.com\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/aisuperior.com\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"es"},{"@type":"Organization","@id":"https:\/\/aisuperior.com\/#organization","name":"aisuperior","url":"https:\/\/aisuperior.com\/","logo":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/aisuperior.com\/#\/schema\/logo\/image\/","url":"https:\/\/aisuperior.com\/wp-content\/uploads\/2026\/02\/logo-1.png.webp","contentUrl":"https:\/\/aisuperior.com\/wp-content\/uploads\/2026\/02\/logo-1.png.webp","width":320,"height":59,"caption":"aisuperior"},"image":{"@id":"https:\/\/aisuperior.com\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/aisuperior","https:\/\/x.com\/aisuperior","https:\/\/www.linkedin.com\/company\/ai-superior","https:\/\/www.instagram.com\/ai_superior\/"]},{"@type":"Person","@id":"https:\/\/aisuperior.com\/#\/schema\/person\/14fcb7aaed4b2b617c4f75699394241c","name":"Katerina","image":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/aisuperior.com\/wp-content\/litespeed\/avatar\/6c451fec1b37608859459eb63b5a3380.jpg?ver=1779802214","url":"https:\/\/aisuperior.com\/wp-content\/litespeed\/avatar\/6c451fec1b37608859459eb63b5a3380.jpg?ver=1779802214","contentUrl":"https:\/\/aisuperior.com\/wp-content\/litespeed\/avatar\/6c451fec1b37608859459eb63b5a3380.jpg?ver=1779802214","caption":"kateryna"}}]}},"_links":{"self":[{"href":"https:\/\/aisuperior.com\/es\/wp-json\/wp\/v2\/posts\/35435","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/aisuperior.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/aisuperior.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/aisuperior.com\/es\/wp-json\/wp\/v2\/users\/7"}],"replies":[{"embeddable":true,"href":"https:\/\/aisuperior.com\/es\/wp-json\/wp\/v2\/comments?post=35435"}],"version-history":[{"count":1,"href":"https:\/\/aisuperior.com\/es\/wp-json\/wp\/v2\/posts\/35435\/revisions"}],"predecessor-version":[{"id":35439,"href":"https:\/\/aisuperior.com\/es\/wp-json\/wp\/v2\/posts\/35435\/revisions\/35439"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/aisuperior.com\/es\/wp-json\/wp\/v2\/media\/35436"}],"wp:attachment":[{"href":"https:\/\/aisuperior.com\/es\/wp-json\/wp\/v2\/media?parent=35435"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/aisuperior.com\/es\/wp-json\/wp\/v2\/categories?post=35435"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/aisuperior.com\/es\/wp-json\/wp\/v2\/tags?post=35435"}],"curies":[{"name":"gracias","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}