¿Qué es un LLM y cómo se usa? Guía práctica desde Google I/O hasta tu

En el año 2024, la Universidad Nacional de Colombia, en Bogotá, fue escenario de un evento sin precedentes: el Google I/O Extended, un espacio donde desarrolladores, ingenieros, estudiantes y entusiastas de la tecnología se reunieron para explorar los avances más recientes en inteligencia artificial. Entre los temas …

Entre los temas centrales destacó uno de los más relevantes y transformadores de nuestra era: los LLM, sigla en inglés de Large Language Models (Modelos de Lenguaje de Gran Escala).

Desde el inicio, el conferencista capturó la atención del público con una serie de preguntas directas y provocadoras:

“¿Alguien ha trabajado con LLM?
¿Quién ha utilizado librerías o frameworks para integrar estos modelos en sus lenguajes de programación?
¿Han explorado sus capacidades en audio y video?
¿Y en última instancia… qué es realmente un LLM?”

Estas preguntas no solo invitaron a la reflexión, sino que marcaron la pauta de la jornada: entender la magnitud del impacto que están teniendo estos modelos en nuestra forma de interactuar con las máquinas y, sobre todo, con el lenguaje.

Los LLM y la evolución del lenguaje natural en la computación

Los LLM son modelos de inteligencia artificial diseñados para entender, procesar y generar lenguaje humano. Representan uno de los avances más significativos en el campo del procesamiento del lenguaje natural (NLP, por sus siglas en inglés), una rama de la IA que lleva más de 40 años intentando que las máquinas comprendan nuestra forma de comunicarnos.

A lo largo de las décadas, hemos utilizado desde reglas gramaticales básicas hasta estadísticas complejas para enseñarle a las máquinas cómo usamos el lenguaje. Sin embargo, fue con la llegada del deep learning y arquitecturas como Transformers que se logró un punto de inflexión: por primera vez, los modelos comenzaron a generar texto coherente, con contexto y relevancia.

Uno de los papers fundacionales de esta revolución fue “Attention Is All You Need”, donde se introdujo el concepto de self-attention, una técnica que permite a los modelos recordar y dar contexto a cada palabra dentro de una oración, entendiendo la relación entre términos separados por varias líneas de texto. Esta capacidad de "atención" es lo que ha hecho posible que los LLM se vuelvan tan poderosos y versátiles.

Retos actuales: gramática, traducción y multimodalidad

Pero no todo está resuelto. Existen múltiples desafíos. Desde los más sencillos, como mejorar la gramática y la fluidez del lenguaje en diferentes idiomas, hasta los más complejos, como la traducción automática de alta calidad o la integración de diferentes tipos de datos (texto, imagen, video y audio) en un solo modelo, lo que se conoce como IA multimodal.

Durante la conferencia, se hizo mención del artículo “Revealing the Power of Multimodal AI”, que demuestra cómo los transformers están siendo adaptados para trabajar con múltiples fuentes de información, permitiendo interacciones más ricas y naturales entre humanos y máquinas.

Aplicaciones reales de AI/ML y el poder de los Embeddings

Vivimos rodeados de inteligencia artificial. Aunque muchas veces no lo notamos, la usamos constantemente: cuando navegamos por Facebook, leemos en Twitter, buscamos en Google o recibimos recomendaciones en YouTube o Netflix. Estas plataformas utilizan inteligencia artificial (AI) y aprendizaje automático (ML) para ofrecer experiencias personalizadas, traducir textos, generar subtítulos automáticos, clasificar imágenes o incluso moderar contenido.

Pero detrás de todo esto, hay una evolución constante de tecnologías. Uno de los mayores avances ha sido el desarrollo de los embeddings, una técnica que comenzó a revolucionar el campo alrededor del año 2011.

¿Qué son los embeddings?

Un embedding es una forma de convertir palabras, frases, imágenes o sonidos en vectores numéricos — es decir, en listas de números que una máquina puede procesar. Por ejemplo, al tomar una palabra como “amor”, el embedding la representa como un punto en un espacio multidimensional.

Gracias a esto, podemos medir la distancia y similitud entre conceptos. Si dos palabras están cerca en ese espacio (por ejemplo, “perro” y “canino”), significa que tienen un significado similar. Esto es fundamental para que los modelos comprendan el contexto y el significado, no solo el texto literal.

Estos embeddings no solo funcionan con texto: también se pueden generar a partir de imágenes, audio o video, lo que ha llevado a una nueva era de modelos multimodales, capaces de trabajar con diferentes tipos de datos al mismo tiempo.

Los transformers, los tokens y la generación de texto

En el corazón de los modelos de lenguaje como los LLM están los Transformers. Estos modelos funcionan por medio de unidades llamadas tokens, que pueden representar palabras, sílabas o incluso caracteres. Cada token es transformado en un embedding y procesado para predecir el siguiente token de forma probabilística.

Es decir, el modelo analiza los tokens anteriores, calcula cuál es el próximo más probable —y también le puede añadir cierta aleatoriedad— para generar texto coherente y fluido. Todo esto ocurre en milisegundos, gracias a la potencia del deep learning.

Este proceso implica manejar grandes cantidades de datos: por ejemplo, un modelo puede haber sido entrenado con más de 4 millones de videos y generar hasta 15 billones de embeddings. Para que esto funcione de manera eficiente, se utilizan índices vectoriales que permiten hacer búsquedas rápidas entre vectores similares.

Bases de datos para embeddings y los desafíos actuales

Para almacenar y consultar estos vectores, se han empezado a usar bases de datos especializadas como PostgreSQL con extensiones para vectores, Firestore o MongoDB. Estas tecnologías permiten hacer búsquedas semánticas y clasificar información según su similitud, abriendo nuevas posibilidades en recomendación, traducción, análisis de sentimiento y más.

Sin embargo, los modelos LLM aún tienen limitaciones importantes. Por ejemplo:

Alucinaciones: a veces inventan respuestas que suenan correctas, pero no lo son.
Actualización lenta: los modelos no se actualizan en tiempo real. Para hacerlo, se necesita un proceso llamado fine-tuning, donde el modelo se entrena con nuevos datos. Esto puede tomar horas y requiere gran capacidad de cómputo.

Una alternativa más flexible es la técnica RAG (Retrieval-Augmented Generation), que permite consultar datos externos en tiempo real, sin necesidad de reentrenar todo el modelo.

Prompt Engineering y los modelos Gemini

El diseño de buenos prompts (instrucciones que damos al modelo) es fundamental para obtener respuestas útiles. Existen incluso libros como “101 Prompts con Gemini”, una guía práctica para aprender a escribir indicaciones efectivas.

En este contexto, Gemini es la familia de modelos de Google, que incluye versiones como Gemini Ultra, Pro, Flash y Nano, diseñadas para distintos niveles de capacidad y uso. Por ejemplo:

Gemini Flash 1.5: económico, rápido y eficiente.
Gemini Nano: funciona desde el navegador o en dispositivos móviles.
Gemini Ultra: modelo más avanzado, ideal para tareas complejas y multimodales.

Todos ellos son compatibles con Vertex AI, la plataforma de Google que permite integrar modelos mediante APIs y trabajar desde entornos como Colab. Desde ahí, podemos cargar audios, convertirlos en embeddings, almacenarlos, y luego realizar preguntas sobre ellos —incluso en tiempo real.

El embedding es la clave de todo

Volviendo al punto central: el embedding es el corazón de los modelos modernos. Cada palabra, imagen o sonido es traducido a un vector. Y como todos los vectores pueden compararse, podemos encontrar similitudes, construir motores de recomendación, clasificar documentos o generar respuestas contextualizadas.

Esto funciona gracias a operaciones matemáticas como el producto punto o el coseno del ángulo entre vectores, que permiten medir cuán similares son dos conceptos en ese espacio.

De la teoría a la práctica: cómo construir tu propia solución con LLMs

Este artículo, aunque inspirado en una conferencia reciente, ha sido ampliado con nuevos conceptos y explicaciones para facilitar la comprensión de quienes están iniciando o quieren avanzar en el uso de modelos de lenguaje e inteligencia artificial. Nuestro objetivo es que también sirva como una guía base para construir soluciones tecnológicas reales, desde la comprensión de los conceptos clave hasta su aplicación práctica.

¿Por dónde empezar? Comprender el ciclo básico de una aplicación AI con LLM

Crear una solución con modelos de lenguaje no requiere ser un experto, pero sí es clave entender algunos pasos fundamentales. Aquí te explicamos una ruta simplificada:

1. Definir el propósito de tu aplicación

Antes de tocar código, necesitas claridad:

¿Qué problema quieres resolver?
¿Qué tipo de entradas tendrá tu sistema (texto, audio, imágenes)?
¿Qué tipo de salida esperas (respuesta automática, recomendación, resumen)?

Ejemplos comunes:

Un asistente para responder correos automáticamente.
Un sistema que analiza quejas de clientes.
Un motor de búsqueda semántico sobre una base de datos interna.

2. Elegir el modelo y la tecnología adecuada

Dependiendo del caso de uso, puedes elegir entre modelos como:

Gemini Pro o Flash (Google): rápidos y accesibles.
GPT de OpenAI (vía API): muy potente y ampliamente documentado.
Modelos open source como Mistral o LLaMA: útiles si quieres mayor control y privacidad.

Plataformas como Vertex AI, Hugging Face, LangChain o OpenAI Playground permiten probar, ajustar y desplegar modelos fácilmente.

3. Diseñar buenos prompts

El prompt es el mensaje que le das al modelo. Piensa en él como el guión que guía la respuesta. Un buen prompt puede hacer la diferencia entre un resultado genérico o uno útil.

Ejemplo básico:

txt

CopyEdit

"Actúa como asesor legal y resume este documento de 5 párrafos en lenguaje claro para un cliente sin experiencia técnica."

Recomendación: crear una pequeña biblioteca de prompts probados que puedas reutilizar y mejorar.

4. Agregar datos externos si es necesario (RAG)

Si el modelo no tiene acceso a cierta información (por ejemplo, tus documentos internos), puedes usar la técnica RAG (Retrieval-Augmented Generation):

Convierte tus documentos en embeddings.
Al recibir una consulta, busca los textos más similares.
Entrégaselos al modelo como contexto junto con el prompt.

Esto te permite tener una “IA personalizada” sin hacer un entrenamiento completo.

5. Construir una interfaz o integrarlo a una app

Puedes mostrar los resultados en:

Un chatbot web (usando HTML, JavaScript, Flask, etc.)
Una app móvil.
Un panel interno para una empresa.

Herramientas como Streamlit, Gradio, Bubble o incluso Google Sheets + Apps Script pueden ayudarte a crear interfaces sin complicarte.

6. Evaluar, mejorar y pensar en producción

Finalmente, analiza cómo responde tu aplicación:

¿Responde correctamente?
¿Es coherente?
¿Genera alucinaciones?
¿Necesita más contexto?

A partir de ahí, puedes decidir si necesitas:

Afinar el modelo (fine-tuning).
Agregar más datos al sistema RAG.
Diseñar nuevos prompts.
Cambiar el modelo o ajustar los tokens permitidos.

Conclusión: una nueva forma de construir tecnología

Este artículo buscó ir más allá de los conceptos técnicos de una conferencia. Quisimos expandir ideas, aclarar términos complejos y brindar una ruta realista para quienes desean empezar a experimentar con Modelos de Lenguaje de Gran Escala (LLM).

Los embeddings, el RAG, los prompts bien diseñados y los modelos multimodales no son solo para las grandes empresas. Están disponibles hoy para emprendedores, profesores, desarrolladores independientes, estudiantes, o cualquier persona que desee explorar lo que viene.

Lo importante es empezar. No necesitas dominarlo todo desde el primer día. Solo necesitas una idea, una pregunta, y la voluntad de explorar.

Del aula a la revolución: lo que aprendimos de una conferencia sobre IA en la Universidad Nacional