
Descripción general de las capas de capacidad empresarial GenAI, desde el desarrollo de modelos hasta las operaciones en tiempo de ejecución.
La IA generativa ha superado su condición de palabra de moda para convertirse en una herramienta práctica y utilizable que respaldará los flujos de trabajo cotidianos dentro de las organizaciones. El alto impacto de la IA generativa ha sido aún más pronunciado en las plataformas de código bajo. No se trata simplemente de permitir a los usuarios automatizar más rápido: fundamentalmente, se replantea la forma en que los usuarios crean y consideran el software.
Para ampliar estos sistemas, una idea innovadora (y un plan de acción) es sólo el comienzo. El escalamiento requiere claridad, confianza e iteración; Los mejores ejemplos de características (y éxito) de GenAI que he observado no tenían una estrategia de marketing. Crecieron basándose en la confianza de los usuarios y el valor real. La experiencia guiada, el intercambio transparente y los circuitos de retroalimentación reales lanzaron un prototipo inicial de un producto que pasó de cero a 300.000 usuarios activos mensuales en menos de seis meses. Otros pasaron de cero a 150.000 usuarios y mantuvieron este entusiasmo durante más tiempo.
Por supuesto, tenga esto en cuenta: lograr ese tipo de adopción requiere un enfoque centrado en ofrecer valiosas funciones de Gen AI. Los equipos que tuvieron éxito en este espacio fueron aquellos que fueron pequeños, aprendieron rápidamente y midieron el éxito a lo largo del camino. Este enfoque disciplinado es la génesis del manual de estrategias GenAI 0 a 1.
Cómo utilizar un modelo para la creación temprana de prototipos
Cada proyecto GenAI comienza con el modelo. Existe una fuerte tentación de construir con demasiada antelación, pero el primer objetivo es la validación, no la perfección, al menos. Por lo general, en el modo prototipo, solo necesita 1) un modelo alojado, 2) un conjunto de inferencia que sea simple y 3) un bucle de retroalimentación. Luego, todos los sistemas y la gobernanza, el seguimiento y el cumplimiento pueden venir más adelante.

Una descripción general de las capas de capacidad empresarial GenAI, desde el desarrollo de modelos hasta el tiempo de ejecución.
La siguiente imagen ilustra las capas de capacidad de GenAI empresarial, desde un modelo hasta la operacionalización en tiempo de ejecución. Fuente: IBM – Modelo de capacidad de IA generativa…
Cuando creo iteraciones de prueba, trabajo para validar un modelo muy simple dentro de un lienzo de código reducido. Suele estar basada en una API pública o en un modelo alojado internamente. La velocidad es esencial. Resulta que hacer el trabajo frente al “usuario” real proporciona información sobre cómo interactúa la persona, dónde está estancada y qué quiere hacer a continuación.
En una prueba, las personas a menudo trataron las indicaciones como incompletas o vagas. El modelo tuvo cierto éxito, pero el comportamiento de los usuarios me indica qué tareas prefieren para expresar la automatización. Esto me llevó a un mejor diseño rápido, una mejor incorporación y mejores datos.
Finalmente, para evaluar el éxito, entre los datos generados, el compromiso, el tiempo de la sesión y la satisfacción. Al principio, la baja precisión o la métrica de precio eran insignificantes. La baja curiosidad fue la clave. Si los usuarios eligen volver a la experiencia, es posible que tenga algo, si los usuarios abandonan la exploración o regresan, probablemente sea hora de empezar de nuevo.
Cómo ajustar un modelo cuando la precisión inicial es baja
Una vez que se adopta y utiliza un prototipo con regularidad, el siguiente objetivo es la precisión. Los modelos de descripción general son buenos para fines generales, pero las tareas realizadas por una empresa deben tener una precisión de dominio. El ajuste fino del modelo soluciona ese problema.
Los pasos para perfeccionar un modelo deben ser metódicos. Utilizo los comentarios de los usuarios (respuestas y aprobación) como ejemplos de formación. Convierta la respuesta de un usuario en un ejemplo etiquetado. La creación de un conjunto de datos bien definido a través de registros de producción permite la transparencia en el uso e identifica modos de falla comunes que conducen a ciclos de reentrenamiento. La versión actualizada de un modelo debe devolver valor a los usuarios permitiéndoles y, en última instancia, demostrar mediante pruebas A/B que la experiencia del usuario mejora.
El proceso de ajuste es más que un trabajo técnico. Es una disciplina compartida para los equipos involucrados porque todos pueden acordar resultados mensurables y cada mejora en un modelo de PNL puede basarse en datos, en lugar de suposiciones. Independientemente del impacto, las mejoras significativas pequeñas y consistentes generan confianza, lo que afecta la adopción.
Cómo utilizar LLM: marco de script para mejorar la confianza y la precisión
Las plataformas de código bajo dependen de la coherencia y los modelos de lenguaje grandes, aunque potentes, a veces no obedecen. El marco LLM-to-script aporta estructura y previsibilidad a los flujos de trabajo impulsados por IA.
En lugar de ejecutar comandos del usuario como una llamada directa, el modelo primero genera un script estructurado que describe la intención del modelo a actuar. Luego, el modelo se verifica, ejecuta e inicia sesión en el sistema de flujo de trabajo del usuario. El sistema proporciona una secuencia transparente y predecible que hace que aumente el nivel de confianza del usuario.
Por ejemplo, el usuario escribirá “enviar este informe a mi gerente todos los lunes” y el modelo no actuará hasta que cree un script de automatización con los desencadenantes y destinatarios necesarios. El sistema verifica según los detalles del contexto informados por el usuario y presenta una vista previa de la secuencia. Cuando el usuario se siente cómodo y reconoce, ejecuta la tarea existente. Al estructurar el proceso de ejecución, se producen pocos o ningún error y predice que los flujos de trabajo de los usuarios mejoran exponencialmente, mejorando tanto la explicabilidad del modelo como la confianza del usuario.
El flujo normal de usuarios en un sistema basado en LLM que muestra cómo el usuario solicita desde la creación del modelo hasta la verificación del usuario. Fuente: Microsoft – Cómo evaluar los LLM
IMAGEN 2
La depuración es más fácil porque los ingenieros observan los errores a nivel de script en lugar de intentar comprenderlos dentro de un modelo de caja negra. Al incorporar una secuencia de aportes conversacionales seguidos de acciones estructuradas, el marco LLM-to-script permite un estilo conversacional continuo y ofrece resultados consistentemente predecibles.
Evaluación de la precisión del LLM y el valor para el usuario
La precisión no es equivalente al éxito. Lo que realmente importa es si los usuarios reciben información relevante, oportuna y precisa en la práctica. La precisión técnica y la experiencia del usuario deben evolucionar juntas para que un producto GenAI crezca.
Para evaluar la precisión, reviso desde dos perspectivas interrelacionadas:
Precisión del modelo: Preocupado por observar los resultados del modelo que coinciden con los resultados esperados. Esto incluye precisión en la lógica, la verborrea o la ejecución de tareas. Model Accuracy captura el rendimiento técnico y la confiabilidad del sistema durante una prueba de automatización.
Precisión del usuario: Implica si el resultado cumplió con la intención del usuario. Una respuesta puede ser técnicamente precisa pero contextualmente irrelevante o inútil. Métricas como los índices de aceptación y edición, y los puntajes de las encuestas de satisfacción del usuario observan cómo el modelo ayuda a los objetivos reales del usuario.

Cuando se establece la precisión en ambas dimensiones, el valor del usuario es el siguiente nivel a considerar. Luego reviso la proporción de comentarios positivos y negativos, las tasas de retención y la reutilización para ver si el usuario está comprometido y tengo una visión a largo plazo de su valor.
Durante un lanzamiento, una función logró un sentimiento positivo de 2:1 gracias a la mejora continua de la precisión técnica. Los usuarios se sintieron apoyados y confirmaron que esa era la dirección correcta y, a medida que mejoró la precisión, también lo hizo la satisfacción del usuario.
Al establecer la precisión del modelo, la precisión del usuario y el valor del usuario, el progreso se mide de manera significativa y contribuye a la experiencia del usuario. Luego está haciendo lo que se pretendía desde una métrica de rendimiento hasta un impacto en el usuario.
Aplicar el marco 0-1
Cuando cualquier nueva característica de IA generativa (GenAI) avanza hacia una capacidad escalable, la mentalidad adecuada es muy importante… ninguna cosa se convierte en la respuesta. Los equipos necesitan un mecanismo para estructurar formalmente un proceso para diseñar la creatividad, la velocidad, la precisión y generar confianza con el usuario. A lo largo de varios lanzamientos de diferentes versiones de productos, he visto regularmente un proceso 0-1 probado y verdadero con solo 2 a 4 pasos simples.
Prototipo rápidamente. Al comenzar con un prototipo funcional, los equipos pueden validar la intención del usuario antes de comprometerse con el siguiente nivel de refinamiento con velocidad y precisión.
Afinar intencionalmente. Utilice comentarios reales para perfeccionar continuamente el prototipo mediante iteración y validación dentro de un contexto definido.
Ejecución de Estructura. Cree marcos para incluir previsibilidad y control en sistemas generativos como LLM-to-script.
Mida profundamente. La experiencia humana no se trata únicamente de eficiencia, sino también de valor (importancia) para el usuario.
Para cada etapa del proceso, se construye sistemáticamente un precedente a partir de la etapa anterior. Y una vez que el ciclón se salga de control, los equipos verán que la velocidad de utilización aumenta con cada prueba de un prototipo. La velocidad del ciclo de retroalimentación de un usuario es un indicador claro para un equipo de velocidad para aprender, velocidad para escalar y, en última instancia, velocidad para generar confianza en el usuario. Lo óptimo es cuando la ingeniería y el diseño se combinan con científicos de datos para combinar la propiedad y los resultados compartidos con métricas de éxito definidas. Esa claridad inicia una base para trabajar hacia la implementación de un producto de alto rendimiento.
En resumen: de la visión GenAI a la realidad escalable
El viaje de la IA generativa ahora no es necesariamente una aventura de novedad sino de ejecución. Los líderes empresariales no se preguntan si adoptar o adoptar GenAI. Las empresas ahora están promulgando lo que eso significará. Con el enfoque cambiando de la novedad a la entrega, y la innovación en el contexto ambiguo de la implementación; Un gran éxito en la ampliación del uso de funciones significa un diseño con un contexto basado en las necesidades del usuario, definiendo variables y efectuando cambios en múltiples rondas de retroalimentación para que cada iteración se escale para generar exactitud, precisión y estimular la confianza del usuario.
El marco 0-1 GenAI enfatiza una mentalidad basada en métricas; para el proceso y en el trabajo hacia la evaluación y mejora continua. Un gerente impulsa la curiosidad, un ciclo de retroalimentación asociado, el equipo aprende y genera confianza de manera iterativa en el concepto de madurez y traslada cada proceso de aprendizaje a la experiencia del usuario. Cuando la ejecución precisa y continua en torno a la precisión para ejecutar y hacer evolucionar la comprensión y la experiencia de un equipo con las necesidades del usuario evoluciona más allá de una simple capa más, GenAI se convierte en la base de cómo cada empresa construye, automatiza tareas e innova en cada capa de un producto.
Sobre el autor
Kishor Subedi es un gerente senior de productos con más de cinco años de experiencia liderando iniciativas de automatización e inteligencia artificial generativa en entornos empresariales. Ha lanzado múltiples funciones de IA 0 a 1 que escalaron a cientos de miles de usuarios, enfocándose en crear soluciones de IA confiables y centradas en el usuario que simplifiquen los flujos de trabajo y aceleren la adopción en plataformas de código bajo.
Referencias
- IBM (2023). Modelo de capacidad de IA generativa. https://www.ibm.com/architectures/hybrid/genai-capability-model
- McKinsey y compañía. (2024). ¿Qué es la IA generativa? https://www.mckinsey.com/featured-insights/mckinsey-explainers/what-is-generative-ai
- Microsoft. (2024). Una lista de métricas para evaluar el contenido generado por LLM. https://learn.microsoft.com/en-us/ai/playbook/technology-guidance/generative-ai/working-with-llms/evaluación/list-of-eval-metrics
- Microsoft. (2024). Cambios en la infraestructura de pruebas A/B en Microsoft ExP. https://www.microsoft.com/en-us/research/articles/ab-testing-infrastructure-changes-at-microsoft-exp/
- Microsoft. (2023). Cómo evaluar los LLM: un marco métrico completo. https://www.microsoft.com/en-us/research/articles/how-to-evaluate-llms-a-complete-metric-framework/
#manual #estrategias #GenAI #acelerar #adopción #sentimiento #positivo #las #plataformas #empresariales #bajo #código