Category: IA

OpenAI: Plataforma de empleo con IA y programa de certificación

2025-09-05
OpenAI: Plataforma de empleo con IA y programa de certificación

OpenAI planea lanzar el próximo año una plataforma de empleo impulsada por IA para conectar a empleadores con candidatos que tengan habilidades en inteligencia artificial, con el objetivo de acelerar la implementación de la tecnología en empresas y organismos gubernamentales. También lanzará un nuevo programa de certificación en los próximos meses para enseñar a los trabajadores a utilizar mejor la IA en el trabajo. OpenAI está trabajando con varias organizaciones en este programa, incluida Walmart Inc., el mayor empleador privado de EE. UU. OpenAI dijo que planea certificar a 10 millones de estadounidenses para 2030.

Arquitectura de agente de IA: Confianza, no precisión

2025-09-05
Arquitectura de agente de IA: Confianza, no precisión

Esta publicación analiza la arquitectura de los agentes de IA, argumentando que la experiencia del usuario supera la precisión bruta. Utilizando un agente de atención al cliente como ejemplo, describe cuatro capas arquitectónicas: memoria (sesión, cliente, conductual, contextual), conectividad (integraciones del sistema), capacidades (profundidad de la habilidad) y confianza (puntuaciones de confianza, transparencia del razonamiento, transferencias suaves). Se comparan cuatro enfoques arquitectónicos: agente único, enrutador + habilidades, flujos de trabajo predefinidos y colaboración multiagente. El autor recomienda comenzar de forma simple y agregar complejidad solo cuando sea necesario. De manera contraintuitiva, los usuarios confían más en los agentes cuando son honestos sobre sus limitaciones, no cuando siempre tienen razón.

IA

RDF: La capa de conocimiento natural para sistemas de IA

2025-09-05
RDF: La capa de conocimiento natural para sistemas de IA

Los grandes modelos de lenguaje (LLM) a menudo tienen problemas de precisión con los datos empresariales, pero los grafos de conocimiento pueden triplicar la precisión. Este artículo explora por qué el marco de descripción de recursos (RDF) no es solo una opción entre muchas para la representación del conocimiento, sino el punto final natural. Muchas empresas, al construir capas de conocimiento, inicialmente optan por soluciones personalizadas, pero inevitablemente terminan reconstruyendo las características principales del RDF, como los identificadores globales y los protocolos de federación de datos. El artículo explica cómo RDF resuelve problemas centrales en la representación del conocimiento, como la identificación de entidades, y muestra cómo el uso de RDF mejora la precisión y la eficiencia de LLM.

IA

Le Chat: Actualización masiva con conectores y memorias para llevar la asistencia de IA al siguiente nivel

2025-09-04
Le Chat: Actualización masiva con conectores y memorias para llevar la asistencia de IA al siguiente nivel

Le Chat de Mistral AI ha recibido una importante actualización, introduciendo más de 20 conectores seguros y listos para empresas, que abarcan datos, productividad, desarrollo, automatización y comercio. Los usuarios ahora pueden acceder e interactuar directamente con herramientas como Databricks, Snowflake, GitHub y Asana dentro de Le Chat. Una nueva función de 'Memorias' (beta) permite respuestas personalizadas basadas en el contexto y las preferencias, manteniendo al mismo tiempo un control cuidadoso sobre la información confidencial. Todas las funciones están disponibles en el plan gratuito.

IA

Paseos Aleatorios en 10 Dimensiones: Desafiando la Intuición en Espacios de Alta Dimensionalidad

2025-09-04
Paseos Aleatorios en 10 Dimensiones: Desafiando la Intuición en Espacios de Alta Dimensionalidad

La física de alta dimensionalidad es la norma en la dinámica moderna, desde las diez dimensiones de la teoría de cuerdas hasta los sistemas complejos. Sin embargo, las altas dimensiones presentan la 'maldición de la dimensionalidad': la visualización es imposible, el sobreajuste es desenfrenado y la intuición falla. Este artículo utiliza un paseo aleatorio en 10 dimensiones para ilustrar las características del espacio de alta dimensionalidad. En altas dimensiones, las crestas de las montañas son mucho más comunes que los picos, afectando profundamente la evolución, los sistemas complejos y el aprendizaje automático. Los paseos aleatorios exploran eficientemente los espacios de alta dimensionalidad, incluso paisajes máximamente ásperos, potencialmente atravesando todo el espacio. Esto ayuda a comprender la evolución de estructuras complejas en la vida y cómo evitar mínimos locales en el aprendizaje profundo.

¿La IA ya está robando empleos a los jóvenes? Una nueva investigación de Stanford sugiere que sí

2025-09-04
¿La IA ya está robando empleos a los jóvenes? Una nueva investigación de Stanford sugiere que sí

El debate continúa: ¿está afectando la IA las perspectivas laborales de los jóvenes? Estudios iniciales encontraron un impacto limitado, pero una nueva investigación de la Universidad de Stanford, utilizando datos de nómina de ADP, revela una disminución del 13% en el empleo para jóvenes de 22 a 25 años en trabajos altamente expuestos a la IA, como el desarrollo de software y la atención al cliente. Al controlar factores como la COVID y la desaceleración tecnológica, el estudio sugiere que el efecto de la IA podría ser más significativo de lo que se pensaba anteriormente, particularmente en campos con mucha automatización. Por el contrario, el empleo aumentó en puestos de aumento de IA. Esto inicia un debate sobre los ajustes curriculares y las trayectorias profesionales para los estudiantes, destacando la necesidad de un monitoreo continuo del impacto en tiempo real de la IA en el mercado laboral.

Construyendo Evaluaciones Eficaces de Agentes de IA: De Pruebas E2E a Evaluaciones N-1

2025-09-04

Este artículo explora la construcción de sistemas de evaluación eficaces para agentes de IA. El autor enfatiza que, aunque los modelos mejoran constantemente, la evaluación sigue siendo crucial. Aboga por comenzar con evaluaciones de extremo a extremo (E2E), definiendo criterios de éxito y generando resultados simples de sí/no para identificar rápidamente problemas, refinar indicaciones y comparar el rendimiento de diferentes modelos. Luego, las evaluaciones "N-1", que simulan interacciones anteriores del usuario, pueden señalar directamente los problemas, pero requieren mantener actualizadas las interacciones "N-1". También se sugieren puntos de control dentro de las indicaciones para verificar el cumplimiento del LLM con los patrones de conversación deseados. Finalmente, el autor observa que las herramientas externas simplifican la configuración, pero aún se necesitan evaluaciones personalizadas adaptadas al caso de uso específico.

Diseccionando un Transformer minimalista: Revelando el funcionamiento interno de los LLM con 10.000 parámetros

2025-09-04
Diseccionando un Transformer minimalista: Revelando el funcionamiento interno de los LLM con 10.000 parámetros

Este artículo presenta un modelo Transformer radicalmente simplificado con solo ~10.000 parámetros, ofreciendo una visión clara del funcionamiento interno de los modelos de lenguaje grandes (LLM). Utilizando un conjunto de datos mínimo centrado en las relaciones entre frutas y sabores, los autores logran un rendimiento sorprendentemente alto. Las visualizaciones revelan cómo funcionan los embeddings de palabras y el mecanismo de atención. Fundamentalmente, el modelo generaliza más allá de la memorización, prediciendo correctamente "chile" cuando se le pide con "Me gusta picante, así que me gusta", demostrando los principios básicos del funcionamiento de LLM de una manera muy accesible.

IA

Datos, no potencia computacional: el próximo cuello de botella de la IA

2025-09-03
Datos, no potencia computacional: el próximo cuello de botella de la IA

Durante años, hemos malinterpretado la Lección Amarga; no se trata de potencia computacional, sino de datos. Aumentar las GPU requiere un aumento del 40% en los datos, de lo contrario, es un desperdicio de recursos. Los datos de Internet se están acercando a la saturación. El futuro reside en 'alquimistas' (generación de datos de alto riesgo y alta recompensa) y 'arquitectos' (mejora constante de la arquitectura del modelo), no solo en la potencia computacional. El artículo analiza los pros, los contras y los riesgos de ambos caminos, concluyendo que resolver la escasez de datos en 2025 determinará la supervivencia de las empresas de IA en 2026.

Estudio del MIT: ChatGPT causa declive cognitivo en la redacción de ensayos

2025-09-03
Estudio del MIT: ChatGPT causa declive cognitivo en la redacción de ensayos

Un estudio del MIT revela que el uso de ChatGPT para la redacción de ensayos conduce a daños cognitivos medibles. Los electroencefalogramas mostraron una conectividad neuronal debilitada, una memoria deteriorada y una menor sensación de autoría en los estudiantes que usaron repetidamente la IA. Incluso con ensayos de alta puntuación, el compromiso del cerebro se redujo significativamente. El estudio descubrió que los LLM causan una subparticipación de las redes cerebrales críticas, e incluso después de dejar de usar la IA, la función cognitiva no se recupera completamente. Esta 'descarga cognitiva' lleva a un deterioro a largo plazo del aprendizaje y la creatividad.

IA

Dynamo AI: Gerente de Producto para IA Confiable – Moldeando el Futuro de la IA Empresarial

2025-09-03
Dynamo AI: Gerente de Producto para IA Confiable – Moldeando el Futuro de la IA Empresarial

Dynamo AI, una startup de rápido crecimiento que construye una plataforma de IA confiable para empresas, busca un Gerente de Producto con más de 1 año de experiencia. Este puesto implica definir y ejecutar la estrategia de producto para sus soluciones de redteaming, guardrails y observabilidad. Colaborarás con fundadores, ingenieros y clientes empresariales en industrias reguladas (finanzas, seguros, etc.), dando forma a las hojas de ruta del producto y entregando soluciones de vanguardia. Se necesita pasión por la seguridad y el cumplimiento de la IA, junto con fuertes habilidades de comunicación y colaboración multifuncional.

HunyuanWorld-Voyager de Tencent: Generación de vídeo 3D consistente a partir de una sola imagen

2025-09-03
HunyuanWorld-Voyager de Tencent: Generación de vídeo 3D consistente a partir de una sola imagen

El equipo de IA de Tencent presenta HunyuanWorld-Voyager, un nuevo marco de difusión de vídeo que genera secuencias de nubes de puntos 3D consistentes en todo el mundo a partir de una sola imagen con trayectorias de cámara definidas por el usuario. Voyager produce vídeos de escenas 3D consistentes para explorar mundos virtuales a lo largo de trayectorias personalizadas, y también genera vídeo de profundidad y RGB alineados para una reconstrucción 3D eficiente. Entrenado con más de 100.000 clips de vídeo que combinan capturas del mundo real y renderizados sintéticos de Unreal Engine, Voyager logra resultados de vanguardia en el benchmark WorldScore. El código y los modelos preentrenados están disponibles públicamente.

VibeVoice: Modelo de Texto a Voz Abierto de Formato Largo y Múltiples Hablantes

2025-09-03

VibeVoice es un nuevo marco de código abierto para generar audio conversacional expresivo, largo y con múltiples hablantes, como podcasts, a partir de texto. Aborda los desafíos en los sistemas tradicionales de texto a voz (TTS), como la escalabilidad, la consistencia del hablante y la alternancia natural de turnos. Una innovación clave es el uso de tokenizadores de voz continua (acústicos y semánticos) con una velocidad de fotogramas ultrabaja de 7,5 Hz. Estos tokenizadores mantienen la fidelidad del audio mientras aumentan significativamente la eficiencia computacional para el procesamiento de secuencias largas. VibeVoice emplea una arquitectura de difusión de token siguiente, utilizando un Modelo de Lenguaje Grande (LLM) para comprender el contexto textual y el flujo de diálogo, y una cabeza de difusión para generar detalles acústicos de alta fidelidad. El modelo puede sintetizar hasta 90 minutos de habla con hasta 4 hablantes distintos, superando los límites típicos de 1 a 2 hablantes de muchos modelos anteriores.

IA

Acorn: Un Enfoque Revolucionario para la Demostración de Teoremas con IA

2025-09-03
Acorn: Un Enfoque Revolucionario para la Demostración de Teoremas con IA

Este artículo explora Acorn, un novedoso demostrador de teoremas de IA que se aparta significativamente de los demostradores de teoremas interactivos tradicionales como Lean. Acorn emplea un estilo de interacción conversacional donde los usuarios afirman progresivamente enunciados, que el sistema verifica automáticamente. Esto refleja el proceso de demostración humano de manera más cercana, eliminando la necesidad de declaraciones de tipo engorrosas y la búsqueda de teoremas predefinidos. Acorn utiliza un modelo simple de ML para ayudar en el proceso de demostración, indicando dónde se necesita la intervención del usuario, mejorando así la eficiencia y la comprensión. A diferencia de Lean y sistemas similares, Acorn prioriza la intuición y la expresión en lenguaje natural, mostrando el inmenso potencial de la colaboración humano-IA en la demostración matemática.

Modelos Mundiales: La Ilusión y la Realidad de la IAG

2025-09-03
Modelos Mundiales: La Ilusión y la Realidad de la IAG

La última búsqueda en la investigación de IA, especialmente en laboratorios de IAG, es la creación de un "modelo mundial" - una representación simplificada del entorno dentro de un sistema de IA, como una bola de nieve computacional. Figuras importantes como Yann LeCun, Demis Hassabis y Yoshua Bengio creen que los modelos mundiales son cruciales para una IA verdaderamente inteligente, científica y segura. Sin embargo, los detalles de los modelos mundiales se debaten: ¿son innatos o aprendidos? ¿Cómo detectamos su presencia? El artículo traza la historia del concepto, revelando que la IA generativa actual puede no depender de modelos mundiales completos, sino de muchas heurísticas desconectadas. Si bien son eficaces para tareas específicas, carecen de robustez. Construir modelos mundiales completos sigue siendo crucial, prometiendo soluciones para alucinaciones de IA, razonamiento mejorado y mayor interpretabilidad, impulsando, en última instancia, el progreso hacia la IAG.

iNaturalist libera parte de sus modelos de visión por computadora

2025-09-02
iNaturalist libera parte de sus modelos de visión por computadora

iNaturalist ha liberado un subconjunto de sus modelos de aprendizaje automático, incluyendo modelos "pequeños" entrenados en aproximadamente 500 taxones, junto con archivos de taxonomía y un modelo geográfico, adecuados para pruebas en dispositivos y otras aplicaciones. Los modelos completos de clasificación de especies permanecen privados debido a la propiedad intelectual y las políticas organizacionales. La publicación detalla instrucciones de instalación y ejecución para MacOS, cubriendo la instalación de dependencias, la configuración del entorno, sugerencias de optimización del rendimiento (incluida la compilación de TensorFlow y el uso de pillow-simd) y proporciona puntos de referencia de rendimiento.

LLMs: Enciclopedias con Pérdida de Información

2025-09-02

Los modelos de lenguaje grandes (LLMs) son como enciclopedias con pérdida de información; contienen una gran cantidad de información, pero esta información se comprime, lo que lleva a la pérdida de datos. La clave está en discernir qué preguntas los LLMs pueden responder eficazmente frente a aquellas en las que la pérdida de información afecta significativamente a la precisión. Por ejemplo, pedir a un LLM que cree un esqueleto de proyecto Zephyr con configuraciones específicas es una pregunta 'sin pérdida' que requiere detalles precisos, con lo que los LLMs tienen dificultades. La solución es proporcionar un ejemplo correcto, permitiendo que el LLM opere con base en hechos existentes, en lugar de depender de detalles potencialmente faltantes en su base de conocimiento.

CauseNet: Un gráfico de causalidad masivo extraído de la web

2025-09-02

Los investigadores han construido CauseNet, una base de conocimiento a gran escala que comprende más de 11 millones de relaciones causales. Extraído de fuentes web semi-estructuradas y no estructuradas con una precisión estimada del 83%, CauseNet es un gráfico de causalidad utilizable para tareas como la respuesta a preguntas causales y el razonamiento. El proyecto también proporciona código para cargar en Neo4j y conjuntos de datos de entrenamiento/evaluación para la detección de conceptos causales.

Más allá de Texto a SQL: Construyendo un Analista de Datos con IA

2025-09-01

Este artículo explora los desafíos y soluciones para construir un analista de datos con IA. El autor argumenta que la simple conversión de texto a SQL es insuficiente para las preguntas de los usuarios reales, requiriendo planes de múltiples pasos, herramientas externas (como Python) y contexto externo. Su equipo construyó una plataforma de BI generativa utilizando una capa semántica impulsada por Malloy, un lenguaje de modelado que define explícitamente la lógica empresarial. Esto, combinado con un sistema multiagente, generación aumentada por recuperación (RAG) y una selección estratégica de modelos, logra un análisis de datos de alta calidad y baja latencia. La plataforma genera SQL, escribe código Python para cálculos complejos e integra fuentes de datos externas. El artículo destaca la ingeniería de contexto, la optimización del sistema de recuperación y la selección de modelos, además de compartir soluciones para los modos de falla comunes.

Los LLM democratizan la creación de compiladores: de recetas a flujos de trabajo

2025-09-01
Los LLM democratizan la creación de compiladores: de recetas a flujos de trabajo

Este artículo presenta una nueva perspectiva sobre las tareas cotidianas como procesos de compilación. Usando la cocina como ejemplo, el autor compara las recetas con programas y el proceso de cocción con la ejecución de la compilación. La llegada de los Grandes Modelos de Lenguaje (LLM) hace que la creación de compiladores específicos de dominio sea increíblemente fácil, incluso para aquellos sin experiencia en programación. Con los LLM, podemos transformar las tareas cotidianas - rutinas de ejercicios, procesos de negocios, incluso la creación musical - en entornos programables, aumentando la eficiencia y profundizando nuestra comprensión de los sistemas cotidianos. Esto no es solo una innovación tecnológica, sino también un cambio de pensamiento, extendiendo el concepto de compiladores del código a todos los aspectos de la vida.

IA

OpenAI Reforzará la Moderación de Contenido Dañino en ChatGPT, Generando Preocupaciones sobre la Privacidad

2025-09-01
OpenAI Reforzará la Moderación de Contenido Dañino en ChatGPT, Generando Preocupaciones sobre la Privacidad

OpenAI ha reconocido que su chatbot de IA ChatGPT ha provocado crisis de salud mental entre los usuarios, incluyendo autolesiones, delirios e incluso suicidios. En respuesta, OpenAI ahora está escaneando los mensajes de los usuarios, escalando el contenido preocupante a revisores humanos y, en algunos casos, denunciándolo a las autoridades. Esta medida es controvertida, ya que equilibra las preocupaciones sobre la seguridad del usuario con el compromiso previamente declarado de OpenAI con la privacidad del usuario, especialmente a la luz de una demanda en curso con The New York Times y otras editoriales. OpenAI se encuentra en una situación difícil: abordar los impactos negativos de su IA mientras protege la privacidad del usuario.

IA

Bayes, Bits y Cerebros: Una Aventura en Probabilidad y Teoría de la Información

2025-09-01

Este sitio web profundiza en la probabilidad y la teoría de la información, explicando cómo iluminan el aprendizaje automático y el mundo que nos rodea. Acertijos intrigantes, como predecir la siguiente letra en fragmentos de Wikipedia y comparar tu rendimiento con redes neuronales, llevan a exploraciones del contenido de información, divergencia de KL, entropía, entropía cruzada y mucho más. El curso cubrirá la estimación de máxima verosimilitud, el principio de máxima entropía, logits, softmax, funciones gaussianas y la configuración de funciones de pérdida, revelando finalmente las conexiones entre algoritmos de compresión y modelos de lenguaje grandes. ¿Listo para sumergirte en la madriguera del conejo?

IA

Sequía de Contenido de IA: La Crisis Inminente para la IA Generativa

2025-08-31
Sequía de Contenido de IA: La Crisis Inminente para la IA Generativa

El auge de la IA generativa está creando una sequía de contenido que, en última instancia, sofocará a las propias empresas de IA. El artículo argumenta que los gigantes de la IA como ChatGPT y Google están desviando contenido de los sitios web, lo que lleva a una disminución drástica del tráfico para los medios tradicionales y los sitios web de empresas. Este modelo de "saqueo de contenido", si bien es beneficioso a corto plazo, representa una amenaza a largo plazo. Si las empresas dejan de producir contenido de alta calidad debido a la falta de incentivos, los modelos de IA enfrentarán una sequía de datos, dejando a las empresas de IA vulnerables. Si bien las regulaciones y las demandas podrían ofrecer soluciones, las empresas de IA parecen no ser conscientes de este riesgo o lo están ignorando, exacerbando el problema y potencialmente llevando al estallido de una burbuja económica.

IA: El Siguiente Paso Lógico en la Evolución de la Computación

2025-08-31
IA: El Siguiente Paso Lógico en la Evolución de la Computación

Desde tarjetas perforadas hasta interfaces gráficas, y ahora IA, la historia de la computación ha sido una marcha constante hacia una interacción humano-computador más intuitiva. La IA no es una desviación radical de esta trayectoria; es el siguiente paso natural para hacer que las computadoras sean más accesibles y útiles para la humanidad. Permite que las computadoras comprendan y actúen según los objetivos humanos, en lugar de solo instrucciones explícitas, desplazando la carga cognitiva de los humanos a las máquinas. Esto permite a los usuarios concentrarse en lo que quieren lograr, no en cómo instruir a una máquina para que lo haga. El futuro probablemente verá la interacción humano-computador como una colaboración, difuminando la línea entre la instrucción y la definición de objetivos, extendiendo en lugar de reemplazar la inteligencia humana.

IA

Por qué odio la 'IA'

2025-08-31

El autor critica duramente las herramientas de generación de texto e imagen populares actuales, argumentando que no son IA verdadera, sino Grandes Modelos de Lenguaje (LLMs). Ataca la comparación del CEO de OpenAI, Sam Altman, de los humanos con 'loros estocásticos', considerándola denigrante para la riqueza de la experiencia humana. El autor también destaca el exceso de publicidad en torno a los LLMs, su salida insípida y falta de originalidad, y expresa preocupación por las empresas que utilizan datos de usuarios sin consentimiento para entrenar sus modelos. Finalmente, manifiesta su preocupación por el futuro de internet y el mal uso de las creaciones personales, pidiendo atención a las cuestiones éticas y estéticas en torno a los LLMs.

IA

Claude Captura Datos a Escondidas: Los Usuarios se Incluyen por Defecto en el Pipeline de Entrenamiento

2025-08-31
Claude Captura Datos a Escondidas: Los Usuarios se Incluyen por Defecto en el Pipeline de Entrenamiento

El chatbot de IA de Anthropic, Claude, cambió silenciosamente sus términos de servicio. Ahora, las conversaciones de los usuarios se utilizan para el entrenamiento del modelo de forma predeterminada, a menos que los usuarios opten activamente por no participar. Este cambio ha provocado la indignación de los usuarios y los defensores de la privacidad. El artículo argumenta que esto destaca la importancia de la gestión activa de la privacidad de los datos al utilizar herramientas de IA, instando a los usuarios a que verifiquen la configuración, lean las actualizaciones y tomen decisiones conscientes sobre el intercambio de datos. El autor enfatiza que confiar en la configuración predeterminada es arriesgado, ya que puede cambiar sin previo aviso. El cambio afecta de manera desproporcionada a los usuarios consumidores, mientras que los clientes empresariales no se ven afectados, lo que revela las prioridades del ecosistema de IA basado en datos.

IA

La IA simplifica la codificación, pero la gestión de producto se convierte en el cuello de botella

2025-08-30
La IA simplifica la codificación, pero la gestión de producto se convierte en el cuello de botella

El profesor de Stanford, Andrew Ng, argumenta que la IA ha facilitado la codificación, pero la gestión de producto ahora es el principal obstáculo. Tareas que antes llevaban seis ingenieros tres meses ahora se pueden completar en un fin de semana. El desafío radica en decidir qué construir. La velocidad de la IA en la creación de prototipos exige decisiones de producto más rápidas, lo que lleva a los equipos a depender cada vez más de la intuición y de una profunda empatía con el cliente en lugar de solo el análisis de datos. Esto genera un debate sobre el papel de los gestores de producto, algunos argumentando su importancia en la era de la IA, mientras que otros sugieren que son innecesarios en las etapas iniciales de una empresa.

IA

Hacia una Máquina Virtual de Modelo de IA: Un Futuro Seguro e Interoperable para las Aplicaciones de IA

2025-08-30
Hacia una Máquina Virtual de Modelo de IA: Un Futuro Seguro e Interoperable para las Aplicaciones de IA

Las capacidades crecientes de los LLMs y los mecanismos de extensión como el MCP han aumentado significativamente la complejidad de construir aplicaciones de IA seguras y fiables. Este artículo propone una Máquina Virtual de Modelo de IA (MVM), similar a la Máquina Virtual Java (JVM), para proporcionar a los modelos de IA seguridad, aislamiento, extensibilidad y portabilidad. La MVM desacopla el desarrollo del modelo de la lógica de integración, permitiendo la intercambiabilidad plug-and-play de modelos e incorporando controles de seguridad y acceso integrados para proteger la seguridad y la privacidad de las aplicaciones de IA. Otros beneficios incluyen el seguimiento transparente del rendimiento y los recursos, y el potencial para salidas de modelo verificables. Esta innovación promete abordar desafíos significativos en el desarrollo de aplicaciones de IA, allanando el camino para un ecosistema de IA más seguro, fiable y eficiente.

De la Atención Multi-Cabeza a la Atención Latente: La Evolución de los Mecanismos de Atención

2025-08-30
De la Atención Multi-Cabeza a la Atención Latente: La Evolución de los Mecanismos de Atención

Este artículo explora la evolución de los mecanismos de atención en el procesamiento del lenguaje natural, desde el mecanismo de Atención Multi-Cabeza (MHA) inicial hasta variantes más avanzadas como la Atención Multi-Cabeza Latente (MHLA). El MHA pondera palabras importantes en el contexto calculando vectores de consulta, clave y valor; sin embargo, su complejidad computacional y de memoria crece cuadráticamente con la longitud de la secuencia. Para abordar esto, surgieron enfoques más nuevos como el MHLA, mejorando la velocidad computacional y la escalabilidad sin sacrificar el rendimiento, por ejemplo, utilizando el almacenamiento en caché KV para reducir cálculos redundantes. El artículo explica claramente los conceptos principales, ventajas y limitaciones de estos mecanismos y sus aplicaciones en modelos como BERT, RoBERTa y Deepseek.

IA

SGLang: Implementación de código abierto que iguala el rendimiento del sistema de inferencia del modelo de lenguaje grande DeepSeek

2025-08-29
SGLang: Implementación de código abierto que iguala el rendimiento del sistema de inferencia del modelo de lenguaje grande DeepSeek

DeepSeek, un popular modelo de lenguaje grande (LLM) de código abierto, cuenta con un rendimiento impresionante. Sin embargo, su enorme tamaño y arquitectura única (que utiliza atención latente multi-cabeza y mezcla de expertos) requieren un sistema sofisticado para un servicio eficiente a gran escala. Este blog detalla cómo logramos una paridad casi completa con el rendimiento del sistema de inferencia de DeepSeek utilizando SGLang. Nuestra implementación, que se ejecuta en 12 nodos (cada uno con 8 GPU H100) en la nube Atlas, aprovecha la desagregación de prellenado-decodificación y el paralelismo de expertos a gran escala (EP), alcanzando 52,3k tokens de entrada por segundo y 22,3k tokens de salida por segundo por nodo para secuencias de entrada de 2000 tokens. Hasta donde sabemos, esta es la primera implementación de código abierto que casi iguala el rendimiento informado de DeepSeek a gran escala, a aproximadamente una quinta parte del costo de la API oficial DeepSeek Chat.

← Previous 1 3 4 5 6 7 8 9 38 39