blog (préstamo)

AI Blog: una mirada a las fronteras de la inteligencia artificial, compartiendo tecnología y tendencias.

Gemini 3深夜突袭!力压GPT-5.1,谷歌的AI王座终于坐稳了

谷歌于凌晨三点悄然上线Gemini 3 Pro大模型,未举行发布会。该模型在LMArena以1501分Elo登顶,人类最后考试(HLE)获45.8%、MMMU-Pro达81%、Video-MMMU达87.6%,性能超越GPT-5.1。其100万token上下文窗口支持长内容处理,深度思考能力在ARC-AGI-2测试中创45.1%新高,并推出Google Antigravity智能体平台。用户可通过Gemini应用或Google AI Studio体验。

Gemini 3深夜突袭!力压GPT-5.1,谷歌的AI王座终于坐稳了 Leer más "

Grok 4.1低调发布!通用能力全面碾压,情感智能登顶第一

马斯克旗下xAI公司低调发布Grok 4.1,在LMArena排行榜以1483分登顶,并在EQ-Bench3情感智能测试包揽前两名。新模型在创造力、情感互动和协作交互方面实现质的飞跃,用户偏好选择率达64.78%,幻觉率显著降低,已通过、X平台及移动应用全面开放。

Grok 4.1低调发布!通用能力全面碾压,情感智能登顶第一 Leer más "

Gemini 3提前亮相!巴菲特305亿重仓背后的AI革命

谷歌Gemini 3虽未正式发布,已通过APP超前点映及第三方平台提前亮相,展示SVG绘制和游戏开发等强大能力。巴菲特体验后重仓Alphabet 43亿美元(约305亿人民币),使其成为伯克希尔·哈撒韦第十大持股。Alphabet股价年内飙升46%,谷歌从AI追赶者加速转向领跑者,AI技术革命获资本强力认可。

Gemini 3提前亮相!巴菲特305亿重仓背后的AI革命 Leer más "

GPT-5.1悄然上线,OpenAI终于听懂了用户的心声

OpenAI于11月12日悄然发布GPT-5.1,此次更新摒弃传统性能数据宣传,聚焦用户情感需求。核心升级包括GPT-5.1 Instant(更温暖健谈,支持自适应推理)和GPT-5.1 Thinking(优化思考时间分配),提供八种聊天风格预设(新增Professional、Candid、Quirky),允许微调热情度、简洁度等特征。安全评估新增心理健康与情感依赖维度,部分指标略有回退。付费用户可逐步使用,3个月内支持回退至旧模型,强调AI从工具向懂用户伙伴的转变。

GPT-5.1悄然上线,OpenAI终于听懂了用户的心声 Leer más "

Kimi K2 ¡Pensamiento liberado de repente! Bestia de código abierto de 1 billón de parámetros más allá de GPT-5

月之暗面发布开源思考型Agent模型Kimi K2 Thinking,具备1万亿参数。其核心突破在于无需人工干预即可连续执行200-300次工具调用,完成复杂多步骤任务。该模型采用INT4量化技术提升生成速度,通过精简架构降低计算冗余,训练成本为460万美元。在多项基准测试中表现超越GPT-5,包括智能体能力(τ²-Bench Telecom达93%)、综合推理(HLE达44.9%)及编程实战(SWE-Bench Verified达71.3%)。模型完全开源且商用免费,采用修改版MIT许可证。

Kimi K2 ¡Pensamiento liberado de repente! Bestia de código abierto de 1 billón de parámetros más allá de GPT-5 Leer más "

LTX-2 ¡voló por los aires! El primer modelo del mundo de generación de vídeo 4K sincronizado con audio y vídeo, ¡compatible con ComfyUI!

LTX-2是Lightricks发布的全球首个音画同步4K视频生成模型,可生成20秒、50fps高清视频,支持文本/图像输入。它实现了角色口型与语音同步,能在ComfyUI运行并本地部署,将于5年11月下旬开源。作为专业级创作工具,LTX-2让"文字变电影级短片"成为现实。

LTX-2 ¡voló por los aires! El primer modelo del mundo de generación de vídeo 4K sincronizado con audio y vídeo, ¡compatible con ComfyUI! Leer más "

LTX-2 ¡voló por los aires! El primer modelo del mundo de generación de vídeo 4K sincronizado con audio y vídeo, ¡compatible con ComfyUI!

LTX-2是Lightricks发布的全球首个音画同步4K视频生成模型,可生成20秒、50fps高清视频,支持文本/图像输入。它实现了角色口型与语音同步,能在ComfyUI运行并本地部署,将于5年11月下旬开源。作为专业级创作工具,LTX-2让"文字变电影级短片"成为现实。

LTX-2 ¡voló por los aires! El primer modelo del mundo de generación de vídeo 4K sincronizado con audio y vídeo, ¡compatible con ComfyUI! Leer más "

KAT-Coder: un nuevo avance en la programación de la IA de carreras

快手推出AI编程产品矩阵KAT-Coder,涵盖自研模型、工具与平台,支持20多种编程语言及多类开发任务。其开源版本KAT-Dev-72B-Exp在SWE-bench榜单以74.6%成绩超越GPT与Claude。该模型具备代码生成、调试、优化等能力,兼容主流开发工具,并在网页生成、电商网站、3D特效等领域展现强大应用潜力,标志着快手正式进军AI编程赛道。

KAT-Coder: un nuevo avance en la programación de la IA de carreras Leer más "

Manus y la burbuja de agentes de IA: del ideal a la desilusión

Manus作为2025年AI Agent热潮的代表,虽依托大模型、工具链与记忆技术实现任务执行,但因缺乏专业场景深耕与闭环交付,暴露“通用Agent”泡沫。其问题根源在于工程积累不足、资本驱动短视,导致功能堆砌却智能有限。行业正转向垂直领域,如医学Agent OpenEvidence,强调确定性流程与数据驱动,揭示未来属于专注、可评估、落地扎实的“笨智能”路径。

Manus y la burbuja de agentes de IA: del ideal a la desilusión Leer más "

ChatGPT Atlas: una revolución en los navegadores con IA

OpenAI发布首款AI原生浏览器ChatGPT Atlas,深度融合ChatGPT智能能力。其核心功能包括:实时AI辅助网页内容总结与互动、智能写作优化、自然语言控制浏览器操作、个性化记忆推荐、智能体模式自动执行购物及预订任务、光标聊天实时文本处理。该浏览器通过AI技术提升浏览效率,实现任务自动化,重塑人机交互体验。

ChatGPT Atlas: una revolución en los navegadores con IA Leer más "

Veo 3.1 vs Sora2: ¿Quién es el verdadero rey de la generación de vídeo?

谷歌的Veo3.1与OpenAI的Sora2在AI视频生成领域展开竞争。Veo3.1以精准控制、高质量音画同步见长,适合专业长视频创作。Sora2则胜在流畅自然的动态效果和娱乐性,更适合创意短视频。两者各有优势,选择取决于具体应用场景。

Veo 3.1 vs Sora2: ¿Quién es el verdadero rey de la generación de vídeo? Leer más "

Revisión en profundidad de seis agentes de IA de uso común: exploración del valor del producto y la dirección de desarrollo

El artículo pasa revista a seis productos generalistas de agentes de IA, Manus, Buckle Space, Lovart, Flowith Neo, Skywork y Super Magee, y analiza su competitividad en el mercado en función de tres dimensiones: capacidad de ejecución, fiabilidad y frecuencia de uso.Lovart, Skywork y Super Magee sobresalen en sus respectivos verticales, con una puntuación total de 18, mientras que los generalistas se enfrentan a retos de entrada e integración. El artículo señala que la coexistencia de especialización y generalización, la capacidad de ejecución, el mecanismo de confianza y la integración de portales se convertirán en importantes direcciones para el desarrollo de los agentes.

Revisión en profundidad de seis agentes de IA de uso común: exploración del valor del producto y la dirección de desarrollo Leer más "

Guía de Configuración de los Servidores MCP de Cursor y Recomendaciones Prácticas MCP de Cursor

MCP (Model Context Protocol) es un protocolo que permite a grandes modelos interactuar con herramientas y servicios externos. Cursor IDE soporta asistentes de IA para invocar herramientas para realizar búsquedas, navegar por la web, y operaciones de código a través de la función de Servidores MCP. Los servidores MCP pueden añadirse a través de la interfaz de Configuración y configurarse tanto a nivel global como de proyecto.MCP está escrito en múltiples idiomas y permite a la IA ejecutar herramientas automática o manualmente y devolver resultados, incluyendo imágenes. Entre los recursos recomendados se incluyen Awesome-MCP-ZH, AIbase y varias herramientas cliente de MCP. Los servicios MCP más utilizados, como Sequential Thinking, Brave Search, Magic MCP, etc., mejoran la capacidad de la IA para pensar, buscar, la eficiencia del desarrollo front-end y otras características, respectivamente.

Guía de Configuración de los Servidores MCP de Cursor y Recomendaciones Prácticas MCP de Cursor Leer más "

Análisis en profundidad de Veo 3: un avance histórico en la generación de vídeos con IA de Google

En mayo de 2025, Google lanzó Veo 3, la primera vez que logra la generación sincronizada de audio y vídeo de IA, de modo que los personajes de vídeo de IA pueden "hablar". Los avances del modelo incluyen imagen 4K, coherencia física y sincronización de sonido, etc., utilizando la tecnología V2A para codificar visuales de vídeo como señales semánticas, generando pistas de audio coincidentes, y aplicándose a programas de entrevistas, juegos en directo, conciertos y otras escenas. Aunque existen deficiencias en la generación de acciones complejas, las perspectivas de comercialización son significativas, con precios escalonados, lo que repercute en las industrias tradicionales de la publicidad y la producción cinematográfica.

Análisis en profundidad de Veo 3: un avance histórico en la generación de vídeos con IA de Google Leer más "

Análisis en profundidad de las variantes del modelo Gemma: avances técnicos y aplicaciones prácticas de la IA de dominio vertical

Los tres nuevos modelos especializados Gemma de Google -MedGemma, SignGemma y DolphinGemma- representan un cambio importante en los modelos de IA, que pasan de la generalidad a la adaptación vertical profunda a los dominios. MedGemma se centra en escenarios médicos y ofrece capacidades de razonamiento multimodal de imágenes y texto de alta precisión; SignGemma apoya la traducción multilingüe del lenguaje de signos para ayudar a comunicarse a los grupos con deficiencias auditivas; y DolphinGemma explora la síntesis del habla de los delfines para fomentar la investigación de la comunicación entre especies. Estos modelos mejoran el rendimiento profesional al tiempo que tienen en cuenta la eficiencia computacional y la comodidad de despliegue, proporcionando una nueva vía para la industrialización de la IA.

Análisis en profundidad de las variantes del modelo Gemma: avances técnicos y aplicaciones prácticas de la IA de dominio vertical Leer más "

Claude 4: La redefinición de los asistentes de programación de IA llega a la mayoría de edad

Anthropic lanza la serie Claude 4, que abarca las versiones Opus 4 y Sonnet 4, centrada en tareas de programación y razonamiento avanzado. En la conferencia de desarrolladores, su director general, Dario Amodei, anunció que la serie supera a la competencia en todos los ámbitos, liderando el rendimiento en múltiples benchmarks, así como el lanzamiento de Claude Code y nuevas funciones de la API que impulsarán un cambio de paradigma en la forma de hacer IA y desarrollo. cambio de paradigma.

Claude 4: La redefinición de los asistentes de programación de IA llega a la mayoría de edad Leer más "

Las nuevas funciones de Manus al completo: la capacidad de generación de gráficos de inteligencia artificial, oficialmente en línea

Manus se pone en marcha con generación de imágenes, los nuevos usuarios obtienen 1.000 puntos de bonificación y 300 recargas diarias. La plataforma emplea un proceso de pensamiento profundo que admite la colaboración entre varias herramientas y el ajuste de la interacción entre tareas. Los casos de prueba demuestran que puede completar tareas complejas de generación de imágenes, diseño de marcas, despliegue web y otras. El consumo de puntos es elevado, la cantidad gratuita de funciones básicas es limitada, y la suscripción de pago se divide en tres niveles.Las ventajas de Manus residen en la comprensión de las intenciones y la ejecución de todo el proceso, pero hay problemas de lentitud, calidad fluctuante y coste elevado, por lo que aún hay margen de mejora en el futuro.

Las nuevas funciones de Manus al completo: la capacidad de generación de gráficos de inteligencia artificial, oficialmente en línea Leer más "

Revolución de la nueva generación de programación OpenAI: análisis del cuerpo de inteligencia del Codex

OpenAI lanza la inteligencia de programación Codex en mayo de 2025, integrada con ChatGPT y basada en el modelo codex-1, que realiza tareas como escribir código, corregir errores, ejecutar pruebas, etc., en la nube. codex admite integraciones de GitHub, proporciona pruebas verificables de ejecución y obtuvo una puntuación de 72,1% en la prueba SWE-Bench. actualmente está disponible para usuarios Pro, Enterprise y Team, y se mejorará aún más con la interactividad y la integración de herramientas de desarrollo para ayudar a mejorar la eficiencia del desarrollo de software. Codex está disponible actualmente para los usuarios de Pro, Enterprise y Team, y en el futuro mejorará la interactividad y la integración de herramientas de desarrollo para contribuir a mejorar la eficacia del desarrollo de software.

Revolución de la nueva generación de programación OpenAI: análisis del cuerpo de inteligencia del Codex Leer más "

Google DeepMind AlphaEvolve: el ascenso de una inteligencia artificial revolucionaria

Google DeepMind ha lanzado AlphaEvolve, una inteligencia artificial de codificación capaz de escribir y optimizar código y hacer descubrimientos científicos por sí sola. El sistema, que incorpora grandes modelos lingüísticos, algoritmos evolutivos y evaluadores automáticos, ya ha realizado varios avances en el campo de las matemáticas, como la mejora de algoritmos de multiplicación de matrices y la resolución de puzles geométricos. Entretanto, ha logrado importantes mejoras de eficiencia en la optimización de los centros de datos de Google, el diseño de chips y la formación en IA, marcando un nuevo hito en la transformación de la IA de herramienta a socio de innovación algorítmica.

Google DeepMind AlphaEvolve: el ascenso de una inteligencia artificial revolucionaria Leer más "

Magia Figma de 10 segundos: Creación de una página de tarjetas de Apple Streaming para mejorar rápidamente la textura del diseño

Bento Grids (Apple Style) es un estilo de diseño visual mínimo, claro y muy organizado que se utiliza habitualmente en las interfaces de las aplicaciones web y móviles modernas. Este estilo crea una experiencia de lectura limpia al presentar el contenido a través de módulos de cuadrícula que enfatizan el espacio en blanco, la alineación y la coherencia. El artículo también proporciona pasos específicos para implementar este diseño utilizando Figma, y recomienda plug-ins y herramientas relacionadas.

Magia Figma de 10 segundos: Creación de una página de tarjetas de Apple Streaming para mejorar rápidamente la textura del diseño Leer más "

NVIDIA Llama-Nemotron: el nuevo rey del código abierto más allá de DeepSeek-R1

NVIDIA publica modelos de Llama-NemotronAI de código abierto en versiones de 8B, 49B y 253B. El buque insignia, LN-Ultra, supera a DeepSeek-R1, de 671.000 millones de parámetros, en varias pruebas con solo 253.000 millones de parámetros, al tiempo que permite un funcionamiento más eficiente en un único nodo xH100. El proceso de entrenamiento en cinco etapas de la serie, con técnicas innovadoras, incluye conmutación de inferencia, optimización consciente del hardware y entrenamiento de datos sintéticos. La relación positiva entre la escala y el rendimiento de los parámetros de rendimiento del modelo marca la era de la IA en la que prima la eficiencia, y su licencia de código abierto acelerará la adopción de la tecnología.

NVIDIA Llama-Nemotron: el nuevo rey del código abierto más allá de DeepSeek-R1 Leer más "

Google Gemini 2.5 Pro: una evolución multimodal del vídeo a las aplicaciones interactivas

Google lanza la versión 2.5 Pro de Gemini, un gran logro en el campo de la comprensión multimodal y la generación de código. El modelo supera al competidor Cl 3.7 Sonnet en capacidades de programación, y es especialmente hábil a la hora de transformar contenidos de vídeo y bocetos dibujados a mano en redes totalmente funcionales, lo que mejora notablemente la eficiencia del desarrollo. Demuestra su revolución en áreas como el desarrollo web, la optimización de revisiones y la tecnología educativa, creando un nuevo paradigma para el desarrollo asistido por IA.

Google Gemini 2.5 Pro: una evolución multimodal del vídeo a las aplicaciones interactivas Leer más "

Bolt.new: guía tutorial para crear un sitio web profesional mediante descripciones sencillas

Bolt.new es una plataforma de desarrollo impulsada por IA en la que los usuarios escriben código generando sitios web completos directamente a partir de descripciones naturales. Admite la generación de aplicaciones en varios marcos, la instalación de paquetes de software y permite la optimización dinámica del código y las transformaciones a mano. Los usuarios se conectan e introducen los requisitos del sitio web para automatizar el código, admite varias rondas de optimización de diálogos y previsualizaciones en tiempo real, y pueden desplegar o descargar el código. La clave está en escribir indicaciones detalladas que especifiquen el tipo de sitio, el estilo y el público al que va dirigido, al tiempo que se incorporan editores para mejorar la precisión. bolt.new es especialmente adecuado para la creación de prototipos, y puede utilizarse junto con herramientas especializadas como Cursor para proyectos más complejos. La plataforma es inicialmente gratuita, pero en el futuro será de pago, lo que la hace idónea para empresarios, creadores de contenidos y desarrolladores.

Bolt.new: guía tutorial para crear un sitio web profesional mediante descripciones sencillas Leer más "

DeepSeek lanza el modelo Prover-V2: los parámetros 671B mejoran la comprobación de teoremas matemáticos

DeepSeek publicó el 1 de mayo el modelo DeepSeek-Prover2 diseñado para pruebas matemáticas, que contiene 671.000 millones de parámetros y una versión de 7.000 millones de parámetros. El modelo utiliza una combinación de recursividad y aprendizaje por refuerzo para destacar en varias pruebas matemáticas, como la prueba MiniFF, con un porcentaje de aprobados de 88,9%. El conjunto de datos ProBench publicado al mismo tiempo contiene 325 preguntas para evaluar las capacidades del modelo. Los experimentos han revelado que el modelo Cadena de Pensamiento mejora significativamente la precisión, y el minimodelo incluso lo supera en problemas concretos. El modelo ya está en Hugging Face, apoyando un nuevo paradigma en la investigación matemática.

DeepSeek lanza el modelo Prover-V2: los parámetros 671B mejoran la comprobación de teoremas matemáticos Leer más "

Qwen 3: el modelo 235B supera a R1, Grok y o1 con licencia Apache 2.0

Ali Tongyi Qianqian equipo lanzó una nueva generación de código abierto gran modelo Qwen3, encabezó la lista mundial de modelos de código abierto, la serie contiene modelos, el rendimiento del modelo insignia supera muchos modelos superiores, el despliegue es significativamente menor. La serie contiene modelos, el rendimiento del modelo insignia supera una serie de modelos superiores, el despliegue se reduce significativamente. qwen 3 en una serie de puntos de referencia para establecer un nuevo récord, y la innovadora introducción del modo de "razonamiento híbrido" el modelo soporta 119 idiomas, datos de pre-entrenamiento de hasta 36 token, la respuesta de la comunidad es entusiasta, dentro de tres horas para obtener la estrella k GitHub. El modelo soporta 119 idiomas con 36 token de datos de pre-entrenamiento, y recibió una estrella de GitHub en tres horas.

Qwen 3: el modelo 235B supera a R1, Grok y o1 con licencia Apache 2.0 Leer más "

Lovable 2.0: cómo una plataforma colaborativa de "codificación ambiental" está cambiando el desarrollo de software

La empresa europea de IA Lovable lanza la plataforma 2.0 para el desarrollo de software sin código mediante la interacción con el lenguaje natural. El nuevo soporte para la colaboración multijugador, los agentes de chat inteligentes y el escaneo de seguridad reducen significativamente el umbral de desarrollo. Ofrece programas gratuitos y de pago para que los equipos de startups construyan rápidamente prototipos de productos, y cuenta con 500.000 usuarios activos mensuales. La plataforma comercializa el concepto de "codificación ambiental" generada por IA para facilitar la transformación digital.

Lovable 2.0: cómo una plataforma colaborativa de "codificación ambiental" está cambiando el desarrollo de software Leer más "

OpenAI lanza el modelo de generación de imágenes multimodales gpt-image-1 para ofrecer una creación de imágenes de alta calidad

OpenAI ha lanzado oficialmente su último modelo multimodal de generación de imágenes, gpt-image-1, y lo ha puesto a disposición de desarrolladores de todo el mundo a través de una API. Este

OpenAI lanza el modelo de generación de imágenes multimodales gpt-image-1 para ofrecer una creación de imágenes de alta calidad Leer más "