博客归档 - 渗透智能

LTX-2 炸场了！全球首个音画同步 4K 视频生成模型，ComfyUI 已支持

Deja un comentario / blog (préstamo) / Por IvesFeng666

LTX-2是Lightricks发布的全球首个音画同步4K视频生成模型，可生成20秒、50fps高清视频，支持文本/图像输入。它实现了角色口型与语音同步，能在ComfyUI运行并本地部署，将于5年11月下旬开源。作为专业级创作工具，LTX-2让"文字变电影级短片"成为现实。

LTX-2 炸场了！全球首个音画同步 4K 视频生成模型，ComfyUI 已支持 Read More »

LTX-2 炸场了！全球首个音画同步 4K 视频生成模型，ComfyUI 已支持

Deja un comentario / blog (préstamo) / Por IvesFeng666

LTX-2 炸场了！全球首个音画同步 4K 视频生成模型，ComfyUI 已支持 Read More »

KAT-Coder: un nuevo avance en la programación de la IA de carreras

Deja un comentario / blog (préstamo) / Por IvesFeng666

快手推出AI编程产品矩阵KAT-Coder，涵盖自研模型、工具与平台，支持20多种编程语言及多类开发任务。其开源版本KAT-Dev-72B-Exp在SWE-bench榜单以74.6%成绩超越GPT与Claude。该模型具备代码生成、调试、优化等能力，兼容主流开发工具，并在网页生成、电商网站、3D特效等领域展现强大应用潜力，标志着快手正式进军AI编程赛道。

KAT-Coder: un nuevo avance en la programación de la IA de carreras Read More »

Manus y la burbuja de agentes de IA: del ideal a la desilusión

Deja un comentario / blog (préstamo) / Por IvesFeng666

Manus作为2025年AI Agent热潮的代表，虽依托大模型、工具链与记忆技术实现任务执行，但因缺乏专业场景深耕与闭环交付，暴露“通用Agent”泡沫。其问题根源在于工程积累不足、资本驱动短视，导致功能堆砌却智能有限。行业正转向垂直领域，如医学Agent OpenEvidence，强调确定性流程与数据驱动，揭示未来属于专注、可评估、落地扎实的“笨智能”路径。

Manus y la burbuja de agentes de IA: del ideal a la desilusión Read More »

ChatGPT Atlas: una revolución en los navegadores con IA

Deja un comentario / blog (préstamo) / Por IvesFeng666

OpenAI发布首款AI原生浏览器ChatGPT Atlas，深度融合ChatGPT智能能力。其核心功能包括：实时AI辅助网页内容总结与互动、智能写作优化、自然语言控制浏览器操作、个性化记忆推荐、智能体模式自动执行购物及预订任务、光标聊天实时文本处理。该浏览器通过AI技术提升浏览效率，实现任务自动化，重塑人机交互体验。

ChatGPT Atlas: una revolución en los navegadores con IA Read More »

Veo 3.1 vs Sora2: ¿Quién es el verdadero rey de la generación de vídeo?

Deja un comentario / blog (préstamo) / Por IvesFeng666

谷歌的Veo3.1与OpenAI的Sora2在AI视频生成领域展开竞争。Veo3.1以精准控制、高质量音画同步见长，适合专业长视频创作。Sora2则胜在流畅自然的动态效果和娱乐性，更适合创意短视频。两者各有优势，选择取决于具体应用场景。

Veo 3.1 vs Sora2: ¿Quién es el verdadero rey de la generación de vídeo? Read More »

Google Gemini 3.0: innovadora generación de sistemas operativos basados en web

Deja un comentario / blog (préstamo) / Por IvesFeng666

近年来，人工智能技术的进步让我们惊叹不已，尤其是在生成式AI的领域。谷歌的最新AI模型——Gemini 3.0

Google Gemini 3.0: innovadora generación de sistemas operativos basados en web Read More »

Revisión en profundidad de seis agentes de IA de uso común: exploración del valor del producto y la dirección de desarrollo

Deja un comentario / blog (préstamo) / Por IvesFeng666

El artículo pasa revista a seis productos generalistas de agentes de IA, Manus, Buckle Space, Lovart, Flowith Neo, Skywork y Super Magee, y analiza su competitividad en el mercado en función de tres dimensiones: capacidad de ejecución, fiabilidad y frecuencia de uso.Lovart, Skywork y Super Magee sobresalen en sus respectivos verticales, con una puntuación total de 18, mientras que los generalistas se enfrentan a retos de entrada e integración. El artículo señala que la coexistencia de especialización y generalización, la capacidad de ejecución, el mecanismo de confianza y la integración de portales se convertirán en importantes direcciones para el desarrollo de los agentes.

Revisión en profundidad de seis agentes de IA de uso común: exploración del valor del producto y la dirección de desarrollo Read More »

Guía de Configuración de los Servidores MCP de Cursor y Recomendaciones Prácticas MCP de Cursor

Deja un comentario / blog (préstamo), contenidos en profundidad, Programa de estudios / Por IvesFeng666

MCP (Model Context Protocol) es un protocolo que permite a grandes modelos interactuar con herramientas y servicios externos. Cursor IDE soporta asistentes de IA para invocar herramientas para realizar búsquedas, navegar por la web, y operaciones de código a través de la función de Servidores MCP. Los servidores MCP pueden añadirse a través de la interfaz de Configuración y configurarse tanto a nivel global como de proyecto.MCP está escrito en múltiples idiomas y permite a la IA ejecutar herramientas automática o manualmente y devolver resultados, incluyendo imágenes. Entre los recursos recomendados se incluyen Awesome-MCP-ZH, AIbase y varias herramientas cliente de MCP. Los servicios MCP más utilizados, como Sequential Thinking, Brave Search, Magic MCP, etc., mejoran la capacidad de la IA para pensar, buscar, la eficiencia del desarrollo front-end y otras características, respectivamente.

Guía de Configuración de los Servidores MCP de Cursor y Recomendaciones Prácticas MCP de Cursor Read More »

Análisis en profundidad de Veo 3: un avance histórico en la generación de vídeos con IA de Google

Deja un comentario / blog (préstamo) / Por IvesFeng666

En mayo de 2025, Google lanzó Veo 3, la primera vez que logra la generación sincronizada de audio y vídeo de IA, de modo que los personajes de vídeo de IA pueden "hablar". Los avances del modelo incluyen imagen 4K, coherencia física y sincronización de sonido, etc., utilizando la tecnología V2A para codificar visuales de vídeo como señales semánticas, generando pistas de audio coincidentes, y aplicándose a programas de entrevistas, juegos en directo, conciertos y otras escenas. Aunque existen deficiencias en la generación de acciones complejas, las perspectivas de comercialización son significativas, con precios escalonados, lo que repercute en las industrias tradicionales de la publicidad y la producción cinematográfica.

Análisis en profundidad de Veo 3: un avance histórico en la generación de vídeos con IA de Google Read More »

Análisis en profundidad de las variantes del modelo Gemma: avances técnicos y aplicaciones prácticas de la IA de dominio vertical

Deja un comentario / blog (préstamo) / Por IvesFeng666

Los tres nuevos modelos especializados Gemma de Google -MedGemma, SignGemma y DolphinGemma- representan un cambio importante en los modelos de IA, que pasan de la generalidad a la adaptación vertical profunda a los dominios. MedGemma se centra en escenarios médicos y ofrece capacidades de razonamiento multimodal de imágenes y texto de alta precisión; SignGemma apoya la traducción multilingüe del lenguaje de signos para ayudar a comunicarse a los grupos con deficiencias auditivas; y DolphinGemma explora la síntesis del habla de los delfines para fomentar la investigación de la comunicación entre especies. Estos modelos mejoran el rendimiento profesional al tiempo que tienen en cuenta la eficiencia computacional y la comodidad de despliegue, proporcionando una nueva vía para la industrialización de la IA.

Análisis en profundidad de las variantes del modelo Gemma: avances técnicos y aplicaciones prácticas de la IA de dominio vertical Read More »

Claude 4: La redefinición de los asistentes de programación de IA llega a la mayoría de edad

Deja un comentario / blog (préstamo) / Por IvesFeng666

Anthropic lanza la serie Claude 4, que abarca las versiones Opus 4 y Sonnet 4, centrada en tareas de programación y razonamiento avanzado. En la conferencia de desarrolladores, su director general, Dario Amodei, anunció que la serie supera a la competencia en todos los ámbitos, liderando el rendimiento en múltiples benchmarks, así como el lanzamiento de Claude Code y nuevas funciones de la API que impulsarán un cambio de paradigma en la forma de hacer IA y desarrollo. cambio de paradigma.

Claude 4: La redefinición de los asistentes de programación de IA llega a la mayoría de edad Read More »

Las nuevas funciones de Manus al completo: la capacidad de generación de gráficos de inteligencia artificial, oficialmente en línea

Deja un comentario / blog (préstamo) / Por IvesFeng666

Manus se pone en marcha con generación de imágenes, los nuevos usuarios obtienen 1.000 puntos de bonificación y 300 recargas diarias. La plataforma emplea un proceso de pensamiento profundo que admite la colaboración entre varias herramientas y el ajuste de la interacción entre tareas. Los casos de prueba demuestran que puede completar tareas complejas de generación de imágenes, diseño de marcas, despliegue web y otras. El consumo de puntos es elevado, la cantidad gratuita de funciones básicas es limitada, y la suscripción de pago se divide en tres niveles.Las ventajas de Manus residen en la comprensión de las intenciones y la ejecución de todo el proceso, pero hay problemas de lentitud, calidad fluctuante y coste elevado, por lo que aún hay margen de mejora en el futuro.

Las nuevas funciones de Manus al completo: la capacidad de generación de gráficos de inteligencia artificial, oficialmente en línea Read More »

Revolución de la nueva generación de programación OpenAI: análisis del cuerpo de inteligencia del Codex

Deja un comentario / blog (préstamo) / Por IvesFeng666

OpenAI lanza la inteligencia de programación Codex en mayo de 2025, integrada con ChatGPT y basada en el modelo codex-1, que realiza tareas como escribir código, corregir errores, ejecutar pruebas, etc., en la nube. codex admite integraciones de GitHub, proporciona pruebas verificables de ejecución y obtuvo una puntuación de 72,1% en la prueba SWE-Bench. actualmente está disponible para usuarios Pro, Enterprise y Team, y se mejorará aún más con la interactividad y la integración de herramientas de desarrollo para ayudar a mejorar la eficiencia del desarrollo de software. Codex está disponible actualmente para los usuarios de Pro, Enterprise y Team, y en el futuro mejorará la interactividad y la integración de herramientas de desarrollo para contribuir a mejorar la eficacia del desarrollo de software.

Revolución de la nueva generación de programación OpenAI: análisis del cuerpo de inteligencia del Codex Read More »

Google DeepMind AlphaEvolve: el ascenso de una inteligencia artificial revolucionaria

Deja un comentario / blog (préstamo) / Por IvesFeng666

Google DeepMind ha lanzado AlphaEvolve, una inteligencia artificial de codificación capaz de escribir y optimizar código y hacer descubrimientos científicos por sí sola. El sistema, que incorpora grandes modelos lingüísticos, algoritmos evolutivos y evaluadores automáticos, ya ha realizado varios avances en el campo de las matemáticas, como la mejora de algoritmos de multiplicación de matrices y la resolución de puzles geométricos. Entretanto, ha logrado importantes mejoras de eficiencia en la optimización de los centros de datos de Google, el diseño de chips y la formación en IA, marcando un nuevo hito en la transformación de la IA de herramienta a socio de innovación algorítmica.

Google DeepMind AlphaEvolve: el ascenso de una inteligencia artificial revolucionaria Read More »

Magia Figma de 10 segundos: Creación de una página de tarjetas de Apple Streaming para mejorar rápidamente la textura del diseño

Deja un comentario / blog (préstamo) / Por IvesFeng666

Bento Grids (Apple Style) es un estilo de diseño visual mínimo, claro y muy organizado que se utiliza habitualmente en las interfaces de las aplicaciones web y móviles modernas. Este estilo crea una experiencia de lectura limpia al presentar el contenido a través de módulos de cuadrícula que enfatizan el espacio en blanco, la alineación y la coherencia. El artículo también proporciona pasos específicos para implementar este diseño utilizando Figma, y recomienda plug-ins y herramientas relacionadas.

Magia Figma de 10 segundos: Creación de una página de tarjetas de Apple Streaming para mejorar rápidamente la textura del diseño Read More »

NVIDIA Llama-Nemotron: el nuevo rey del código abierto más allá de DeepSeek-R1

Deja un comentario / blog (préstamo) / Por IvesFeng666

NVIDIA publica modelos de Llama-NemotronAI de código abierto en versiones de 8B, 49B y 253B. El buque insignia, LN-Ultra, supera a DeepSeek-R1, de 671.000 millones de parámetros, en varias pruebas con solo 253.000 millones de parámetros, al tiempo que permite un funcionamiento más eficiente en un único nodo xH100. El proceso de entrenamiento en cinco etapas de la serie, con técnicas innovadoras, incluye conmutación de inferencia, optimización consciente del hardware y entrenamiento de datos sintéticos. La relación positiva entre la escala y el rendimiento de los parámetros de rendimiento del modelo marca la era de la IA en la que prima la eficiencia, y su licencia de código abierto acelerará la adopción de la tecnología.

NVIDIA Llama-Nemotron: el nuevo rey del código abierto más allá de DeepSeek-R1 Read More »

Google Gemini 2.5 Pro: una evolución multimodal del vídeo a las aplicaciones interactivas

Deja un comentario / blog (préstamo) / Por IvesFeng666

Google lanza la versión 2.5 Pro de Gemini, un gran logro en el campo de la comprensión multimodal y la generación de código. El modelo supera al competidor Cl 3.7 Sonnet en capacidades de programación, y es especialmente hábil a la hora de transformar contenidos de vídeo y bocetos dibujados a mano en redes totalmente funcionales, lo que mejora notablemente la eficiencia del desarrollo. Demuestra su revolución en áreas como el desarrollo web, la optimización de revisiones y la tecnología educativa, creando un nuevo paradigma para el desarrollo asistido por IA.

Google Gemini 2.5 Pro: una evolución multimodal del vídeo a las aplicaciones interactivas Read More »

Bolt.new: guía tutorial para crear un sitio web profesional mediante descripciones sencillas

Deja un comentario / blog (préstamo) / Por IvesFeng666

Bolt.new es una plataforma de desarrollo impulsada por IA en la que los usuarios escriben código generando sitios web completos directamente a partir de descripciones naturales. Admite la generación de aplicaciones en varios marcos, la instalación de paquetes de software y permite la optimización dinámica del código y las transformaciones a mano. Los usuarios se conectan e introducen los requisitos del sitio web para automatizar el código, admite varias rondas de optimización de diálogos y previsualizaciones en tiempo real, y pueden desplegar o descargar el código. La clave está en escribir indicaciones detalladas que especifiquen el tipo de sitio, el estilo y el público al que va dirigido, al tiempo que se incorporan editores para mejorar la precisión. bolt.new es especialmente adecuado para la creación de prototipos, y puede utilizarse junto con herramientas especializadas como Cursor para proyectos más complejos. La plataforma es inicialmente gratuita, pero en el futuro será de pago, lo que la hace idónea para empresarios, creadores de contenidos y desarrolladores.

Bolt.new: guía tutorial para crear un sitio web profesional mediante descripciones sencillas Read More »

DeepSeek lanza el modelo Prover-V2: los parámetros 671B mejoran la comprobación de teoremas matemáticos

Deja un comentario / blog (préstamo) / Por IvesFeng666

DeepSeek publicó el 1 de mayo el modelo DeepSeek-Prover2 diseñado para pruebas matemáticas, que contiene 671.000 millones de parámetros y una versión de 7.000 millones de parámetros. El modelo utiliza una combinación de recursividad y aprendizaje por refuerzo para destacar en varias pruebas matemáticas, como la prueba MiniFF, con un porcentaje de aprobados de 88,9%. El conjunto de datos ProBench publicado al mismo tiempo contiene 325 preguntas para evaluar las capacidades del modelo. Los experimentos han revelado que el modelo Cadena de Pensamiento mejora significativamente la precisión, y el minimodelo incluso lo supera en problemas concretos. El modelo ya está en Hugging Face, apoyando un nuevo paradigma en la investigación matemática.

DeepSeek lanza el modelo Prover-V2: los parámetros 671B mejoran la comprobación de teoremas matemáticos Read More »

Qwen 3: el modelo 235B supera a R1, Grok y o1 con licencia Apache 2.0

Deja un comentario / blog (préstamo) / Por IvesFeng666

Ali Tongyi Qianqian equipo lanzó una nueva generación de código abierto gran modelo Qwen3, encabezó la lista mundial de modelos de código abierto, la serie contiene modelos, el rendimiento del modelo insignia supera muchos modelos superiores, el despliegue es significativamente menor. La serie contiene modelos, el rendimiento del modelo insignia supera una serie de modelos superiores, el despliegue se reduce significativamente. qwen 3 en una serie de puntos de referencia para establecer un nuevo récord, y la innovadora introducción del modo de "razonamiento híbrido" el modelo soporta 119 idiomas, datos de pre-entrenamiento de hasta 36 token, la respuesta de la comunidad es entusiasta, dentro de tres horas para obtener la estrella k GitHub. El modelo soporta 119 idiomas con 36 token de datos de pre-entrenamiento, y recibió una estrella de GitHub en tres horas.

Qwen 3: el modelo 235B supera a R1, Grok y o1 con licencia Apache 2.0 Read More »

Lovable 2.0: cómo una plataforma colaborativa de "codificación ambiental" está cambiando el desarrollo de software

Deja un comentario / blog (préstamo) / Por IvesFeng666

La empresa europea de IA Lovable lanza la plataforma 2.0 para el desarrollo de software sin código mediante la interacción con el lenguaje natural. El nuevo soporte para la colaboración multijugador, los agentes de chat inteligentes y el escaneo de seguridad reducen significativamente el umbral de desarrollo. Ofrece programas gratuitos y de pago para que los equipos de startups construyan rápidamente prototipos de productos, y cuenta con 500.000 usuarios activos mensuales. La plataforma comercializa el concepto de "codificación ambiental" generada por IA para facilitar la transformación digital.

Lovable 2.0: cómo una plataforma colaborativa de "codificación ambiental" está cambiando el desarrollo de software Read More »

OpenAI lanza el modelo de generación de imágenes multimodales gpt-image-1 para ofrecer una creación de imágenes de alta calidad

Deja un comentario / blog (préstamo) / Por IvesFeng666

OpenAI ha lanzado oficialmente su último modelo multimodal de generación de imágenes, gpt-image-1, y lo ha puesto a disposición de desarrolladores de todo el mundo a través de una API. Este

OpenAI lanza el modelo de generación de imágenes multimodales gpt-image-1 para ofrecer una creación de imágenes de alta calidad Read More »