AI资讯 - 第5页 - AI深识站

最新文章 AI资讯 AI知识探索库 AI学习教程 AI世界漫游指南

html-video – Open Design团队开源的HyperFrames

Open Design团队开源的HyperFrames（常被称作 "HTML 版剪映"）是一个基于 HTML/CSS/JavaScript 的动态视频生成框架，核心目标是让开发者用前端技术栈直接生成...

AI最新项目

3周前

0560

Magenta RealTime 2 – 谷歌Magenta开源实时音乐生成AI模型

Magenta RealTime 2(MRT2)是谷歌Magenta团队发布的开源实时音乐生成AI模型，核心突破在于将音乐生成延迟从传统云端方案的秒级降至200毫秒以内，实现真正意义上的"人机即兴合奏...

AI最新项目

3周前

0490

GitNexus – 专为AI智能体设计的代码库知识图谱构建工具

GitNexus是专为AI智能体设计的代码库知识图谱构建工具，核心功能是将代码库的依赖关系、调用链和架构逻辑预计算为结构化知识图谱，使AI编程助手能精准理解代码上下文，避免盲目修改导致破坏性变更。通...

AI最新项目

3周前

0420

BrowserAct Skills – 专为AI智能体设计的浏览器自动化工具集

BrowserAct Skills是专为AI智能体设计的浏览器自动化工具集，核心能力是让AI像人类一样稳定操作真实网页环境。它通过隐身浏览器技术+AI动态决策解决传统自动化工具的致命缺陷——能自动绕过...

AI最新项目

3周前

0510

Microsoft Scout – 微软开发者大会上推出的首款个人AI同事

Microsoft Scout是微软开发者大会上推出的首款"真正意义的个人AI同事"，具备独立身份、能主动接管高频低价值职场任务的自治式智能体。深度嵌入Microsoft 365生态，以Teams联...

AI最新项目

3周前

0430

Ideogram 4 – Ideogram公司发布的开源文生图模型

Ideogram 4.0是Ideogram公司于2026年6月3日发布的93亿参数开源文生图模型，最大突破在于通过单流架构实现像素级排版控制能力，使AI生图从随机“抽卡”转向可精准指定文字位置、对象布...

AI最新项目

3周前

0410

Gemma 4 12B – 谷歌DeepMind发布的统一多模态模型

Gemma 4 12B是谷歌DeepMind于2026年6月4日发布的120亿参数统一多模态模型，最大突破在于通过无编码器架构实现仅需16GB内存的消费级笔记本即可本地运行完整多模态AI能力(支持文本...

AI最新项目

3周前

01200

Kimi Work – 月之暗面推出的本地桌面AI智能体

Kimi Work是月之暗面推出的本地桌面AI智能体，依托Kimi Code引擎，适配Windows、Mac客户端。依托自然语言下达指令即可自动拆分任务、本地执行操作，支持网页抓取、文件管理、多格式文...

AI最新项目

3周前

0400

JoyAI-Echo – 京东开源的长音视频生成框架

JoyAI-Echo是京东开源的长音视频生成框架，首次系统性解决长视频生成的三大行业难题(角色一致性差、声音不稳定、生成效率低)，通过跨模态记忆库、对话式编辑和7.5倍推理加速技术，实现5分钟级长视频...

AI最新项目

3周前

0700

MAI-Code-1-Flash – 微软发布的首款自研轻量级代码生成模型

MAI-Code-1-Flash是微软发布的首款自研轻量级代码生成模型，专为开发者日常编码场景设计，采用50亿参数的紧凑架构，通过自适应推理预算分配技术实现高效率与低成本的平衡。其核心价值在于将Ag...

AI最新项目

3周前

0780

MAI Transcribe-1.5 – 微软发布的升级版语音转文字(ASR)模型

MAI-Transcribe-1.5是微软于2026年6月发布的升级版语音转文字(ASR)模型，作为MAI系列自研模型的重要迭代，在43种语言支持、专业术语识别精度和处理速度上实现突破性提升，批量转录...

AI最新项目

3周前

0420

Bernini – 字节跳动开源的统一视频生成与编辑框架

Bernini是字节跳动于2026年6月正式开源的统一视频生成与编辑框架，首创“语义规划+视觉渲染”的两阶段解耦架构，通过让AI先理解指令逻辑再生成画面，显著提升视频编辑的可控性与稳定性，解决传统模型...

AI最新项目

3周前

0470

PaddleOCR-VL-1.6 – 百度发布的轻量化多模态文档解析模型

PaddleOCR-VL-1.6是百度发布的轻量化多模态文档解析模型，在权威评测集OmniDocBench v1.6中以96.33%的综合准确率刷新全球SOTA记录，超越Gemini-3-Pro、GP...

AI最新项目

3周前

0360

MAI-Voice-2 – 微软发布的新一代自研多语言语音合成模型

MAI-Voice-2是微软发布的新一代自研多语言语音合成模型，支持15种以上语言的高自然度语音生成，并首次实现复杂情感语调模拟与短样本声音克隆能力。其核心突破在于通过端到端神经声学建模，在保证超低...

AI最新项目

3周前

0340

MAI-Thinking-1 – 微软发布的首款完全自研的高级推理AI模型

MAI-Thinking-1是微软于2026年6月3日发布的首款完全自研的高级推理AI模型，采用350亿活跃参数的稀疏混合专家(MoE)架构，完全基于企业级合规数据从零训练，未使用任何第三方模型蒸馏数...

AI最新项目

3周前

0420

好用的ai配音软件有哪些免费

目前市面上真正完全免费且无强制水印、广告或导出限制的AI配音工具较少，多数提供“基础功能免费+高级功能付费”模式。根据2026年实测数据，以下5款工具在免费额度、核心功能开放度及实用性上表现突出，适合...

AI知识探索库

3周前

0800

Qwen2.5-7B – 阿里云通义千问系列开源大语言模型

Qwen2.5-7B是阿里云通义千问系列推出的76.1亿参数开源大语言模型，核心特点为支持131.072 tokens超长上下文、原生结构化输出能力及显著提升的数学与编程性能，适用于需平衡推理成本与专...

AI最新项目

3周前

0370

ECC – 开源的AI Agent性能优化系统

ECC(Everything Claude Code)是一个开源的AI Agent性能优化系统，由Anthropic黑客松冠军Affaan Mustafa基于10个月高强度生产环境实践开发，核心目标是...

AI最新项目

3周前

0450

OpenClacky – 李亚飞团队开源的低成本AI Agent框架

OpenClacky是李亚飞团队开源的低成本AI Agent框架，核心目标是通过工程化优化将AI任务执行的Token消耗降至行业最低水平，使专业用户能全天候无负担地运行AI助手。其关键突破在于通过缓...

AI最新项目

3周前

0390

Mellum2 – JetBrains推出的开源混合专家(MoE)模型

Mellum2是JetBrains推出的120亿参数开源混合专家(MoE)模型，专为软件工程场景设计，核心目标是通过超低延迟推理与私有化部署能力，解决企业级AI工作流中的实时性与成本瓶颈。 Mellu...

AI最新项目

3周前

0370

多模态智能体模型

多模态智能体模型是能够同时感知、理解并操作多种数据模态(如文本、图像、音频、视频等)，且具备自主决策与行动能力的AI系统。它不仅像传统模型一样“看懂”或“听懂”信息，更能主动调用工具、执行任务、验证结...

AI知识探索库

3周前

0590

Qwen3.7-Plus – 阿里巴巴发布的多模态智能体模型

Qwen3.7-Plus是阿里巴巴于2026年6月2日正式发布的多模态智能体模型，定位为视觉与语言统一的智能体基座。它在Qwen3.7文本能力基础上深度融合视觉理解与行动能力，不仅能看懂图像/视频，还...

AI最新项目

3周前

0520

语构 – 阿里达摩院上线的零代码AI原生应用开发平台

语构是阿里达摩院于2026年6月2日正式上线的零代码AI原生应用开发平台，基于Vibe Coding技术实现“一句话生成完整应用”的能力，支持网页、小程序、互动工具等多元形态开发。其核心突破在于彻底...

AI最新项目

3周前

0390

Cosmos 3 – 英伟达发布的开源全模态物理AI基础大模型

Cosmos 3是英伟达(NVIDIA)于2026年6月1日正式发布的全球首款全开源、全模态(Omni-Model)物理AI基础大模型。它被定义为一个“世界模型”，旨在赋予人工智能系统理解物理世界规律...

AI最新项目

3周前

0490

Dubbing v2 – ElevenLabs推出的最新AI配音模型

Dubbing v2是ElevenLabs推出的AI配音模型，首次实现跨语言情感迁移，能够将原始语音中的语调、节奏、停顿、情绪起伏等表演细节完整保留并自然映射到目标语言中。其核心突破在于摒弃传统...

AI最新项目

3周前

0430

Polar – 英伟达开源的强化学习训练框架

Polar是英伟达(NVIDIA)开源的强化学习训练框架，专为解决代码智能体(如Codex、Claude Code、Qwen Code等)接入强化学习时的高成本与信号丢失问题而设计。其核心突破在于无...

AI最新项目

3周前

0350

Gamma-World – 英伟达与清华大学推出的多智能体世界模型

Gamma-World是由英伟达与清华大学团队联合提出的多智能体世界模型，旨在解决传统单智能体世界模型无法模拟多主体在共享环境中交互的核心缺陷。其核心突破在于通过身份对称性编码和稀疏通信架构，首次实...

AI最新项目

3周前

0390

Music v2 – ElevenLabs发布的新一代专业级音乐生成模型

Music v2是ElevenLabs发布的新一代专业级音乐生成模型，其核心突破在于将AI音乐创作从“抽卡式随机生成”推进到可精准编辑、支持商业落地的工业化阶段。该模型基于完全授权的数据集训练，生成...

AI最新项目

3周前

0450

Qwen-VLA – 阿里通义团队最新发布的通用机器人基础模型

Qwen-VLA是阿里通义团队最新发布的通用机器人基础模型。简单来说，如果之前的视觉模型是让AI拥有一双“眼睛”去理解世界，那么Qwen-VLA就是给这双眼睛配上了“灵活的手脚”，让AI不仅能看、能...

AI最新项目

3周前

0450

Gemini 3.1 Pro – 谷歌发布的旗舰人工智能基础模型

Gemini 3.1 Pro是谷歌(Google)发布的新一代旗舰人工智能基础模型。它定位为一款专为解决复杂问题而生的高阶推理工具，主打深度思考和复杂任务处理。 Gemini 3.1 Pro核心特点与...

AI最新项目

3周前

0420

加载更多

热门网址

飞象老师

火兔工具箱

千笔ai

泡漫

酷云AI

夸克AI

热门软件

标签云