文明旁观者的头像

文明旁观者

帅气的我简直无法用语言描述!
Doubao-Seed-2.0-lite – 字节豆包大模型首款全模态理解模型

Doubao-Seed-2.0-lite – 字节豆包大模型首款全模态理解模型

Doubao-Seed-2.0-lite字节跳动火山引擎推出的豆包大模型家族首款全模态理解模型。核心定位是“全模态理解与极致性价比”。不同于仅支持图文的模型,它原生支持视频、图像、音频、文本的统一理解...
文明旁观者的头像4小时前
030
SenseNova 6.7 Flash-Lite – 新一代轻量化多模态智能体模型

SenseNova 6.7 Flash-Lite – 新一代轻量化多模态智能体模型

SenseNova 6.7Flash-Lite商汤科技在2026年5月8日正式推出的新一代轻量化多模态智能体模型。 它的核心定位是“专为真实世界工作流而生”,通过采用原生多模态架构,彻底改变了传统模型...
文明旁观者的头像4小时前
030
Uni-1.1 – Luma AI推出的企业级图像生成模型及API服务

Uni-1.1 – Luma AI推出的企业级图像生成模型及API服务

Uni-1.1是由硅谷初创公司Luma AI正式推出的新一代企业级图像生成模型及API服务。 它最大的技术突破在于“换道超车”:抛弃了目前主流的扩散模型,转而采用类似大语言模型的自回归(Autoreg...
文明旁观者的头像13小时前
040
GPT-Realtime-Whisper – OpenAI推出的低延迟语音转文字模型

GPT-Realtime-Whisper – OpenAI推出的低延迟语音转文字模型

GPT-Realtime-Whisper是OpenAI推出的一款专注于低延迟流式语音转文字的模型。它的核心突破在于实现了真正的“边说边转”。与传统的“录音-上传-识别”模式不同,它能在你说话的同时实时...
文明旁观者的头像14小时前
020
GPT-Realtime-2 – OpenAI推出的旗舰级实时语音模型

GPT-Realtime-2 – OpenAI推出的旗舰级实时语音模型

GPT-Realtime-2是OpenAI推出的旗舰级实时语音模型。它最大的突破在于,首次将GPT-5级别的推理能力 引入了语音交互领域,让AI语音助手从简单的“问答机器”进化为能处理复杂任务的“智能...
文明旁观者的头像14小时前
020
GPT-Realtime-Translate – OpenAI推出的实时流式翻译模型

GPT-Realtime-Translate – OpenAI推出的实时流式翻译模型

GPT-Realtime-Translate是OpenAI推出的一款专注于实时流式翻译的AI模型。它的核心突破在于打破了传统翻译“说完一句、停顿、再翻译”的回合制模式,实现了边听边译的“同传”体验,将...
文明旁观者的头像14小时前
030
豆包推出付费订阅服务

豆包推出付费订阅服务

字节旗下国民AI工具豆包悄然在应用商店披露付费订阅测试方案,三档定价覆盖不同使用需求,消息一出迅速引发全网热议。 很多人第一反应担心基础功能收费,实际上官方早已明确表态,日常基础服务永久免费,付费只针...
文明旁观者的头像2天前
060
Models.dev – 由社区驱动的开源AI模型数据库

Models.dev – 由社区驱动的开源AI模型数据库

Models.dev是一个由社区驱动的开源AI模型数据库,你可以把它理解为AI开发者的“中央情报局”或“万能字典”。 它的核心目的是解决当前AI模型信息分散、更新过快的问题。它将OpenAI、Anth...
文明旁观者的头像2天前
040
Grok Voice Think Fast 1.0 – xAI发布的旗舰级语音智能体模型

Grok Voice Think Fast 1.0 – xAI发布的旗舰级语音智能体模型

Grok Voice Think Fast 1.0是xAI于2026年4月发布的旗舰级语音智能体模型。它专为处理客服、销售等场景下的复杂、多步骤工作流而设计,其核心突破在于实现了“边想边说”的实时推理...
文明旁观者的头像2天前
040
Realtime TTS-2 – Inworld AI发布的一款实时对话语音合成模型

Realtime TTS-2 – Inworld AI发布的一款实时对话语音合成模型

Realtime TTS-2是由Inworld AI发布的一款实时对话语音合成模型。它并非传统的“文本转语音”工具,而是通过闭环系统架构,能够实时感知对话中的音频上下文(如用户的语调、节奏和情感),从...
文明旁观者的头像2天前
070