General365是由美团LongCat团队在2026年4月底发布,并于5月中旬正式开源的一个专注于评估大模型通用逻辑推理能力的全新评测基准。
简单来说,它是一套专门为 AI 设计的“高难度逻辑考卷”。它不考 AI 的专业知识(如高数、编程),而是专门用 K-12(中小学)水平的常识,来测试 AI 在脱离专业知识后,到底有没有真正的“脑子”去解决复杂的日常逻辑问题。

General365核心亮点
General365 的出现打破了以往评测基准(如 BBH、BBEH)中模型分数虚高、区分度下降的局面。
- 全员不及格:在对全球 26 款主流大模型的实测中,表现最好的谷歌 Gemini 3 Pro 准确率也仅为 62.8%,绝大多数模型甚至没能达到 60 分的及格线。
- 拒绝“背模板”:它的题目经过精心设计,逻辑独立性极强。比如 GPT-5-Thinking 在老基准 BBH 上准确率高达 92.0%,但在 General365 上骤降至 58.6%,证明它无法靠死记硬背题库蒙混过关。
- 效率照妖镜:它不仅看 AI 答得对不对,还看 AI 花了多少算力。测试发现,Gemini 3 Pro 仅用约 1.4 万 tokens 的输出就拿下了最高分,而其他相近水平的模型普遍需要 2.5 万到 3 万 tokens。这说明顶尖模型不仅靠“想得多”,更靠“想得准”(更高的推理密度)。
八大推理挑战维度
General365 包含 365 道种子题及 1095 个扩展变体,总计 1460 道高质量题目。每道题都至少对应以下八大挑战维度之一,专门针对 AI 的思维薄弱环节:
- 复杂约束:多条件交织下的全局一致性维护(例如:15个条件同时生效的排队谜题)。
- 分支与枚举:解空间的系统性遍历与边界覆盖(例如:穷举所有符合条件的箱子分配方案)。
- 时空推理:空间关系与时间序列的动态推演(例如:在脑海中模拟迷宫行走并定位)。
- 递归与回溯:假设—验证—推翻的迭代纠错(例如:经典的隧道搜索问题)。
- 语义干扰:跨越认知陷阱,严格遵循题设规则(AI 极易被题干中的干扰信息带偏)。
- 隐式信息:从碎片线索推断底层逻辑结构。
- 最优策略:多路径方案中的效用权衡与规划(AI 普遍缺乏多步全局规划能力)。
- 概率与不确定性:不完全信息下的概率推断。
General365开源信息与获取方式
General365的初衷是推动大模型从“做题机器”走向具备真正通用智慧的形态。目前该项目已全面开源,社区可以快速接入和复现。
- 项目官网:https://general365.github.io/
- GitHub 仓库:https://github.com/meituan-longcat/General365
- HuggingFace 数据集:https://huggingface.co/datasets/meituan-longcat/General365_Public
- 技术论文 (arXiv):https://arxiv.org/abs/2604.11778
如果你正在研究或测试大模型的逻辑推理能力,General365 无疑是目前最具含金量和区分度的“试金石”。
General365适用人群
大模型研发与评测人员
这是General365最核心的用户群体。
- 识别模型短板:如果你正在开发或优化大模型,General365 能帮你精准识别模型在“复杂约束”、“语义干扰”、“最优策略”等八大推理维度的具体弱项(例如,模型是否容易被干扰信息带偏,或者缺乏多步全局规划能力)。
- 拒绝“高分低能”:它能帮助研发者验证模型是否真正具备了脱离专业知识的通用逻辑,而不是靠死记硬背题库(如 BBH、BBEH)拿高分的“做题机器”。
- 评估推理效率:除了看准确率,研发者还可以利用它分析模型在解决难题时的 Token 消耗(推理密度),从而针对性地优化模型的“思考效率”。
企业技术决策者与 AI 应用选型人员
对于需要采购或集成大模型能力的企业(B端用户),General365 提供了一份极具含金量的客观参考:
- 模型选型依据:在面对 OpenAI、Google、阿里、智谱、月之暗面等 26+ 款主流模型时,可以通过该榜单判断哪款模型在日常逻辑推理、复杂任务处理上表现更稳健。
- 预判落地效果:由于 General365 聚焦于 K-12 知识水平的日常通用逻辑,其测试结果能更好地反映模型在真实商业场景(如辅助决策、复杂流程规划、谈判分析等)中的实际表现,避免选到“偏科”的模型。
AI领域的学术研究者
- 标准化评测工具:为学术界提供了一个难度极高、区分度强且防数据污染(设有隐藏测试集)的标准化评测工具。
- 推动技术演进:有助于研究者探索大模型从“学科专家”向“通用推理者”进化的路径,推动通用人工智能(AGI)在逻辑推理层面的理论突破。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



