General365 – 美团LongCat团队开源通用推理新评测基准

General365是由美团LongCat团队在2026年4月底发布，并于5月中旬正式开源的一个专注于评估大模型通用逻辑推理能力的全新评测基准。

简单来说，它是一套专门为 AI 设计的“高难度逻辑考卷”。它不考 AI 的专业知识(如高数、编程)，而是专门用 K-12(中小学)水平的常识，来测试 AI 在脱离专业知识后，到底有没有真正的“脑子”去解决复杂的日常逻辑问题。

General365 的出现打破了以往评测基准（如 BBH、BBEH）中模型分数虚高、区分度下降的局面。

全员不及格：在对全球 26 款主流大模型的实测中，表现最好的谷歌 Gemini 3 Pro 准确率也仅为 62.8%，绝大多数模型甚至没能达到 60 分的及格线。
拒绝“背模板”：它的题目经过精心设计，逻辑独立性极强。比如 GPT-5-Thinking 在老基准 BBH 上准确率高达 92.0%，但在 General365 上骤降至 58.6%，证明它无法靠死记硬背题库蒙混过关。
效率照妖镜：它不仅看 AI 答得对不对，还看 AI 花了多少算力。测试发现，Gemini 3 Pro 仅用约 1.4 万 tokens 的输出就拿下了最高分，而其他相近水平的模型普遍需要 2.5 万到 3 万 tokens。这说明顶尖模型不仅靠“想得多”，更靠“想得准”（更高的推理密度）。

General365 包含 365 道种子题及 1095 个扩展变体，总计 1460 道高质量题目。每道题都至少对应以下八大挑战维度之一，专门针对 AI 的思维薄弱环节：

General365的初衷是推动大模型从“做题机器”走向具备真正通用智慧的形态。目前该项目已全面开源，社区可以快速接入和复现。

项目官网：https://general365.github.io/
GitHub 仓库：https://github.com/meituan-longcat/General365
HuggingFace 数据集：https://huggingface.co/datasets/meituan-longcat/General365_Public
技术论文 (arXiv)：https://arxiv.org/abs/2604.11778

如果你正在研究或测试大模型的逻辑推理能力，General365 无疑是目前最具含金量和区分度的“试金石”。

大模型研发与评测人员

这是General365最核心的用户群体。

识别模型短板：如果你正在开发或优化大模型，General365 能帮你精准识别模型在“复杂约束”、“语义干扰”、“最优策略”等八大推理维度的具体弱项（例如，模型是否容易被干扰信息带偏，或者缺乏多步全局规划能力）。
拒绝“高分低能”：它能帮助研发者验证模型是否真正具备了脱离专业知识的通用逻辑，而不是靠死记硬背题库（如 BBH、BBEH）拿高分的“做题机器”。
评估推理效率：除了看准确率，研发者还可以利用它分析模型在解决难题时的 Token 消耗（推理密度），从而针对性地优化模型的“思考效率”。

企业技术决策者与 AI 应用选型人员

对于需要采购或集成大模型能力的企业（B端用户），General365 提供了一份极具含金量的客观参考：

模型选型依据：在面对 OpenAI、Google、阿里、智谱、月之暗面等 26+ 款主流模型时，可以通过该榜单判断哪款模型在日常逻辑推理、复杂任务处理上表现更稳健。
预判落地效果：由于 General365 聚焦于 K-12 知识水平的日常通用逻辑，其测试结果能更好地反映模型在真实商业场景（如辅助决策、复杂流程规划、谈判分析等）中的实际表现，避免选到“偏科”的模型。

AI领域的学术研究者