hronicles-OCR – 腾讯混元发布首个古文字“七体”评测基准

hronicles-OCR是由腾讯混元大模型联合中国科学院信息工程研究所、安阳师范学院、南开大学及故宫博物院等权威机构，共同推出的业界首个中国古文字感知评测基准。

简单来说，它是一套专门用来给当前顶尖的AI大模型“出考卷”的测试集，旨在精准衡量AI在面对跨越三千年汉字演化时的视觉感知能力。

Chronicles-OCR包含了2,800 张由古文字学专家多层级交叉标注的高质量图像，完整覆盖了汉字“七体之变”的演化轨迹。它首创了“阶段自适应标注范式”，并设立了四大核心任务，严格将模型的“视觉感知”与“语义推理”解耦评估：

业界首创跨时间评测体系：首次系统覆盖了从殷商到近现代汉字“七体之变”的完整演化轨迹，填补了跨时间跨度评测的空白。
顶级学术机构联合背书：由腾讯混元联合中科院、故宫博物院、安阳师范学院甲骨文信息处理重点实验室等共同推出，数据源与标注质量经过严格的学术把关。
首创阶段自适应标注范式：针对不同历史阶段字体的剧烈形态差异，差异化地实现了古文字阶段的“单字级定位+映射”与成熟字体阶段的“序列级布局理解”，评估维度更精准。
深度揭示模型能力边界：评测结果直接揭示了当前主流多模态大模型（VLLMs）在古文字细粒度空间定位和语义破译上的短板（如开启推理模式反而导致表现下降），为模型优化提供了明确方向。
权威数据源与专家级标注：甲骨文数据来自安阳师范学院专业实验室，金文/篆书由古文字学博士团队整理，隶/楷/行/草取自故宫博物院文物数据集，确保了极高的保真度。
完全开源可复现：论文、数据集及评测代码均已完全开源，便于学术界和工业界进行复现验证与拓展研究。

如果你希望对自己的模型进行评测或研究古文字识别，可以按照以下步骤操作：

访问开源仓库：前往 GitHub 搜索并访问 VirtualLUOUCAS/Chronicles-OCR 仓库，获取完整的数据集、论文及评测代码。
下载数据集：获取包含 2,800 张图像的完整数据集（七种字体各 400 张），以及配套的 JSON 或 XML 格式标注文件。
理解数据格式：阅读阶段自适应标注规范。注意古文字阶段（甲骨/金文/篆书）为单字级边界框坐标+现代汉字映射；成熟字体阶段（隶/楷/行/草）为序列级文本布局与阅读顺序标注。
选择评测任务：根据你的研究目标，从四大任务（跨时期字符定位、细粒度古文字识别、古文本解析、字体分类）中选取对应任务。
执行模型推理与评测：将数据集图像输入你的模型，按任务要求输出结果，并使用仓库提供的官方评估脚本，将模型输出与标准标注进行比对，自动计算各项指标（如定位精度、NED编辑距离、分类准确率等）。