别看刷榜，大模型靠不靠谱，就看这一条

TIP! Right-click and select "Save link as..." to download.

VIDEOS
MP4	N/A	480P	Download
MP4	N/A	360P	Download
AUDIO
MP4	N/A	mp4a.40.2	Download
MP4	N/A	mp4a.40.5	Download
MP4	N/A	mp4a.40.2	Download
THUMBNAILS
	JPEG	Origin Image	Download

在中文大模型领域里，有 C-Eval、MMLU 和 AGIEval 这三个测试集。它们分别代表着针对中文语言能力的综合评估、大规模多任务语言理解，以及 AI 的类人能力测试。可您知道吗，这些测试集其实都相当于“开卷考试”。

要是模型开发者把在这些测试集上的表现当作主要目标，花上足够的时间去训练，那在这些测试里取得好成绩是自然而然的事。但问题来了，当把目光移到这些测试集之外的问题时，模型的回答质量就很难让人满意了。

模型开发者当然是希望能全面地评估模型性能，谁也不想让自己的模型“高分低能”，可他们常常得面对来自上级的指标压力，只能针对测试成绩去做优化。这也就是为什么咱们的一些模型很难真正和 GPT3.5 或者 GPT4 一较高下。而且啊，这种过拟合的问题，在企业想要超越竞争对手的过程中特别常见。

给您举个例子，就像自动驾驶技术还没完全成熟的时候，某些公司就对外宣称能在复杂路况下实现完全自动驾驶，还通过录制特定路段的实测视频来证明。那么，这种突然的技术飞跃是咋来的呢？其实呀，很多时候是通过对特定路段反复训练，再利用高精度地图详细标注各种环境因素，才实现了在该特定路段的完美驾驶。但一旦到了陌生环境，这样的系统表现就差强人意了。

现在，虽然确实还缺乏大家都公认的测评集，但是现有的测试集已经有被过度训练的现象了。所以，咱们在评估大模型能力的时候，真不能太看重这些测试集的得分。

其实，过度拟合在咱们的生活里到处都是，像大学排名的刷分、自媒体的刷流量等等。真正优秀的模型，应该是在公开的市场竞争里，让人们愿意为它支付额外费用的模型，别的那些补充说明，都是多余的。