Bilibili Video Downloader

The easiest way to download Bilibili video without watermark or logo

别看刷榜,大模型靠不靠谱,就看这一条

TIP! Right-click and select "Save link as..." to download.

VIDEOS
MP4 N/A 480P Download
MP4 N/A 360P Download
AUDIO
MP4 N/A mp4a.40.2 Download
MP4 N/A mp4a.40.5 Download
MP4 N/A mp4a.40.2 Download
THUMBNAILS
别看刷榜,大模型靠不靠谱,就看这一条 JPEG Origin Image Download
在中文大模型领域里,有 C-Eval、MMLU 和 AGIEval 这三个测试集。它们分别代表着针对中文语言能力的综合评估、大规模多任务语言理解,以及 AI 的类人能力测试。可您知道吗,这些测试集其实都相当于“开卷考试”。

要是模型开发者把在这些测试集上的表现当作主要目标,花上足够的时间去训练,那在这些测试里取得好成绩是自然而然的事。但问题来了,当把目光移到这些测试集之外的问题时,模型的回答质量就很难让人满意了。

模型开发者当然是希望能全面地评估模型性能,谁也不想让自己的模型“高分低能”,可他们常常得面对来自上级的指标压力,只能针对测试成绩去做优化。这也就是为什么咱们的一些模型很难真正和 GPT3.5 或者 GPT4 一较高下。而且啊,这种过拟合的问题,在企业想要超越竞争对手的过程中特别常见。

给您举个例子,就像自动驾驶技术还没完全成熟的时候,某些公司就对外宣称能在复杂路况下实现完全自动驾驶,还通过录制特定路段的实测视频来证明。那么,这种突然的技术飞跃是咋来的呢?其实呀,很多时候是通过对特定路段反复训练,再利用高精度地图详细标注各种环境因素,才实现了在该特定路段的完美驾驶。但一旦到了陌生环境,这样的系统表现就差强人意了。

现在,虽然确实还缺乏大家都公认的测评集,但是现有的测试集已经有被过度训练的现象了。所以,咱们在评估大模型能力的时候,真不能太看重这些测试集的得分。

其实,过度拟合在咱们的生活里到处都是,像大学排名的刷分、自媒体的刷流量等等。真正优秀的模型,应该是在公开的市场竞争里,让人们愿意为它支付额外费用的模型,别的那些补充说明,都是多余的。