Bilibili Video Downloader

The easiest way to download Bilibili video without watermark or logo

大模型其实没有真正意义上的开源

TIP! Right-click and select "Save link as..." to download.

VIDEOS
MP4 N/A 480P Download
MP4 N/A 480P Download
MP4 N/A 480P Download
MP4 N/A 360P Download
MP4 N/A 360P Download
MP4 N/A 360P Download
AUDIO
MP4 N/A mp4a.40.2 Download
MP4 N/A mp4a.40.5 Download
MP4 N/A mp4a.40.2 Download
THUMBNAILS
大模型其实没有真正意义上的开源 JPEG Origin Image Download
现在所谓的大模型开源,大多都是“伪开源”。
要知道,开源也是分等级的。从开源程度由低到高来看,我们可以大致分为5级:
第一级,仅模型开源。这种程度的开源,最大的受益者是那些做应用的公司,他们能够对模型进行继续训练和微调。
第二级,技术报告开源训练过程。详细描述了模型训练的关键细节,这对于算法研究人员十分有帮助。
第三级,训练代码开源,技术报告开源全部细节。其中包含了数据配比的核心关键信息,这些信息价值极高,原本需要耗费大量 GPU 资源、投入巨额资金才能得到。
第四级,全量训练数据开源。其他有算力资源的团队就可以基于训练数据和代码完全复现该模型。要知道,训练数据可是大模型团队最核心的资产。
第五级,数据清洗框架和流程开源。从源头的原始数据到可训练的数据的清洗过程也开源。这样一来,其他团队不仅可以基于此清洗框架复现数据预处理过程,还能通过搜集更多的源来扩展自己的数据规模,进而得到比原始模型更强的基座模型。
但实际情况是,大部分的模型开源,像 LLaMa2、Qwen 等,都只做到了第一级,像 DeepSeek 这样的能做到第二级。然而,第四级及以上的开源至今一个都没有。直到现在,没有一家公司愿意开源自己的全部训练数据和数据清洗代码,这就导致开源模型无法被第三方完整复现。
最终的结果是,掌握着模型进步的核心机密被大模型公司紧紧握在手中,真正意义上的技术垄断也就此形成。