大模型其实没有真正意义上的开源

TIP! Right-click and select "Save link as..." to download.

VIDEOS
MP4	N/A	480P	Download
MP4	N/A	480P	Download
MP4	N/A	480P	Download
MP4	N/A	360P	Download
MP4	N/A	360P	Download
MP4	N/A	360P	Download
AUDIO
MP4	N/A	mp4a.40.2	Download
MP4	N/A	mp4a.40.5	Download
MP4	N/A	mp4a.40.2	Download
THUMBNAILS
	JPEG	Origin Image	Download

现在所谓的大模型开源，大多都是“伪开源”。
要知道，开源也是分等级的。从开源程度由低到高来看，我们可以大致分为5级：
第一级，仅模型开源。这种程度的开源，最大的受益者是那些做应用的公司，他们能够对模型进行继续训练和微调。
第二级，技术报告开源训练过程。详细描述了模型训练的关键细节，这对于算法研究人员十分有帮助。
第三级，训练代码开源，技术报告开源全部细节。其中包含了数据配比的核心关键信息，这些信息价值极高，原本需要耗费大量 GPU 资源、投入巨额资金才能得到。
第四级，全量训练数据开源。其他有算力资源的团队就可以基于训练数据和代码完全复现该模型。要知道，训练数据可是大模型团队最核心的资产。
第五级，数据清洗框架和流程开源。从源头的原始数据到可训练的数据的清洗过程也开源。这样一来，其他团队不仅可以基于此清洗框架复现数据预处理过程，还能通过搜集更多的源来扩展自己的数据规模，进而得到比原始模型更强的基座模型。
但实际情况是，大部分的模型开源，像 LLaMa2、Qwen 等，都只做到了第一级，像 DeepSeek 这样的能做到第二级。然而，第四级及以上的开源至今一个都没有。直到现在，没有一家公司愿意开源自己的全部训练数据和数据清洗代码，这就导致开源模型无法被第三方完整复现。
最终的结果是，掌握着模型进步的核心机密被大模型公司紧紧握在手中，真正意义上的技术垄断也就此形成。