第623章前世的终局与今生的起手_高二分科，我选校花也选亿万身家

　　第623章前世的终局与今生的起手 (第2/2页)
　　
　　他没说话。
　　
　　不是因为震惊。而是因为他太清楚这个东西是什么了。
　　
　　残差网络。ReSNet。
　　
　　前世，这篇论文在2015年12月发表，第一作者正是任少卿。
　　
　　它不仅横扫了当年所有计算机视觉的顶级竞赛，更从根本上改写了整个深度学习的工程范式。
　　
　　从此以后，“网络可以无限加深”不再是空想，而是被数学和实验双重验证的事实。
　　
　　它是后来所有大模型架构的地基之一。
　　
　　没有残差连接，就没有后来的GPT，没有BERT，没有任何你能叫得出名字的大语言模型。
　　
　　而现在是2014年4月。
　　
　　任少卿提前了将近一年半。
　　
　　顾屿闭上眼睛。
　　
　　前世的记忆潮水般漫上来，不受控制。
　　
　　2020年。他拿到天使轮的那个夏天，北京五道口的一间地下室办公室，八个人，六台电脑，空调坏了三天没人修。
　　
　　他站在白板前画TranSfOrmer的架构图，给团队讲什么是自注意力机制，什么是多头注意力，什么是位置编码。那时候他以为自己看到了未来。
　　
　　2022年。A轮融资到账，团队扩到四十多人，搬进了望京的写字楼。
　　
　　他们基于TranSfOrmer训练中文大语言模型，做垂直行业应用，对标ChatGPT。烧了两个多亿，模型效果勉强能打。投资人说，再坚持一轮，B轮估值翻三倍，上市不是梦。
　　
　　他信了。
　　
　　然后2024年底，DeepSeek的技术报告发了出来。
　　
　　不到六百万美金的训练成本。
　　
　　用了一种叫MOE的混合专家架构，让模型学会了“只激活需要的那部分参数”，不用的部分直接休眠。
　　
　　配合极致的底层算力优化和开源策略，效果直接对标上亿美金训练出来的顶级模型。
　　
　　一夜之间，他那套靠堆参数、堆数据、堆算力硬撑出来的商业故事，全部归零。
　　
　　投资人撤资的邮件是凌晨两点发来的，措辞很客气，意思很残忍：赛道逻辑变了，我们需要重新评估。
　　
　　客户解约的电话是第二天早上九点打来的，对方甚至没听他解释完，只说了一句“DeepSeek免费开源的效果比你们收费的还好，我们没有理由继续付费”。
　　
　　团队散伙那天，核心算法工程师把工牌放在会议桌上，什么都没说，转身走了。
　　
　　门没关严，走廊里传来的声音很轻，但顾屿听得清清楚楚。
　　
　　2025年春天，公司清算完毕。
　　
　　他在锦城的出租屋里，盯着天花板上那道裂缝，想了很久很久。
　　
　　然后他重生了。
　　
　　所以他对AI这条路的理解，从来不是什么“前瞻性预判”。
　　
　　他是亲手走过那条路上的每一步，踩过每一个坑，最后被终局的浪头拍死的人。
　　
　　他知道训练大模型时候学习率该怎么调。
　　
　　知道RLHF的人类反馈强化学习有多少坑。
　　
　　知道MOE的路由策略为什么能把成本打下来。
　　
　　这些知识是他的武器，也是他的伤疤。
　　
　　前世他死在三件事上：起步太晚，资本不够，算力受制于人。
　　
　　这一世，全都翻过来了。
　　
　　雅安基地的算力，够。
　　
　　百亿级的资金储备，够。
　　
　　任少卿加九章团队的人才密度，够。
　　
　　而任少卿刚才摆在他面前的这份残差网络实验数据，证明了一件更关键的事情：
　　
　　这个时代的硬件和人才，已经具备了从卷积神经网络向更通用架构跃迁的基础条件。
　　
　　前世，全世界花了整整三年，才从2014年注意力机制的萌芽走到2017年TranSfOrmer论文的发表。
　　
　　但这一世，他不打算走硅谷那条“有钱就是任性”的老路了。
　　
　　不堆参数，不烧天价算力，不做那头笨重的大猪。
　　
　　他要走DeepSeek的路。
　　
　　用最少的资源，做最聪明的架构。
　　
　　让模型学会自己选择、自己推理、自己纠错。
　　
　　用MOE让参数按需激活，用极致的工程优化把每一滴算力都拧干。
　　
　　前世DeepSeek做到了，但它来得太晚，他的公司已经死了。
　　
　　这辈子，他要自己做这件事。
　　
　　从头做。
　　
　　顾屿缓慢地睁开眼睛，视线重新聚焦在屏幕上那条安静攀升的精度曲线上。
　　
　　任少卿还在旁边等着他的反应，大概以为老板在思考学术问题。
　　
　　“少卿。”
　　
　　顾屿的声音恢复了一贯的云淡风轻。
　　
　　“在。”
　　
　　“这个东西，你准备叫什么名字？”
　　
　　任少卿想了想：
　　
　　“残差网络。ReSidUalNetWOrk。简称ReSNet。”
　　
　　顾屿点了点头。
　　
　　然后他把椅子往前拉了拉，双手交叠放在桌面上，目光落在任少卿脸上。
　　
　　“论文的事我们待会儿再聊。我先问你一个问题。”
　　
　　“你说。”
　　
　　“卷积神经网络，本质上在做什么？”

启动小说

第623章 前世的终局与今生的起手

第623章前世的终局与今生的起手