第624章 九章之上,再攀一天 (第1/2页)
任少卿没有立刻回答。
他皱着眉头想了几秒,像是在确认这个问题有没有什么陷阱。
“提取局部特征,逐层抽象。”
这是教科书级别的标准答案。
顾屿点了点头。
“局部特征。”
他重复了一遍这四个字,语气很轻。
“你注意到了吗,你自己说的局部。”
任少卿的眉头皱得更紧了。
顾屿没有继续追问。
他站起来,走到会议室角落那块白板前面,拿起一支黑色马克笔,拔开盖子。
“我打个比方。”
他在白板上画了一个长方形,里面写了一行字:今天天气真好,我们去公园玩吧。
“这是一句话。十二个字。”
顾屿用笔尖点了点第一个字,
“假设你是一个卷积核,你的窗口大小是三。你一次只能看到三个字。”
他用笔在“今天天”三个字下面画了一个框。
“你站在这个位置,你能看到'今天天'。然后你往右滑一格,看到'天天气'。再滑一格,'天气真'。”
任少卿没说话,目光牢牢锁在白板上。
“每一次,你都只能看到三个字的范围。”
顾屿的声音不急不慢,
“你把这些小碎片一层一层地拼,拼到最后,理论上你能拼出整句话的意思。这就是CNN干的事。拿一个小放大镜,一小块一小块地看,然后靠叠加很多层来慢慢扩大你的视野。”
他停了一拍。
“你的残差连接解决了什么问题?解决了叠加层数时信号衰减的问题。换句话说,你让这个放大镜可以叠很多很多层了,不会失灵了。这很了不起。”
任少卿听出了这句话后面跟着一个“但是”。
果然。
“但放大镜终究是放大镜。”
顾屿用笔尖在那行字的第一个字和最后一个字之间画了一条红色的连线。
“如果这句话的第一个字'今'和最后一个字'吧'之间存在某种关键的联系呢?你得叠多少层,才能让第一层的卷积核'看到'最后一个字?”
任少卿的嘴唇动了一下。
“图像上你感受不到这个问题。”
顾屿把笔盖盖上,转过身面对任少卿。
“因为一张照片里,猫的耳朵和猫的眼睛挨得很近,它们天生就在一个局部窗口里。卷积核天然适合干这个活。”
“但如果有一天,你要处理的东西不是图片呢?”
会议室里安静了几秒。只有中央空调出风口的微弱嗡鸣声。
“比如一篇文章。”
顾屿说。
“比如一整本小说。第一章的伏笔,要到最后一章才回收。中间隔了几十万字。你的卷积核要滑多少次才能把它们联系起来?”
任少卿没有接话。
顾屿没有急着往下说。
他把马克笔放回白板槽里,走回座位坐下,端起桌上已经凉透的茶杯喝了一口。
给任少卿留消化的时间。
大约过了半分钟,任少卿开口了。声音比之前低了半个调。
“你的意思是,卷积这个操作本身,在某些任务上存在结构性的缺陷。”
“不是缺陷。”
顾屿纠正他,
“是边界。每种工具都有它的边界。锤子钉钉子很好使,但你不能拿锤子去拧螺丝。”
任少卿沉默了更久。
然后他抬起头,眼睛里的光变了。
不再是汇报实验成果时那种兴奋的亮,而是一种更深的、带着困惑和渴望的光。
“那如果不用卷积呢?”
顾屿等的就是这句话。
“你想象一下这样一种结构。”
顾屿的语速放慢了,像是在帮对方一起画一幅还不存在的蓝图。
“一个序列里有十二个字。每一个字,都能同时'看到'其他所有十一个字。不需要一层一层地滑窗口,不需要一步一步地扩大感受野。每个位置直接和所有位置产生联系,然后自己决定,我该重点关注谁,忽略谁。”
任少卿的第一反应是脱口而出的。
“计算量会爆炸。”
紧接着他的眉头皱成了川字,
“而且这不符合逻辑。如果不靠卷积的滑动窗口,也不靠循环网络的先后顺序,模型怎么知道这句话的语序?'我爱你'和'你爱我',在这种每个位置同时交互的结构里,权重会变得完全一样,位置信息彻底丢失了!”
顾屿眼底透出赞赏。
不愧是任少卿,立刻就捏住了Self-AttentiOn最致命的七寸——位置编码。
但他没有立刻解答,只是微微一笑:
“对。”
顾屿点头,毫不意外。
“十二个字,每个字和其他十一个字交互,就是十二乘以十二,一百四十四次运算。如果是一千个字呢?一百万次。一万个字呢?一亿次。复杂度是字数的平方。”
他看着任少卿。
“所以关键从来不是这个思路对不对。理论上它是对的,你心里清楚。关键是怎么让它跑得起来,算得动,能工程化。怎么让一亿次运算压缩到GPU能并行处理的范围内,怎么把丢失的位置信息用数学手段重新注入进去。怎么让它不只是一个漂亮的数学公式,而是能真正训练出结果的工程方案。”
任少卿的手指无意识地敲着桌面。
顾屿看着他的表情。这张被雅安紫外线晒黑了一圈的脸上,正有什么东西在松动。
“这是值得你花一年甚至更长时间去攻克的课题。”
顾屿说完这句话,往椅背上靠了回去。
他知道今天说到这里就够了。种子已经种下去了。
任少卿是这个领域最顶尖的工程大脑之一,给他一个正确的方向,剩下的推导和验证,他自己会跑起来。
但方向只是第一步。
(本章未完,请点击下一页继续阅读)