篱笆教育:机器学习中的特征提取技术被谁淘汰了?
篱笆教育:机器学习中的特征提取技术被谁淘汰了?
篱笆资讯
篱笆教育:机器学习中的特征提取技术被谁淘汰了?
神经网络或者深度学习是否依然需要特征工程,是一个非常值得探讨的问题。

前不久CMU的刘博士出了一篇很优秀的综述论文,他总结了下当前自然语言处理NLP或者ML发展的四个范式。

分别是

基于非神经网络的完全监督学习
基于神经网络的完全监督学习
预训练,精调范式 (Pre-train, Fine-tune):比如基于MLM的BERT
预训练,提示,预测范式(Pre-train, Prompt, Predict):各种Prompt Learning 方式

每个发展阶段,其实都有需要人来参与到的部分。比如第一阶段的时候,我们需要做特征工程,我们训练模型的过程就像是炼丹。因为特征处理的方式,选择的方式,组合的方式,都对最后模型的效果很有影响,就像炼丹时调整药物配比一样。

第二阶段,我们需要做Architecture Engineering。也就是找到最合适网络结构,效果最好的网络结构。比如应该用CNN还是RNN,还是MLP,是要多少层,是谁连着谁。这个时期从业人员有时候会戏称自己是Neural Network Architect。

第三个阶段,我们需要做Objective Engineering,也就是找到对于一个task或者下游task最好的优化目标。

第四个阶段,我们需要做Prompt Engineering,找到最合适的Prompt。

从每一个阶段到每一个阶段我们都从一些工作当中被解放出来了,而又引入了一些新的工作。比如进入深度学习时代后,我们从特征工程中解放出来了,但是又要开始思考怎么找到最好的网络结构。

我们相信神经网络的强大,相信它的表达能力足够强,能自己理解特征与特征值要怎么interaction,能自己理解什么特征是重要的什么特征是不重要的。

不过这个并不是说我们做深度学习的时候就完全不做特征了。现实工作中做深度学习项目的时候,我们依然需要结合场景来生成很多特征来来喂给模型。

比如做点击预测的时候,我们要人为生成一些统计特征来描述用户的历史习惯;做推荐系统的时候,我们就要人为生成一些用户和推荐品之间的历史交互的特征来辅助我们做推荐。

所以深度学习的时候,我们依然要做特征工作来让深度模型更好的理解原始数据里的信息。

但是特征工程的工作量,远远小于非深度时代的时候我们需要做的工作量。

而且特征工程在深度时代,就像我们之前说的,往往也不在是我们在训练模型时最主要的工作内容了。

看完这篇文章是不是对机器学习有了更多了解呀。但专业知识学到了,想要更好地拿下面试,斩获offer,还得学会更好地展现自己,而简历就是第一道关卡。
coffee 直连行业大牛导师,1v1模拟面试与求职指导
mentors
airplay 实战与求职精品课程
数据科学
软件工程
人工智能
金融商科
产品经理
产品设计
bookmark 2000+名企面试真题
amazon google tiktok microsoft meta