<iframe src="https://www.googletagmanager.com/ns.html?id=GTM-KVGHS6G" height="0" width="0" style="display:none;visibility:hidden"></iframe>
数据科学入门:如何系统的学习数据科学(下)
数据科学入门:如何系统的学习数据科学(下)
篱笆资讯
数据科学入门:如何系统的学习数据科学(下)

当然,除了技术能力以外,还需要其它一些非技术的能力:


这些包括将实际问题转化成数据问题的能力,这一过程需要交流,也就要求良好的交流沟通能力。关注细节,分析是一个需要细心和耐心的职业。还有就是展示结果的能力,如何让没有分析背景的客户理解模型的结果,并且最终在实践中应用模型的结论。

这个单子还可以一直列下去。看起来是不是不只一点吓人?其实这个技能单是动态的,你一开始不必具有上面列出的所有技能,但在工作过程中,需要不断的学习成长。

一个优秀的数据科学家不是通过数据找到标准答案的人,而是那个接受和适应这个充满不确定性的世界,给出有用方案的人。

很多数据科学的书籍都从技术的角度对各种模型分类。比如有监督模型和无监督模型,线性模型和非线性模型,参数模型和参数模型等等。


这里我们换而使用“问题导向”的思维方式,对数据科学回答的问题进行分类:


(1)比较


第一类常见的问题是比较组之间不同的问题。常见的句式是:A在某方面是不是比B好?或者多者比较:A、B、C之间在某方面有没有差别?下面是一些问题的例子:

  • 参与促销活动和没有参与促销活动消费者购买量有差异么?
  • 男性是不是比女性更倾向于购买我们的产品?
  • 用户满意度在不同商业区是不是有不同?
  • 网站图标设计A和设计B对应的用户点击量有什么不同(A/B测试)?

对于这类数据,通常从各组观测的基本统计量和可视化开始初步探索数据。在对数据分布和组之间的差异有个初步直观了解之后,通过统计检验测试组间是否在感兴趣的变量上有显著不同。


处理这类问题常用的是经典统计推断:开方检验,t检验和方差分析。放在贝叶斯框架下也有一种比较组间不同的方法。如果因子增加,结构变得复杂(如在生物医药领域的复杂实验设计有随机效应因子),则需要使用更加复杂的混合效应模型。


(2)描述


在分析中不可避免的要描述数据。比如聚类问题。当你通过算法找到不同的样本分类后,就需要对类进行定义,这要通过比较各类中变量的描述统计量得到。常用的描述问题有:

  • 样本中家庭年观测的收入是不是无偏的?
  • 某产品在不同区域的月销售量均值/方差是多少?
  • 变量的量级差异大么?(决定是否需要对数据标准化)
  • 模型中的预测变量观测缺失情况如何?
  • 问卷调查回复者的年龄分布范围是多少?

这类数据描述常用于检查数据,找到合适的数据预处理方法,以及拟合模型后对结果的分析和展示。


(3)聚类


聚类是一个极其常见的问题,其通常和判别联系在一起。聚类模型回答的问题是:

  • 哪些消费者有相似的产品偏好?(市场营销)
  • 哪些打印机损坏的模式相同?(质量控制)
  • 公司员工在对公司评价上可以分为几类?(人力资源)
  • 哪些词更经常同时出现?(自然语义处理)
  • 哪些文档可能有相似的主题?(自然语义处理)

聚类是无监督分析。


(4)判别


判别是另外一个经典的分析问题。通常用类别已知的样本作为训练集拟合判别器,然后用训练好的判别器预测新样本的类别。下面是一些关于判别的问题:

  • 哪些新客户最有可能转化(购买)?
  • 当前的压力度数是正常的么?
  • 某贷款人有不还款的风险么?
  • 这个消费者还可能喜欢什么产品?
  • 这本书的作者可能是谁?
  • 这封邮件是不是垃圾邮件?

关于判别的模型有数百种,在实践中我们其实不必要尝试所有的模型而只要拟合其中几种在大部分情况下表现最好的模型即可。


(5)回归


当你感兴趣的量是一个数值而非类别时,通常就是一个回归问题。比如:

  • 明天的气温可能会是多少?
  • 公司今年第4季度的销售额会是多少?
  • 某品牌打印机明年上半年在北京市的销量会是多少?
  • 该引擎还能工作多久?
  • 这次活动中需要准备多少啤酒?

通常情况下,回归能够给出一个数值答案。回归通常解决“...是多少?”这样的问题。在有些时候模型给出的负数结果可能需要解释为0,或者有小数点的结果需要解释为最近的整数。

------------------------------------------------------------------------------------------------------------------------------------

如果你想提升自己的职业技能或者和专业导师进行1对1的求职指导,欢迎扫码联系篱笆老师喔~



coffee 直连行业大牛导师,1v1模拟面试与求职指导
mentors
airplay 实战与求职精品课程
数据科学
软件工程
人工智能
金融商科
产品经理
产品设计
bookmark 2000+名企面试真题
amazon google tiktok microsoft meta