北美求职:分享你在online classes中学不到的关于数据科学的5件事!
北美求职:分享你在online classes中学不到的关于数据科学的5件事!
篱笆资讯
北美求职:分享你在online classes中学不到的关于数据科学的5件事!
经常性的接触很多数据,并从端到端处理数据,从获取数据到回答分析或自动化模型,你可以在工作中积累很多经验,但是这些东西不能在网上学到,因为它们超出了你理论上可以记住的范围,但在实际处理数据时需要去注意和考虑。在这里分享你在网上学不到的关于数据科学的5件事!
 
1、 降低成本
online classes中没有人提到过数据科学很昂贵。维护数据库和存储数据需要大量投资,一旦到位,分析它就完全不同了。
 
重要的是要知道你所做的任何事情都应该以尽可能降低成本的方式进行。如果你可以使用较少的数据并使用样本而不是整个数据集,或者如果你可以使用压缩数据集的工具,那么你应该去选择它们。
 
例如,如果我必须存储 100000 行数据,我不会让自己使用服务器来存储它,而只是在 Excel 中使用它。
 
我把它归结为在数据中开展业务的最“有效”和“高效”的方式。
 
2、 再现性
可重复性是online classes中不会涉及的另一件事。
 
在公司中,你经常会随着时间的推移不得不重复某种分析,这可能有很多原因——更新的数据、测量列的不同方法等。
 
话虽如此,其实这只是为了确保在分析和工作中使用动态变量和可重现的块是最重要的事情之一。理想情况下,当你更改源数据时,你的整个分析应该是会更新而不是失控。
 
可以想象一下,如果你根本没有使用变量,那么你就必须手动输入需要运行分析的周数的值。 (如果你以前使用过 python 或 R,你就会觉得这个工作很痛苦)
 
3、 技术交流和可解释性
当你在新公司或团队开始工作或刚与新客户开始交流时,了解技术沟通和互操作性之间的平衡非常重要,这样可以确保你的工作细节得到沟通和理解。
 
有时候我们为了能够解释我们做的很多工作,可能会过多地关注细节,以至于会忘记对我们的项目进行简单的逐字定义。 
 
这就是用数据讲故事所要解决的问题,知道如何用易于破译且更容易为广大受众或利益相关者记住的方式来编译你的场景,这就是确保做出数据驱动的决策所需要的一切时间不会浪费在技术上。
 
例如,我不知道逻辑回归算法在做什么,但我能够理解该算法可以以 80% 的准确率预测客户是否会流失,这其实才是更重要的。
 
4、 4-timer方法
就像有 4 个方向一样,如果特定分析足够广泛,你可以采用 4 种不同的方法来得出结论。这些方法可以是不同的相关变量来分析某些东西,例如;如果你必须计算某人的身体健康状况,你可以检查他们的 BMI 或他们体内的脂肪量(对于足够大的百分比,你可以说他们身体不健康)
 
在任何情况下,4-timer方法如下所示
第 1 步:采取直接的方式并完成分析
第 2 步:尝试探索所涉及的功能并获得更具体的输出
第 3 步:调整分析并确保它不仅“回答”某事,而且“解决”问题
第 4 步:以可重现、可解释且具有成本效益的方式重复分析
 
5、 数据驱动的决策
迄今为止,这是online classes中一直没有提到的但是确实是非常重要的事情。用数据推动决策。如果你的模型运行良好,并且它得到了大约 90% 的正确预测。根据历史数据,你可以知道谁会在下一年离开公司或转向新品牌……但是你作为数据科学家的工作就到此结束了吗?当然不是
 
你必须以积极的方式参与决策过程,为推动公司朝着正确方向发展的决策的高管提供建议。作为你的利益相关者,他们只会从一侧看到你向他们展示的关于特定情况的观点。
 
了解整个数据是你的工作,知道什么会影响你的分析以及应该改进什么以改变这种情况是你应该回答的问题。

希望以上分享可以帮助到你!
coffee 直连行业大牛导师,1v1模拟面试与求职指导
mentors
airplay 实战与求职精品课程
数据科学
软件工程
人工智能
金融商科
产品经理
产品设计
bookmark 2000+名企面试真题
amazon google tiktok microsoft meta