mirror of
https://github.com/cheetahlou/CategoryResourceRepost.git
synced 2025-11-15 13:43:49 +08:00
mod
This commit is contained in:
85
极客时间专栏/数据分析实战45讲/第四模块:数据分析工作篇/44丨如何培养你的数据分析思维?.md
Normal file
85
极客时间专栏/数据分析实战45讲/第四模块:数据分析工作篇/44丨如何培养你的数据分析思维?.md
Normal file
@@ -0,0 +1,85 @@
|
||||
<audio id="audio" title="44丨如何培养你的数据分析思维?" controls="" preload="none"><source id="mp3" src="https://static001.geekbang.org/resource/audio/7a/7b/7af7a4cd945f0eb955a4fec9dc82ad7b.mp3"></audio>
|
||||
|
||||
数据分析可以是一个职业,一份工作,也可以是一种思维方式。在专栏里,我们更多的是讲解了数据分析工具的使用。从Python爬虫到Python可视化,再到数据清洗、数据挖掘算法等,而在日常工作中,我们除了需要熟练掌握这些工具的使用外,更主要的是培养自己的数据分析思维。
|
||||
|
||||
培养数据分析思维不仅对找一份和数据分析相关的工作有帮助,在日常生活中同样会有帮助。
|
||||
|
||||
今天的内容会从以下几个方面进行分享:
|
||||
|
||||
<li>
|
||||
我们做一个有关生命线的游戏。你可以把生命线看作是数据可视化,能从中发现什么规律呢?
|
||||
</li>
|
||||
<li>
|
||||
当你想知道事情的答案,但不知道从何处下手的时候,要怎么办呢?要学会提问。好的问题就是好的开始。遇到茫然的情况,不妨从提问开始。
|
||||
</li>
|
||||
<li>
|
||||
“我平时也有一些关于数据分析的思考,但是效率不高,有什么方法可以提升效率么?”分享是最快的成长,通过反向传播可以让我们更快得到收敛。
|
||||
</li>
|
||||
<li>
|
||||
“我也知道数据分析思维的训练很重要,但是平时工作很忙该怎么办?”
|
||||
</li>
|
||||
|
||||
## 一个关于生命线的游戏
|
||||
|
||||
举个例子,如果你想知道自己是如何挣钱的,你可以分析自己以往挣钱的经历,也可以是赔钱的经历,把它们写在一个时间轴上,纵坐标是发生的事件,这个事件对你的影响越大,纵坐标的绝对值就越大。通过生命线的分析,我们先把这些事件按照时间的顺序记录下来,然后记录它们的影响力。实际上这些事件,影响力y和时间x就是你的生命线历史数据,画出生命线之前,你不必思考它们之间的规律是什么。画出来之后,你有30分钟的时间,仔细思考和分析它们之间有什么关联。
|
||||
|
||||
其实你能看出来,画生命线之前,我们首先需要有客观的记录数据,生命线就相当于数据可视化,更容易让我们找到规律。你可以对这些事件打上不同的标签,比如12岁的时候给报社投稿挣到了180元,26岁做自媒体,每个月有2万收入等等,那么两件事都可以打上“写作”这个标签。
|
||||
|
||||
我们之前讲过打标签是一种抽象能力。当你对这些事件逐一分析打标签的时候,就有可能从更高的维度上观察到这些事件的规律。
|
||||
|
||||
上面这个是关于挣钱方向的生命线游戏,有空的话你可以做一下,分析分析适合自己的挣钱模式是什么。
|
||||
|
||||
此外还有一个生命线的游戏,你肯定不陌生,那就是简历。
|
||||
|
||||
在面试之前,你最重要的信息就是简历。HR会通过简历筛选符合要求的人,一般来说会根据简历来看职业经历是否具有连续性,比如说这个人做过行政,又做过销售,现在面试数据分析的工作,那么对于HR来说,他就没有找到职业方向。所以有些人在投递某个职位前,会特地对简历做有针对性的修改,比如重点呈现和数据分析相关的经历,其他关系不大的经历都一一删除,哪怕经历再丰富。
|
||||
|
||||
不相关的经历其实就是干扰数据,这些并不是HR想要看到的!
|
||||
|
||||
除了分析挣钱、找工作以外,通过生命线做数据分析还能帮我们做什么呢?它可以分析你的感情经历、是否有偏财运等等。数据是非常重要的宝藏,只是你需要知道如何观察它,使用它。
|
||||
|
||||
通过历史才能看到未来,如果我们不去分析这些历史,就没有办法找到未来的规律。大到国家,小到个人,都是如此。这也是为什么很多成功人士经常读书的原因之一吧。通过总结别人的成功或者失败的经验,可以启迪自己的人生道路。
|
||||
|
||||
## 提问是最好的老师
|
||||
|
||||
当了解数据分析的价值之后,你可能会问,学会提问和数据分析思维有什么联系?
|
||||
|
||||
实际上提问本身就是一种维度的观察。很多人在做数据分析的时候,首先遇到的问题是没有数据怎么办?数据从哪里来?其实在找数据之前,我们应该先问自己一个问题,我要解决什么问题?要分析什么规律?比如说,你想观察自己挣钱模式的规律,或者想解决个人的情感问题,再或者,想找到一份适合自己的工作等。我们首先需要定义一个目标。
|
||||
|
||||
然后围绕这个目标再问自己,这些数据可能会在哪里?是通过分析自己过去的经历找,还是从网上找相关的信息?都有哪些渠道可以收集到这些信息?有一个好的问题,才会有好的答案。问题可以帮助我们关注事物的不同方面,而且通常是一些重要的维度,对我们全面客观地分析一件事是非常有好处的。
|
||||
|
||||
从科技进步来看,很多时候都是先有一个问题,再有无数的人前赴后继去解决它。比如世界三大数学猜想,费马猜想、四色猜想和哥德巴赫猜想。比如费马大定理是费马在1637年提出的,此后的300年间有无数数学家试图去验证它。
|
||||
|
||||
学会提问不仅可以帮助我们对事物有更全面的认识,还可以让我们变被动为主动。要知道在职场上,大部分人的工作状态都属于被动性,比如等着领导下任务、数据分析结果没出来就怪数据不完整,质量不够好等。被动的状态往往能量很低,或者说创造性很低。只有当你主动思考,寻找答案的时候,才更可能会有有创造力的发现。
|
||||
|
||||
以我的学习经历为例,很多人在上学期间,基本上都是老师在课上讲,自己只是听,很少提问,信息仅仅限于单向传递。而我经常会把不懂的问题整理下来,下课的时候主动向老师提问,这样做的好处是,勤于思考,可以让知识尽量没有盲点,另外通过提问和思考的方式 ,也可以让我对这个知识掌握得更牢固。我成绩通常不错,后来保送到了清华计算机系,很多人认为我平时学习是不是很晚,其实并没有,我只是善于找学习的规律,提问思考就是最好的学习方式。它更容易让我们对一件事物建立多维度的认知。
|
||||
|
||||
## 学会分享是最快的成长
|
||||
|
||||
如果说培养数据思维从提问开始,那么把总结分享作为结束则是最适合不过的。把学到的知识分享给身边的朋友,可以锻炼我们的逻辑性,分享的过程也是对知识重新梳理的过程。另一方面也可以让我们获得别人的反馈,更容易得到正反馈的愉悦。就像我们在做机器学习训练的时候,如果训练没有结果反馈,我们就无法客观地了解对知识的掌握程度。如果能得到别人的反馈,就更容易有收获,训练的收敛速度也会越快。
|
||||
|
||||
所以在某种程度上,你可以把分享的过程,理解是在测试集上做验证的过程。它会让你收获更多,成长更快。
|
||||
|
||||
## 培养数据分析思维是重要不紧急的事
|
||||
|
||||
你可能会说:“道理我都懂,可就是做的时候想不起来。”那是怎么回事呢?实际上,培养数据分析思维是重要不紧急的事。在工作中,我们经常会被紧急的事情占据带宽。这些紧急的事情对当下很重要,但是放长远来看重要性就很弱了。而拉开我们人生差距的,恰恰是那些重要不紧急的事情上,而不是在于我们每天处理了多少紧急的事。
|
||||
|
||||
这点很容易理解,毕竟人都有惰性,紧急的事情来了一般都会优先处理。不过你要换一种思考方式,既然我们人生的差距不是在于做过多少紧急的事,而是在于做过多少重要的事,那么从工作的第一天开始,我就应该着重积累重要的事,即使它目前并不紧急。
|
||||
|
||||
这样你会发现,当你做过的重要事情越来越多的时候,紧急的事情也就越来越少了。比如你想着如何找到一份更高薪酬更适合自己工作的时候,就不用着急每个月还贷款的事情了。
|
||||
|
||||
## 总结
|
||||
|
||||
今天我们做了一个有关生命线的游戏,你能了解到我们每个人、每个公司、每件事,只要有历史数据,都有可能从中发现规律,从而指导未来。所以说数据分析这件事,就好比是生命线一样闪耀着价值。
|
||||
|
||||
而培养自己的数据化思维虽然不是一天能练就的,却是重要的事情。很多时候,我们容易被紧急的事情牵着走,毕竟紧急事情的优先级会更高。但人生差距不是在于处理多少紧急的事,而是在于做过多少重要的事。从人性的角度来看,重要不紧急的事是容易被拖延的。
|
||||
|
||||
不过我有两个工具教你摆脱惰性,一个就是学会提问,它从提问的角度训练我们的数据化思维,让我们对事物看得更清楚,另一个就是学会分享,它从反馈的角度让我们的训练过程更加收敛,效率得到提升,也更容易获得成就感。
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/c5/9a/c5de624a6f0fe1b377582dc79f7baf9a.png" alt=""><br>
|
||||
今天我讲到了生命线,它对我们发现自身的规律很有帮助。你不妨画下自己的生命线,从0岁开始到目前为止,把你认为对你影响最大的时刻下来,不论是正向,还是负向的事情。横坐标X轴代表时间,纵坐标Y轴标注事件点,绝对值越大代表事件对你的影响越大。画完之后,你能从中发现了什么规律吗?比如你的高能时刻,通常都是因为什么事情引起的?
|
||||
|
||||
我在专栏的开始就提到过分享是最好的老师,学会做总结笔记并分享出来,对自己的收获也会很大。专栏已经临近尾声,关于这个专栏的学习,你都做过哪些笔记总结呢?
|
||||
|
||||
欢迎你在评论区与我分享一下你的心得,也欢迎点击“请朋友读”,把这篇文章分享给你的朋友或者同事。
|
||||
|
||||
|
||||
111
极客时间专栏/数据分析实战45讲/第四模块:数据分析工作篇/45丨求职简历中没有相关项目经验,怎么办?.md
Normal file
111
极客时间专栏/数据分析实战45讲/第四模块:数据分析工作篇/45丨求职简历中没有相关项目经验,怎么办?.md
Normal file
@@ -0,0 +1,111 @@
|
||||
<audio id="audio" title="45丨求职简历中没有相关项目经验,怎么办?" controls="" preload="none"><source id="mp3" src="https://static001.geekbang.org/resource/audio/65/e4/655afbb6d162a027db4a724f0c3b0ee4.mp3"></audio>
|
||||
|
||||
上节课我讲到了如何培养数据分析思维,它是一个重要但不紧急的事。在工作求职中,你可能会遇到各种又重要又紧急的事,比如填写求职简历中的项目经验。
|
||||
|
||||
它的重要性在于,HR一般都会依据简历中的项目经验初步筛选候选人是否符合面试要求,紧急性在于求职找工作往往就是眼前的事,但简历中的项目经验又很难临时抱佛脚。项目经验一般没有弹性,一是一,二是二,一方面要保证真实性,是自己做过的项目,另一方面又很难在短时间内积攒这些经验。
|
||||
|
||||
如果没有项目经验,很多人就会感觉无从下手,这时候该怎么办呢?我自己面试过的技术人员少说也有上百人,我想以自己的经验做一些分享,在经验积累上和你分享以下三个需要注意的地方:
|
||||
|
||||
<li>
|
||||
我们求职找工作的时候,要理解HR看项目经验的逻辑是什么?
|
||||
</li>
|
||||
<li>
|
||||
明确要完善项目经验这个目标后,我们该如何快速定位要积累的内容,并通过实战和训练快速进行提升经验值?
|
||||
</li>
|
||||
<li>
|
||||
如何在项目经验中融入自己的心得体会,让你的经验显得与众不同?
|
||||
</li>
|
||||
|
||||
## HR看相关项目简历,背后的逻辑是什么
|
||||
|
||||
上篇文章中我讲到过,HR之所以要看相关的项目经验,是因为这些历史信息可以帮助他预估一个人相关的工作能力。
|
||||
|
||||
知识不等于项目经验,即使你对知识都了解了,在实际项目过程中,还是会遇到各种问题。比如工具包安装不上、中文编码错误、画图显示不出来、算法运行过慢、数据拟合结果不好等各种问题。项目经历相当于一种训练,当你得到了更好的训练之后,数据分析的模型能力也就会越强,然后在“新公司”这个测试集中,就越有可能发挥好的效果。
|
||||
|
||||
做过训练和没有训练的人是完全不同的。如果你没有相关的经验,那么你现在找的这份工作就好比是训练集一样,没有一个公司会把他们的项目当做是你练手的数据集。大家都期望你是已经训练好的模型,可以马上开展新的工作,并且产生价值。
|
||||
|
||||
所以在经验积累上,你要证明给HR,我做过这样的项目,具备这样的能力。
|
||||
|
||||
你可能想问,项目从哪里来呢?第一个肯定是以往类似的工作经历,第二个就是自己做过类似的项目。但是在简历中呈现数据分析的项目也是需要技巧的,简历不是流水账,你需要重点把当时的项目目标、采用的解决方案、实现的代码以及项目过程的总结体会拿给HR看。
|
||||
|
||||
这样,即使你没有相关的工作经历,如果你能通过专栏实战积累上面的4点,对HR来说也是有说服力的,这样总比一张白纸要强得多。要知道HR背后的逻辑是要通过简历证明你是已经被训练过的模型,可以上手工作了,而不是把新公司当成训练集。
|
||||
|
||||
## 如何完善简历里的项目经历
|
||||
|
||||
现在我们需要简历中有更多的项目经验。如果你跟着专栏从头到尾完整学习了,在爬虫、数据可视化、数据清洗和集成、数据挖掘算法、图像识别等多个维度进行了实战训练,那么恭喜你,实际上你已经具有数据分析相关的工作经验了。
|
||||
|
||||
这方面我来简单帮你总结下,梳理出一个项目简历的模板。但最根本的是,你需要自己跑一遍项目代码,完整了解项目目标和解决方案。只有这样,放到简历中的时候才会比较充实。
|
||||
|
||||
<li>
|
||||
**乳腺癌检测:**采用SVM方法,对美国威斯康星州的乳腺癌诊断数据集进行分类,最终实现一个针对乳腺癌检测的分类器:[https://github.com/cystanford/breast_cancer_data](https://github.com/cystanford/breast_cancer_data)
|
||||
</li>
|
||||
<li>
|
||||
**内容抓取:**通过Python爬虫对豆瓣电影中的电影数据和海报等信息进行抓取:[https://github.com/cystanford/pachong](https://github.com/cystanford/pachong)
|
||||
</li>
|
||||
<li>
|
||||
**邮件数据分析**:通过PageRank算法分析邮件中的人物关系图谱,并针对邮件数量较大的情况筛选出重要的人物,进行绘制:[https://github.com/cystanford/PageRank](https://github.com/cystanford/PageRank)
|
||||
</li>
|
||||
<li>
|
||||
**微博文档分类**:采用朴素贝叶斯的方法,对微博的内容进行分类,最终实现一个简单的文档分类器:[https://github.com/cystanford/text_classification](https://github.com/cystanford/text_classification)
|
||||
</li>
|
||||
<li>
|
||||
**电影数据集关联规则挖掘**:采用Apriori算法,分析电影数据集中的导演和演员信息,从而发现导演和演员之间的频繁项集及关联规则:[https://github.com/cystanford/Apriori](https://github.com/cystanford/Apriori)
|
||||
</li>
|
||||
<li>
|
||||
**歌词词云可视化**:动态抓取指定明星的歌曲列表,保存歌词文件,去除歌词中的常用词,并对歌词进行词云展示,分析歌曲的作词风格:[https://github.com/cystanford/word_cloud](https://github.com/cystanford/word_cloud)
|
||||
</li>
|
||||
<li>
|
||||
**信用卡违约率分析**:针对台湾某银行信用卡的数据,构建一个分析信用卡违约率的分类器。采用Random Forest算法,信用卡违约率识别率在80%左右:[https://github.com/cystanford/credit_default](https://github.com/cystanford/credit_default)
|
||||
</li>
|
||||
<li>
|
||||
**信用卡欺诈分析**:针对欧洲某银行信用卡交易数据,构建一个信用卡交易欺诈识别器。采用逻辑回归算法,通过数据可视化方式对混淆矩阵进行展示,统计模型的精确率,召回率和F1值,F1值为0.712,并绘制了精确率和召回率的曲线关系:[https://github.com/cystanford/credit_fraud](https://github.com/cystanford/credit_fraud)
|
||||
</li>
|
||||
<li>
|
||||
**比特币走势分析**:分析2012年1月1日到2018年10月31日的比特币价格数据,并采用时间序列方法,构建自回归滑动平均模型(ARMA模型),预测未来8个月比特币的价格走势。预测结果表明比特币将在8个月内降低到4000美金左右,与实际比特币价格趋势吻合(实际最低降到4000美金以下):[https://github.com/cystanford/bitcoin](https://github.com/cystanford/bitcoin)
|
||||
</li>
|
||||
|
||||
## 不一样的项目经历和体会
|
||||
|
||||
上面我整理了9个项目简历的示例,如果认真学习专栏,并且坚持练习的话,那么不用愁相关的项目经验。如果你希望有不一样的项目经历,那么能融入自己的项目体会和总结的话,就会更好。
|
||||
|
||||
比如分析比特币走势这一篇文章中,我还提供了沪市指数的历史数据(从1990年12月19日到2019年2月28日),你完全可以采用ARMA模型自己跑一遍,然后整理出相关的经历。
|
||||
|
||||
再或者,我们对毛不易歌词进行词云分析的时候,你也可以分析其他的歌手,或者某个歌手的某张专辑的词云。模型方法是相同的,但不同的数据集出来的结果是不同的。
|
||||
|
||||
另外你也可以在项目实战中,融入自己的心得体会。比如在预测比特币走势这个项目中,我们对原始数据进行了降维,按月为粒度进行了统计,实际预测结果与按天进行统计的结果相差并不大,但是数据量降到了1/30,大大提升了效率。在这个过程中,你应该能体会到数据降维的作用。
|
||||
|
||||
在信用卡欺诈分析这个项目中,我们观察到数据集的分类样本是不平衡的,针对这种情况,我们到底该采用哪个评价标准呢?为什么采用准确率作为评价标准会有问题?有关这方面的经验总结你也可以简单做个说明,这样不光可以证明你具备这种项目的经验,也能证明针对这类的问题,你都找到了哪些规律。
|
||||
|
||||
总之自己的心得体会和总结能给项目经验加分不少。
|
||||
|
||||
## 总结
|
||||
|
||||
在专栏的讲解过程中,很多同学都反馈过他们正在找工作,但项目经历这块是自己的软肋。我们关键要弄明白HR招人背后的逻辑,把相关的训练经验总结下来写在简历中,最后拆解专栏的实战项目。
|
||||
|
||||
在这个过程中你需要:
|
||||
|
||||
<li>
|
||||
了解每个实战项目的目标;
|
||||
</li>
|
||||
<li>
|
||||
理解每个算法的原理;
|
||||
</li>
|
||||
<li>
|
||||
跑一遍项目代码,将运行结果放到GitHub上;
|
||||
</li>
|
||||
<li>
|
||||
做项目的心得总结。
|
||||
</li>
|
||||
|
||||
当你自己把这些内容整理出来的时候,你发现自己会更有信心。简历的完善只是表象,实际上最重要的是自己的能力也得到了提升,这也是通过学习专栏,我希望你能收获的价值。
|
||||
|
||||
我在专栏里讲解了理论知识、工具方法和实战项目,希望你把专栏作为一个工具,带你走入数据科学的大门。掌握了这个工具之后,平时遇到问题的时候,你就可以用数据的视角来分析它,使用工具来做模拟,总结结果,进一步完善你的简历。
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/d4/66/d48bc67969a70475a66fba58c68b3a66.png" alt=""><br>
|
||||
我在专栏中讲解了理论知识,工具使用和实战项目,在Python爬虫、数据可视化和数据挖掘算法这三个部分中,除了专栏中讲解到的项目,你还做过哪些项目或者练习(采用相同的算法模型用于不同的数据集也可以),欢迎你分享一下。
|
||||
|
||||
另外,简历是最好的工作梳理,通过专栏的学习,你是否已经开始完善你的项目简历了呢,还有哪些地方是可以完善的?
|
||||
|
||||
欢迎你在评论区与我分享一下你的心得体会,也欢迎点击“请朋友读”,把这篇文章分享给你的朋友或者同事。
|
||||
|
||||
|
||||
Reference in New Issue
Block a user