数据分析方法论or数据挖掘方法论,搞数据你会多少种?

网友投稿 273 2022-11-21

数据分析方法论or数据挖掘方法论,搞数据你会多少种?

数据分析小白往往在学了一大通数据分析工具,比如Excel/SQL/Python /java/SPSS什么的之后总感觉分析数据没思路,一是没有数据可供你分析,网上找的一堆数据都不是你“理想”的数据形态,因为学习用的数据好像都是恰好是解决学习的那个部分知识,别的问题都没有,很“干净";二是你自己爬数据或者找公司内部的数据,发现不是格式有问题就是完整度缺失,又或者没法用一些成熟的方法去套。

这个时候可能就会想是不是自己还不会什么窍门或者方法论呢?一去4某度、某乎搜索会发现五花八门的答案,各种大拿的高赞答案说一样都一样,说不一样好像都不一样,甚至你会看到,有说统计方法论(比如描述分析、回归分析、判别分析、时间序列)、商业方法论(PEST、波特五力模型、SWOT、4P、5W2H),还有说的简单明了的,平均分析法、对比分析法、交叉分析法、趋势分析法、结构分析法,也有名字高深点的,CRISP-DM、SEMMA、挖掘9律、DMAIC方法、AOSP-SM。

你会傻傻分不清到底谁说的才是对的呢?实际上,你的判断需要基于对答主的职位和行业等背景,因为方法论本身是抽象的,具体到各个行业各个岗位经过长期实践总结而来的一种流程或体系,所以因人而异,看你今后往哪个领域发展而着重搞懂这个领域的“方法论”。

从行业来说,商业领域和工业领域的数据类型、存储方式、数据量不同,方法论自然不同。对于职位来说,对于业务运营只需要知道常用分析思路,比如对比、趋势、占比、异常;对于初级数据分析师而言,先需要记住各种分析法,以及结合分析工具怎么实现;对于高级数据分析师而言,需要掌握商业方法论、回归分析、判别分析、时间序列等等。

数据分析师和数据挖掘工程师又是不同的概念,对于数据挖掘工程师而言,不仅需要掌握各种数据挖掘模型,比如逻辑回归、支持向量机、线性回归、贝叶斯模型、决策树模型、集成学习、神经网络,还需要掌握真正的“方法论”,也就是CRISP-DM、SEMMA、挖掘9律等等。

为什么这么说?因为数据分析实际上并没有业界普遍接受的方法论,甚至都不能叫方法论,只能说对某种分析方法大家各有各的叫法,比如数据分析师比较熟悉的理论——"AARRR模型",对用户运营叫“增长模型”或是“海盗模型”,对数据分析师叫"AARRR模型"或漏斗模型,对数据产品经理来说叫“客户生命周期模型”。甚至对这些方法来说只是解决某个局部问题的,相当于搭建一个网站,各种各样的组件只能叫方法,有的人用了一系列组件把它总结一个流程,另一个也总结一个流程,但它们都不是公认的标准。然而对于数据挖掘(更常用于大数据或工业界),是有业界公认的完整解决项目标准的,比如CRISP-DM、SEMMA。做产品的、做用户的、做数据的面向的对象不同,思路自然是不同的。所以作为数据分析小白应该正确甄别,各取所需。

下面我们详细解释一下我们能常见到的一些概念,你就能明白它们都是干什么用的,也就知道了你需要哪些、怎么用。

1.统计方法论(不是方法论,只是方法)

这类方法论主要包括描述分析、回归分析、判别分析、时间序列分析、ARIMA模型、ABtest等从统计学来的术语。无论是数据分析还是数据挖掘都是从数据里发现某种规律,也就是从样本数据(你所能得到的数据都是样本数据)来推理总体数据(总体是永远无法被全部看到的)的某些规律或特征,然后我们再利用这些规律来预测指导我们还未得到的但是想得到的另一部分样本数据的特征,比如大数据杀熟,就是利用它掌握你已有的数据来判断你的行为规律。而统计学是最早形成关于数据问题的研究的专门学问,所以现在很多方法大都来源于统计学。

贾俊平老师的《统计学》定义了数据分析方法可分为描述统计和推断统计两种方法,描述统计研究的是数据如何收集、处理、汇总、图表描述、概括与分析等,推断统计是研究如何利用样本数据推断总体数据。这可以说是最权威的定义了。我们常说的描述统计分析都是这里的一方面,分别对数据的分布状态、数字特征和随机变量之间关系研究。我们需要根据数据类型和对象数量来确定所用方法。下面这张图比较清楚展示各种方法:

2.商业方法论(不是方法论,只是方法)

当然,如果你是”PPT“级别的数据分析师,这些商业模型套路是要准备的,显得高大上,但是往往不“实用”。

3.常用“方法论”(不是方法论,只是方法)

3.挖掘方法论(业界公认的标准,是方法论)

实际上,我们想找方法论无非就是想搞清楚我该做什么、怎么做、怎么确保它是正确的,也就是说想建立一套自己的分析/挖掘套路,那么其实对于数据分析师还是数据挖掘工程师都可以从先这个流程建立自己的框架。然后需要用到什么具体的方法可以从上面找,一步一步组合,就可以形成自己的方法论。下面结合上面的各种分析方法提供了一个简要的流程框架:

需要注意的是,CRISP-DM是一个环形过程,而这个过程虽然是是线性过程,但实际上也需要反反复复验证和调整。这里所有介绍都只是框架,把几乎所有分析、挖掘方法都囊括进来。我将在后续文章里逐一介绍这些方法和模型如何使用,并且还会有完整案例。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Java并发编程之Java内存模型
下一篇:Hadoop之部分常用命令
相关文章

 发表评论

暂时没有评论,来抢沙发吧~