當前位置 > CPDA數據分析師 > “數”業專攻 > 5個最重要的統計數據分析方法

5個最重要的統計數據分析方法

來源:數據分析師 CPDA | 時間:2019-08-07 | 作者:admin

数据分析的方法及思路3 - 5个最重要的统计数据分析方法

在信息时代,数据不再稀缺,而是势不可挡。关键是筛选组织和企业可用的海量数据,并正确解释其含义。但是要对所有这些信息进行分类,需要正确的统计数据分析工具。

在当前对“大数据”的痴迷中,分析人员已经为大型组织提供了许多新奇的工具和技术。然而,有一些基本的数据分析工具,大多数组织并没有使用它们。

数据分析师经常遇见的错误点,你中招了吗?11 - 5个最重要的统计数据分析方法

以下有5个基本原则开始数据分析工作,并学习如何避免它们的陷阱,然后再使用更复杂的技术。

1. 平均值

算术平均数,通常被称为“平均数”,是一组数字除以列表中项目的数量的和。平均值对于确定数据集的总体趋势或提供数据的快速快照非常有用。均值的另一个优点是它很容易计算而且很快。

缺陷:

单独来看,均值是一种危险的工具。在一些数据集中,平均值也与模式和中位数密切相关(另外两个接近平均值的测量值)。然而,在一个有大量异常值或偏态分布的数据集中,平均值根本不能提供细微差别决策所需的准确性。

2. 标准偏差

标准差,通常用希腊字母sigma表示,是测量数据在均值附近的分布。高标准差表示数据与均值的距离更大,而低标准差则表示数据与均值的距离更近。在一组数据分析方法中,标准偏差对于快速确定数据点的分散性很有用。

缺陷:

同均值一样,标准差具有欺骗性。例如,如果数据具有非常奇怪的模式,如非正态曲线或大量异常值,那么标准偏差就不能提供所需的所有信息。

数据为王,大数据时代的营销之道2 - 5个最重要的统计数据分析方法

3.回归

回归模型的关系之间的依赖和解释变量,这通常是图表上的散点图。回归线还指示这些关系是强关系还是弱关系。回归分析通常在高中或大学的统计学课程中教授,应用科学或商业来确定一段时间内的趋势。

缺陷:

回归不是很微妙。有时,散点图上的异常值(及其原因)非常重要。例如,一个外围数据点可能表示来自最关键的供应商或最畅销的产品的输入。然而,回归线的性质诱使你忽略这些异常值。作为一个例子,检查ANSCOMBE的四重奏图,其中数据集具有完全相同的回归线,但是包含了非常不同的数据点。

4. 样本容量确定

在测量大型数据集或总体(比如劳动力)时,并不总是需要从该总体的每个成员收集信息——样本也可以完成这项工作。关键是要确定正确的尺寸,使样本准确。使用比例和标准偏差方法,能够准确地确定使数据收集具有统计意义所需的正确样本量。

缺陷:

当研究一个新的、未经检验的总体变量时,比例方程可能需要依赖于某些假设。然而,这些假设可能完全不准确。然后,将此错误传递到确定样本大小,然后传递到统计数据分析的其余部分。

数据为王,大数据时代的营销之道7 - 5个最重要的统计数据分析方法

5. 假设检验

假设检验通常也称为t检验,它评估数据集或总体的某个前提是否为真。在数据分析和统计中,如果假设检验的结果不是随机发生的,那么假设检验的结果具有统计学意义。假设检验应用于从科学研究到商业和经济的方方面面。

缺陷:

为了严谨起见,假设检验需要注意常见的错误。例如,当参与者错误地期望某一结果,然后感知(或实际达到)该结果时,安慰剂效应就会发生。另一个常见的错误是霍桑效应(或观察者效应),当参与者因为知道自己正在被研究而歪曲结果时,就会产生这种效应。

总的来说,这些数据分析方法为决策组合增加了很多洞察力,特别是如果以前从未使用统计分析过流程或数据集。然而,避免与每种方法相关的常见陷阱同样重要。一旦掌握了这些统计数据分析的基本技术,就可以使用更强大的数据分析工具了。

要了解更多关于通过强大的数据可视化改进统计数据分析的信息,请单击下面的按钮下载我们的免费指南“安全数据分析的5个技巧”,并开始将抽象的数字转换为可度量的成功。

快三单双大小有规律吗