返回

我的1999

首页
关灯
护眼
字体:
第797章 敲打(第2/3页)
书架管理 返回目录

br />
    或者说,数据之间的关联性极大的增强,在这样的背景下,就出现了大数据。”

    顿了一下,徐良调整了一下PPT。

    “那么数据和大数据怎么运用呢?

    大致可以分为以下流程。

    获取数据→分析数据→建立模型→预测未知。

    我们举一个简单的例子。

    现在我们想要了解一家电影院的观众年龄分布,以便做市场推广。

    假定我们把观众群分为15岁以下,16~25岁,26~40岁和41岁及以上四个人群。

    要了解每个人群的比例,一个简单的办法就是到电影院门口去问一问那些看电影的人的年龄。

    比如我们通过调查了解到大约有343人在15岁以下,459人在16~25岁,386人在26~40岁,490人在41岁及以上。

    根据这个数据,我们大致可以得出以下结论:

    15岁及以下的观众占20%左右,16~25岁的观众超过四分之一,但不到三成;

    26~40岁的观众略少于四分之一,41岁及以上的观众最多,大约占到三成。

    但是,如果我们只在周末的晚上抽样调查10个人,我们就会发现。

    有三个15岁及以下的观众,五个16~25岁的观众,2个26~40岁的观众。

    我们显然不能说25岁以下的观众占了八成,而41岁及以上的中年人从来不来电影院,这样的结论。

    但我想各位也都承认一点,在统计样本不充分的情况下,得到的结果跟实际结果存在很大的偏差。

    所以,越想要得到准确的统计结果,需要的统计数据量就越大。

    在上面的例子中,统计的样本总数是1678人。

    但是如果我们一定要说‘41岁及以上的观众就是29.2%’,或者‘15岁及以下观众一定超过20%’。

    这样非常肯定的的话,大家就可能会挑战这个结论。

    因为,统计是有随机性的,也是有误差的。

    仅仅上千人的数据得不到这样准确的结论。

    统计除了要求数据量必须充分之外,还要求采样的数据必须有代表性。

    有些时候不是数据量足够大,同阶级过就一定准确。

    一个很简单的例子,一个爱情影片和一个战争影片,它的受众并不相同。

    所以如果我们只采集爱情影片上映当月的观影人群,就不具有普遍的代表性。

    那么怎么避免这种情况,获得准确的结论呢?

    19世纪的俄国数学家切比雪夫对这个问题给出了他的结论,即切比雪夫不等式。

    P(|X  -  E(X)|≥ε)≤  Var(X)/ε^2。

    这个公式的含义是,当样本数足够多时,一个随机变量和他的数学期望值之间的误差,可以任意小。

    把切比雪夫不等式应用到我们了解电影院观众年龄分布的问题中。

    随机变量就是:观察到的各个年龄段观众的比例。

    数学期望值就是:真实情况下所有看电影观众中不同年龄段的比例。

    当我们把样本数据带入后,大致可以得出以下结论。

    15岁以下观众占20%,16~25岁占27%,26~40岁占24%,40岁以上占29%,误差小于5%。

    但如果我们要将四个年龄段观众的准确率,提高到小数点后一位数,那么我们大致需要10倍的数据,即两万个左右的样本。

 &
-->>

(本章未完,点击进入下一页)
上一页 目录 下一页

推荐阅读: 烂人真心、 带着空间穿年代,科研大佬有点甜、 夜风轻轻绕、 深藏温柔、 挖骨还亲,这修仙界炮灰爱谁谁当、 穿成兽世恶毒亲妈,全员跪求我宠、 噩梦之光、 龙族:艾尔登法环回来的路明非、 隰有荷华,穿成始皇的女儿、 被赶往封地就藩,陛下何故谋反?、