《数据特征的描述》PPT课件

《数据特征的描述》PPT课件

ID:45435021

大小:288.84 KB

页数:14页

时间:2019-11-13

《数据特征的描述》PPT课件_第1页
《数据特征的描述》PPT课件_第2页
《数据特征的描述》PPT课件_第3页
《数据特征的描述》PPT课件_第4页
《数据特征的描述》PPT课件_第5页
资源描述:

《《数据特征的描述》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第三章数据特征的描述大量数据经过整理后,已经能够初步反映数据(或总体)的分布规律,特别地频率分布图形给了我们一个直观的印象。然而,在统计分析和决策中,还需要通过一些概括性的数值来对数据的分布特征进行更为精确、简练的描述。3.1数据集中趋势特征的描述3.2数据离中趋势特征的描述3.3数据分布形态特征的描述3.4统计表与统计图10/6/20211宁波大学商学院郑建华3.1数据集中趋势特征的描述集中趋势(centraltendency)是指一组数据向某一中心值靠拢的倾向。描述集中趋势就是寻找数据一般水平的代表值或中心值。3.1.1算术平均数(arithmet

2、icmean)3.1.2众数(mode)3.1.3中位数(median)3.1.4均值、众数、中位数的比较10/6/20212宁波大学商学院郑建华3.1.1算术平均数算术平均数有时简称为均值(mean),定义为全部数据的总和除以数据的个数。一般用记号:μ(总体数据的均值)和(样本数据的均值)。根据数据的表现形式不同,有不同的计算公式。原始数据:简单算术平均分组数据:加权算术平均10/6/20213宁波大学商学院郑建华例题:数据特征描述案例.xls10/6/20214宁波大学商学院郑建华均值的性质特点:对一个数量数据(观察值全体),只可能有一个均值存在;

3、均值考虑了数据集中的每个观察值;均值易受极端观察值的影响;每个观察值与均值的离差值和为零(正负抵消);每个观察值与均值的离差平方和为最小。10/6/20215宁波大学商学院郑建华3.1.2众数众数(Mode)是一组数据中出现次数最多或最频繁的观察值。如:(a)5,7,10,8,9,9,6,100;(b)3,3,4,5,7,5;(c)2,4,8,7,9(d)某停车处停放汽车的颜色:3红,12黑,6兰。可见:众数既可用于变量数据也可用于属性数据;众数不受极端值的影响;一组数据不一定存在众数,也可能不止一个众数。10/6/20216宁波大学商学院郑建华对于组

4、距分组,假设数据的分布具有明显的集中趋势,频数直方图具有单峰形态,同时假设众数组的频数在该组是分布均匀的,则众数的估计方法如下:频数分布图法:modemedian.doc公式法:modemedian.doc计算举例:数据特征描述案例.xls10/6/20217宁波大学商学院郑建华3.1.3中位数中位数(median)是一组数据按大小顺序排列后,处于全部数据中间位置的数值。数据包含n个观察值,则中位数的位置由(n+1)/2确定。当n为奇数时,该位置存在一个观察数值,它就是中位数。当n为偶数时,该位置处于n/2和n/2+1两个整数位置的中间,因而不存在观察

5、值与其对应,定义中位数为处于n/2和n/2+1位置的两数的算术平均数。原始数据情形,组距分组数据情形。数据特征描述案例.xls10/6/20218宁波大学商学院郑建华中位数存在如下特点:中位数受极端值的影响很小;中位数适合于任何类型的数据,只要数据能够以某种方式排序;在确定中位数时,并没有考虑所有的观察值;10/6/20219宁波大学商学院郑建华3.1.4均值、众数、中位数的比较均值、众数、中位数的关系从频率曲线图看:众数出现的频率最高,始终对应曲线的最高峰;中位数处于数据的中间位置,平分频率分布曲线下方的面积;均值为所有数据的算术平均,对应分布曲线的

6、型心(或重心)。从数值大小看,Me处于三数中间;且存在近似关系:Mo-mean≈3(Me-mean).平均数关系.doc10/6/202110宁波大学商学院郑建华使用场合:如果数据分布具有明显的单峰形态,且峰值较为突出,想用一个数据代表“典型水平”,则众数比较合适.如果想说明“一般水平”或“中间水平”,中位数和均值比较合适.如果数据包含极端值,我们希望用一个代表性数值反映数据的“一般水平”或“中间水平”,而且侧重于后者,中位数更合适.均值只能适合于定量性数据,中位数适合于有序数据和定量性数据,众数适合于定性和定量的数据.10/6/202111宁波大学商

7、学院郑建华3.2数据离中趋势特征的描述离中趋势(tendencyofdeviationfromthecentralvalue)反映的是数据的观察值之间的差异或远离中心值的程度,也称离散(dispersionorspread)程度.集中趋势和离中趋势是数据分布的两个不同侧面的特征.极差(range):平均差(meandeviation)方差和标准差(varianceandstandarddeviation):离散系数(coefficientofvariation):数据标准化得分(score):10/6/202112宁波大学商学院郑建华3.3数据分布形态

8、的描述偏度系数(Skewness)峰度系数(Kurtosis)10/6/202113宁波大学商

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。