箱线图(数据分布)分析

箱线图(数据分布)分析

ID:11233401

大小:482.75 KB

页数:9页

时间:2018-07-10

箱线图(数据分布)分析_第1页
箱线图(数据分布)分析_第2页
箱线图(数据分布)分析_第3页
箱线图(数据分布)分析_第4页
箱线图(数据分布)分析_第5页
资源描述:

《箱线图(数据分布)分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、Excel-箱线图(数据分布)分析标签:excel数据分析六西格玛箱线图数据分布2014-01-1811:1325396人阅读评论(0)收藏举报分类:Excel(14)网站分析(9)版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]本文摘自作者《网站数据分析:数据驱动的网站管理、优化和运营》:http://item.jd.com/11295690.html箱线图(Boxplot)也称箱须图(Box-whiskerPlot),它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略

2、地看出数据是否具有对称性。通过将多组数据的箱线图画在同一坐标上,则可以清晰地显示各组数据的分布差异,为发现问题、改进流程提供线索。1.什么是四分位数箱线图需要用到统计学的四分位数(Quartile)的概念,所谓四分位数,就是把组中所有数据由小到大排列并分成四等份,处于三个分割点位置的数字就是四分位数。·第一四分位数(Q1),又称“较小四分位数”或“下四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。·第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。·第三四分位数(Q3),又称“较大四分位数”或“上四分

3、位数”,等于该样本中所有数值由小到大排列后第75%的数字。·第三四分位数与第一四分位数的差距又称四分位间距(InterQuartileRange,IQR)。计算四分位数首先要确定Q1、Q2、Q3的位置(n表示数字的总个数):·Q1的位置=(n+1)/4·Q2的位置=(n+1)/2·Q3的位置=3(n+1)/4对于数字个数为奇数的,其四分位数比较容易确定。例如,数字“5、47、48、15、42、41、7、39、45、40、35”共有11项,由小到大排列的结果为“5、7、15、35、39、40、41、42、45、47、48”,计算结果如下:·Q1的位置=(

4、11+1)/4=3,该位置的数字是15。·Q2的位置=(11+1)/2=6,该位置的数字是40。·Q3的位置=3(11+1)/4=9,该位置的数字是45。而对于数字个数为偶数的,其四分位数确定起来稍微繁琐一点。例如,数字“8、17、38、39、42、44”共有6项,位置计算结果如下:·Q1的位置=(6+1)/4=1.75·Q2的位置=(6+1)/2=3.5·Q3的位置=3(6+1)/4=5.25这时的数字以数据连续为前提,由所确定位置的前后两个数字共同确定。例如,Q2的位置为3.5,则由第3个数字38和第4个数字39共同确定,计算方法是:38+(39-

5、38)×3.5的小数部分,即38+1×0.5=38.5。该结果实际上是38和39的平均数。同理,Q1、Q3的计算结果如下:·Q1=8+(17-8)×0.75=14.75·Q3=42+(44-42)×0.25=42.5Excel为计算四分位数提供了QUARTILE(array,quart)函数,其中array参数用于指定要计算四分位数值的数组或数值型单元格区域,quart指定返回哪一个四分位值,可用值如下:·0,返回最小值;·1,返回第一个四分位数;·2,返回第二个四分位数,即中位数;·3,返回第三个四分位数;·4,返回最大值。2.箱线图的结构箱线图包括

6、一个矩形箱体和上下两条竖线,箱体表示数据的集中范围,上下两条竖线分别表示数据向上和向下的延伸范围,结构如图9-51所示。图9-51箱线图的结构四分位间距框的顶部线条是第三四分位数的位置,即Q3,表示有75%的数据小于等于此值。底部线条是第一四分位数的位置,即Q1,表示有25%的数据小于此值。则整个四分位间距框所代表的是数据集中50%(即75%-25%)的数据,四分位间距框的高度就是这些数据涉及的范围,能够表现出数据的集中程度。Q2是数据中位数的位置。Whisker上限是延伸至距框顶部1.5倍框高范围内的最大数据点,Whisker下限是延伸至距框底部1.

7、5倍框高范围内的最小数据点,超出Whisker上限或下限的数值将使用星号“*”表示。但是,在Excel中绘制箱线图需要借助股价图来实现,因此无法展现异常值,Whisker上限将延伸至数据最大值的位置,Whisker下限将延伸至数据最小值的位置。3.绘制箱线图图9-52中的A2:F8区域和H2:M8区域分别是华北和华南是某段时间客户订单收货天数的统计结果,C11:C15和J11:J15是利用QUARTILE函数计算的华北、华南收货天数的四分位数结果。图9-52收货天数的四分位数计算结果在Excel中绘制箱线图需要借助股价图的“开盘-盘高-盘底-收盘”图来

8、实现。根据Excel绘图时放置数据系列的位置,开盘、盘高、盘底、收盘应分别对应Q1、Q0、Q2

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。