数学建模中的统计方法介绍课件.ppt

数学建模中的统计方法介绍课件.ppt

ID:57296475

大小:5.28 MB

页数:428页

时间:2020-08-10

数学建模中的统计方法介绍课件.ppt_第1页
数学建模中的统计方法介绍课件.ppt_第2页
数学建模中的统计方法介绍课件.ppt_第3页
数学建模中的统计方法介绍课件.ppt_第4页
数学建模中的统计方法介绍课件.ppt_第5页
资源描述:

《数学建模中的统计方法介绍课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、同济大学数学系数学建模中的统计方法同济大学数学系数学建模中的统计方法介绍数据预处理与统计软件的选择显著性检验拟合优度检验和独立性检验非参数检验方差分析回归分析主成分分析因子分析聚类分析判别分析数据预处理为什么要预处理数据描述性数据汇总数据清理数据集成和变换数据归约数据离散化和概念分层产生3同济大学数学系数据预处理的原因正确性(Correctness)一致性(Consistency)完整性(Completeness)可靠性(Reliability)数据质量的含义同济大学数学系现实世界的数据不完整的缺少属性值或某

2、些感兴趣的属性,或仅包含聚集数据。含噪声的包含错误或存在偏离期望的离群值。不一致的采用的编码或表示不同,如属性名称不同冗余的如属性之间可以相互导出同济大学数学系数据错误的不可避免性数据输入和获得过程数据错误数据集成所表现出来的错误数据传输过程所引入的错误据统计有错误的数据占总数据的5%左右同济大学数学系数据错误的危害性高昂的操作费用糟糕的决策制定组织的不信任分散管理的注意力同济大学数学系数据预处理的形式数据清理补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致数据集成集成多个数据库、数据立方或文件数据变

3、换规范化和聚集数据归约简化数据、但产生同样或相似的结果同济大学数学系数据预处理的形式同济大学数学系数据预处理的意义现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。检测异常数据、尽早地调整数据并归约待分析的数据,将在决策过程中得到高回报。同济大学数学系描述性数据汇总获得数据的总体印象对于成功的数据预处理是至关重要的。描述性数据汇总技术可以用来识别数据的典型性质,突

4、显哪些数据值应当视为噪声或离群点。动机:更好的理解数据。主要内容:度量数据的中心趋势和离散程度、描述数据汇总的图形显示。同济大学数学系度量数据的中心趋势算数平均值最常用分布式度量可以通过如下方法计算度量(即函数):将数据集划分成较小的子集,计算每个子集的度量,然后合并计算结果,得到原(整个)数据集的度量值。求和、计数、最小、最大同济大学数学系度量数据的中心趋势…代数度量可以通过应用一个代数函数于一个或多个分布度量计算的度量。均值、中列数整体度量必须对整个数据集计算的度量。中位数、众数同济大学数学系代数度量me

5、an():加权平均:截断均值:去掉高、低极端值得到的均值。减小极端值对均值的影响。中列数(midrange):(max+min)/2同济大学数学系整体度量中位数(median):适用于倾斜的数据。近似值计算如下:设N个数值排序,若N为奇数,中位数是有序集的中间值;若N为偶数,中位数是中间两个值的平均值。例如:1,3,5,7中位数41,3,5,6,7中位数5同济大学数学系整体度量众数(mode):集合中出现频率最高的值。单峰、多峰(双峰、三峰…)、无众数对于适度倾斜的单峰频率曲线,有如下的经验关系:同济大学数学

6、系中位数、均值和众数同济大学数学系极差最大值与最小值之差四分位数中位数是第50个百分位数,是第2个四分位数第1个是第25个百分位数,Q1中间四分位数极差IQR=Q3–Q1离群点outlier与数据的一般行为或模型不一致的数据对象盒图方差、标准差反映了每个数与均值相比平均相差的数值度量数据的离散程度同济大学数学系度量数据的离散程度…盒图boxplot,也称箱线图从下到上五条线分别表示最小值、下四分位数Q1、中位数、上四分位数Q3和最大值盒的长度等于IRQ中位数用盒内的横线表示盒外的两条线(胡须)分别延伸到最小和

7、最大观测值。同济大学数学系盒形图同济大学数学系盒图的功能1.直观明了地识别数据集中的离群点2.判断数据集的偏态和尾重3.比较几批数据的形状同济大学数学系同济大学数学系直方图、分位数图、分位数-分位数图(q-q图)散布图、散布图矩阵局部回归(Loess)曲线基本描述数据汇总的图形显示同济大学数学系直方图Histogram概括给定属性分布的图形方法每个矩形等宽同济大学数学系分位数图QuantilePlot观察单变量数据分布的简单有效方法同济大学数学系散布图scatterplot直接观察是否存在簇(cluster)

8、,离群点等每个点对应一个坐标对同济大学数学系局部回归(Loess)曲线添加一条光滑曲线到散布图同济大学数学系数据清理现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理的任务:填充缺失的值,光滑噪声并识别离群点,纠正数据中的不一致。同济大学数学系忽略元组人工填写空缺值使用一个全局常量填充空缺值使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值缺失值同济大

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。