数据挖掘及其应用讲义线性回归逻辑回归ppt课件.ppt

数据挖掘及其应用讲义线性回归逻辑回归ppt课件.ppt

ID:50968340

大小:1.21 MB

页数:14页

时间:2020-03-16

数据挖掘及其应用讲义线性回归逻辑回归ppt课件.ppt_第1页
数据挖掘及其应用讲义线性回归逻辑回归ppt课件.ppt_第2页
数据挖掘及其应用讲义线性回归逻辑回归ppt课件.ppt_第3页
数据挖掘及其应用讲义线性回归逻辑回归ppt课件.ppt_第4页
数据挖掘及其应用讲义线性回归逻辑回归ppt课件.ppt_第5页
资源描述:

《数据挖掘及其应用讲义线性回归逻辑回归ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、线性回归1当某种现象的变化及其分布特性清楚后,需分析是什么原因使这种变化发生,或某种现象对其他现象有什么影响等。如研究目的在探知两特性值与间的相互关系,如特性值可以自由变动,则可用各种测试方法研究的效应。但假如不能自由变动(例如预测台风或探求水稻穗与精米重量间的关系等问题时),可利用事先求得的与间的关系来推测值。但对与间的关系,需再加解析后才能拟定其相互间的关系。2回归用以叙述两个或两个以上变量间的关系。回归分析是以一个或多个自变量描述、预测或控制特定因变量的分析。回归分析主要在了解自变量与因变量间的数量关系。主要目的:●了解自变量与因变量关系方向及强度。●以自变量所建立模式对因变量作预测。回

2、归分析根据自变量个数的不同可以分为:●简单回归分析。●多元回归分析。回归分析中变量的筛选原则:●相关理论或逻辑。●研究人员探讨变量关系来决定。3回归分析步骤:●由分布情况或专业知识,推测变量间的数学模型。●用最小平方法推导正则方程。●决定回归方程。●用图形证明所求的方程曲线与测定值的分布是否一致,以确定所选的数学模型是否全理。4模型假设及参数估计假设简单回归模型可以用下式表示:其中为因变量;为自变量;为误差项;为回归系数,其中为截距项,为模型的斜率。误差项代表我们所拟合的回归直线不可能很理想,因此认为“直线模型”可能有错,误差项代表可能的错误。回归模型假设的基本思想是误差项来自某一个正态分布。

3、严格来说,线性回归模型的基本假设为:5●正态性——对任一固定值,服从●独立性——和间相互独立●线性性——是的线性函数,即●方差齐次——对于任意的,有6多元回归分析多元回归是简单线性回归的推广,模型包含一个因变量和两个或以上的自变量。例如,在研究“销售量”的变化时,只考虑“广告投资”可能不够,可能还要再考虑“销售人员的数量”、“特定产品的价格”、“个人可支配所得”等其他变量,此时采用多元回归分析是比较适当的。需要注意的是,如果因变量是类别变量(例如因变量“购买意向”为二分变量时,也就是表示肯定购买,表示不一定购买),则要采取Logistic回归分析。7多元回归分析可以达到以下目的:●了解因变量和

4、自变量之间的关系是否存在,以及该关系的强度。也就是以自变量所解释的因变量的变异部分是否显著,且因变量变异中有多大部分可以用自变量来解释。●估计回归方程,求算特定已知自变量的情况下因变量的理论值或预测值,达到预测目的。●评价特定自变量对因变量的贡献,也就是在控制其他自变量不变的情况下,该自变量的变化所导至的因变量变化情况。●比较各自变量在拟合中对的回归方程中相对作用的大小,寻找最重要的和比较重要的自变量。多元回归模型该模型可以用下面的回归方程来估计其中,代表截距,代表回归系数(也就是偏回归系数),一般都是通过常用的统计软件来估计,统计软件还将同时给出标准的回归系数和对应的标准误差,这些统计量与简

5、单回归中给出的相应的统计量的意义是一致的。9回归变量的选择变量的选择原则:●依据专家所提出的相关理论,参考相关研究文献。●依据研究人员所欲探讨的变量关系来决定。在建立回归方程时,可能会涉及很多自变量。然而有些变量可能并不重要,太多的变量会促使模型变量过于复杂;因此,需要对大量的自变量进行必要的筛选,用尽可能少的自变量去解释因变量中最大比例的变异。10逻辑回归Logistic(中文称为罗吉斯)回归模型在分析二分类或有序因变量与解释变量的关系。Logistic回归模型中,用自变量去预测因变量在给定某个值(如1或0)的概率。因变量通常是二分类中的一个值或有序变量取值的最小值。当因变量有很多不同的值时

6、(如:等距尺度或比例尺度的数据类型时),通常使用简单回归模型而不用Logistic回归模型。对一个二分类的因变量,Logistic回归模型的形式如下:其中,代表因变量的概率值,代表的第一个取值,*代表截距参数,代表斜率参数的向量,代表解释变量的向量。11为较好的理解Logistic模型,我们先介绍logit变换和Logistic分布,然后再加到logistic回归分析。logit变换:上式变换称为logit变换,是否可以认为是“logit”(取对数)的意思。将由来表示,就得:如果是某些自变量的线性函数,则就是的下列函数:12讨论Logistic回归时,直接从式开始。其中,的分布称为Logist

7、ic分布。(1)它的密度函数为其中式中的p表示(1)式中的1-F(x),则有相应的。从这里可以看出logit变换与Logistic分布的关系。当时,相应的分布称为标准Logistic分布,它的分布函数与分布密度为14

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。