基于文本挖掘技术的金融预测方法研究.pdf

基于文本挖掘技术的金融预测方法研究.pdf

ID:51952749

大小:1.61 MB

页数:125页

时间:2020-03-20

基于文本挖掘技术的金融预测方法研究.pdf_第1页
基于文本挖掘技术的金融预测方法研究.pdf_第2页
基于文本挖掘技术的金融预测方法研究.pdf_第3页
基于文本挖掘技术的金融预测方法研究.pdf_第4页
基于文本挖掘技术的金融预测方法研究.pdf_第5页
资源描述:

《基于文本挖掘技术的金融预测方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、博博博士士士学学学位位位论论论文文文基于文本挖掘技术的金融预测方法研究FINANCIALFORECASTINGMETHODBASEDONTEXTMININGTECHNOLOGIES王王王保保保华华华哈哈哈尔尔尔滨滨滨工工工业业业大大大学学学2012年年年04月月月国内图书分类号:TP309.2学校代码:10213国际图书分类号:681.37密级:公开工工工学学学博博博士士士学学学位位位论论论文文文基于文本挖掘技术的金融预测方法研究博士研究生:王保华导师:王晓龙教授申请学位:工学博士学科:计算机应用技术所在单位:深圳研究生院答辩日期:2012年04月授予学位单位:哈尔滨工业大学Clas

2、sifiedIndex:TP309.2U.D.C:681.37DissertationfortheDoctoralDegreeinEngineeringFINANCIALFORECASTINGMETHODBASEDONTEXTMININGTECHNOLOGIESCandidate:WangBaohuaSupervisor:Prof.WangXiaolongAcademicDegreeAppliedfor:DoctorofEngineeringSpecialty:ComputerApplicationAffiliation:ShenzhenGraduateSchoolDateofDefenc

3、e:April,2012Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要随着世界经济全球化及世界金融业的不断发展,金融活动中的不确定性增加,金融预测日益受到学术界及金融业界的高度重视。人们希望通过对金融经营管理活动中难以确定的未来发展趋势和规律进行研究,做出预见性的判断与推测,使金融活动中的不确定性最小化,为制定金融计划和金融决策提供依据。近年来由于海量金融信息的出现,数据挖掘技术在金融预测领域开始得到广泛研究与应用,但大多数的研究只局限于数值信息。海量金融信息中有大量的数据是以文本的形式存在,如何从这些文本信

4、息中挖掘出有价值的信息变得异常重要。为了提高金融预测的准确度,本文主要研究将文本挖掘相关技术引入到金融预测领域。在金融文本预处理方面,对金融报告的语义标注进行了研究,在标注的金融文本基础上,对金融报告的可信度进行了分析。进而基于文本挖掘相关技术,对金融预测的两个重要问题:金融时间序列及金融短期波动率进行了预测研究。研究内容主要包括:第一,面向金融预测的年报语义标注方法研究。年度报告已经成为投资者进行金融预测时重要的信息来源。为了使投资者更方便和更准确检索到所需信息进行预测,针对中文与英文年报,本文分别提出了基于领域本体和自然语言处理技术的语义标注方法与基于正则表达式的半自动语义标注方

5、法。对中文年报的公司基本信息及英文年报的管理层讨论与分析部分所进行的语义标注实验表明,所提出方法是有效的。第二,基于文本挖掘技术的年报可信度研究。上市公司的年报是投资者进行金融预测的重要信息来源,当上市公司的报告造假时,所做的预测将无效并将给市场参与者带来巨大损失。已有的研究表明基于语言特征的识别方法在造假识别方面是一种有效的方式。本文在年报可信度分析领域引入了无监督机器学习方法,基于已标注的年报管理层讨论与分析部分,提出了一种以文本语言特征为基础的层次聚类方法。该方法包含三个步骤:将年度报告的文本数据以特征向量方式表示;选择最佳相似度计算函数和连通方法;执行层次聚类,识别造假年度报

6、告。为了验证所提出方法的有效性,本文应用所提出的算法对十家上市公司的年度报告分别进行实验,对比实验结果表明,所提出的方法具有较好的性能。第三,基于文本挖掘技术的金融时间序列预测方法研究。金融时间序-I-哈尔滨工业大学工学博士学位论文列预测是金融预测领域的一个重要问题,但因其充满噪声、非平稳和混沌性,对它的预测成为一个非常具有挑战性的课题。文本数据中包含着有价值的预测信息,但大多数现有的预测模型并没有考虑到伴随着时间序列的文本数据。为了克服这一局限性,在保证年报可信度的情况下,本文提出了一种组合采用数值和文本信息,通过结合差分自回归移动平均模型(ARIMA)和支持向量回归模型(SVR)

7、的方法进行金融时间序列预测。该方法包含三个步骤:将文本数据表示为特征向量,使用基于数值的ARIMA模型分析时间序列的线性部分,基于文本特征向量的支持向量回归模型处理非线性部分。为了验证该方法的有效性,本文选择六家上市公司的季度末净资产收益率(ROE)时间序列作为预测对象。对比目前现有主流模型,本文模型表现了更为优异的性能。这表明本文所提出的使用额外文本数据进行预测的模型,是一种有效的金融时间序列预测方法。第四,基于支持向量回归的马尔科夫转换多重分形模型金融

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。