肖凯-python的数据工具箱-可以

肖凯-python的数据工具箱-可以

ID:31840351

大小:6.80 MB

页数:41页

时间:2019-01-20

肖凯-python的数据工具箱-可以_第1页
肖凯-python的数据工具箱-可以_第2页
肖凯-python的数据工具箱-可以_第3页
肖凯-python的数据工具箱-可以_第4页
肖凯-python的数据工具箱-可以_第5页
资源描述:

《肖凯-python的数据工具箱-可以》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、Python的数据工具箱肖凯数据工作四要素•问题•数据•方法•工具提纲•为何使用Python•PythonVSR•数据相关模块为何使用Python•开源的通用性语言•整合能力强•扩展模块丰富•入门比较简单,语法比较优美•解释性语言,不需编译,比较灵活•能快速产生结果,从原型到产品为何使用Python•填补数据研究和产品开发之间的鸿沟•配合数据科学家完成多领域任务PythonVSRPythonVSR两种工具的相同点:•均为开源免费•均可在三种操作系统中运行•均有大量的用户群和社区支持•均有大量的扩展包和教程资源•调查显示它们是业界人士最为喜

2、爱的两种工具PythonVSR两种工具的差异点:•Python是一种通用型编程工具,R专注于数据领域•R有更为丰富的专业统计函数,Python长于机器学习•R有更好的可视化包,Python正在快速追赶•Python和R的核心语法非常简洁,R包的语法兼收并蓄,错综复杂PythonVSRR:results<-lm(y~x1+x2+x3,data=dataframe)!Python:results=sm.OLS(y,X).fit()PythonVSR如何选择:•你是什么样的专业背景•你周围有哪些可以借助的资源•你希望解决什么样的问题•你未来希望

3、投身学界或业界Python科学计算库分析流程中的Python科学计算套件先修知识运行环境ipython:一个增强的pythonshell•提高编写、测试、调度代码的速度•提供了IPythonNotebook,是一个交互计算平台,也是一个记录计算过程的笔记本•满足交互计算和批处理计算,同时能保存脚本文件以记录计算过程•能兼容markdown等语法,满足可重复数据分析的需求,以及课程教学、博客写作•能在本地的计算机上对远程服务器中的数据进行分析IPythonIPython数值计算numpy:科学计算的基础包•快速高效的多维数组对象•可执行向量

4、化计算•提供线性代数等矩阵运算•可集成C的代码NumpyNumbaNumba:提供高性能计算加速功能•类似库还有cython、numexprSciPySciPy:用于解决科学计算中标准问题•数值积分和微分方程求解•扩展的矩阵计算功能•最优化工具•概率分布计算和统计函数•信号处理函数SciPy数据可视化Matplotlib:python下最著名的绘图库•提供了一整套和matlab相似的API•十分适合交互式绘图•也可将它作为绘图控件,嵌入GUI应用程序中MatplotlibSeabornBokeh数据整理Pandas:用于数据处理和分析•易

5、用、高效的数据操作函数库•执行join以及其他SQL类似的功能来重塑数据•提供包括dataframe在内的数据结构•支持各种格式(包括数据库)输入输出数据•支持时间序列•拥有基本绘图功能和统计功能数据探索统计分析Statsmodels:用于统计分析的模块•提供各种回归模型函数,包括lm/glm/rlm•提供时间序列分析函数,包括ARIMA/VAR•提供各种假设检验和非参数方法•拥有基本绘图功能和统计功能贝叶斯方法PyMC:•提供基于MCMC(MarkovchainMonteCarlo)贝叶斯模型Pgmpy:•用于贝叶斯网络建模网络分析Ne

6、tworkX:•用于社会网络分析的模块•另一个选择是iGraph机器学习Scikit-learn:机器学习库•建立在NumPy,SciPy基础上的机器学习库•过一个统一的接口来使用,有助于迅速地在数据集上实现流行的算法。•含了许多用于标准机器学习任务的工具,如:聚类、分类和回归等。gensim:提供了word2vec/Topic-model等APIScikit-learn机器学习自然语言处理•NaturalLanguageToolKit(NLTK)•TextBlob•StanfordCoreNLP•Jieba•SnowNLPBigData

7、Dask•提供了out-of-core计算能力•类似库还包括sframe/blazePyspark•提供了在spark集群上的计算接口深度学习框架•TensorFlow•MXNet•Theano•Keras基于keras构建CNN小结•IPython:增强的交互式运行环境•NumPy/SciPy:算法研究•Matplotlib:数据绘图•Pandas:数据整理和分析•Statsmodels/Scikit-learn:统计模型和机器学习•PyMC/Pgmpy:贝叶斯方法•NetworkX/iGraph:社会网络分析•TensorFlow/M

8、XNetT/heano/Keras:深度学习TheEnd

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。