2 min read

Python学习介绍

总结

实际上Python的进入前,能把软件学习好,学会用pandasnumpy包,基本是就完成了EDA(Exploratory data analysis)的大部分工作,分析简单的统计分析。

EDA 比如你想看, 一般的你想一个数据的分布,频率分布,看箱型图等; 均值、中位数、众数; 标准差等, 这些都属于EDA的范畴。

pandasnumpy会更复杂一些。 比如,我想看每一年的某个数据的均值,理论上我先将数据按年切割,然后再EDA, 这种操作属于pandasnumpy完成的, 另外,sql的作用和这里相似。

access不会,但是一般公司都会调用比较大量级的数据,基本上建表、更新、处理,保存都在线上,不会存入本地,因此你不太可能用access,你只不过在access连接线上数据库,给指令,但是不会把数据保存本地。


各种模型和算法都在sklearn包,我基本是除了SVM支持向量机以外,大部分的模型都有日志,我还没整理好。

软件安装部分和前面的EDA部分,最好不要跳过。后面可以按需完成。

软件安装

anaconda, Python 3.6 version 选择安装3.6的版本,2.6在20年后就不更新了,点击这里。 Downloads | Anaconda

PyCharm安装参考这里。 PyCharm安装,这个你前期用到的少,类似于RStudio,复杂一些的编辑器。

预习,微信文章

简单的科学运算,参考这篇微信公众文章。 Python爱好者社区历史文章列表(每周append更新一次)

主要看这几个,大概2个小时能够练习完,主要在jupyter中操作。

  • Python从零开始系列连载(5)——Python的基本运算和表达式(上)
  • Python从零开始系列连载(6)——Python的基本运算和表达式(下)
  • Python从零开始系列连载(7)——Python程序的基本控制流程(上)
  • Python从零开始系列连载(8)——Python程序的基本控制流程(下)
  • Python从零开始系列连载(9)——Python特色数据类型(列表)(上)
  • Python从零开始系列连载(10)——Python特色数据类型(列表)(下)
  • Python从零开始系列连载(11)——Python特色数据类型(元组)(上)
  • Python从零开始系列连载(12)——Python特色数据类型(元组)(下)

预习,Datacamp

完成后开始进入datacamp的学习。 按顺序进行。 从前面的学习,你也知道了,数据处理中,python用到numpy和pandas两个包很多,因此你在之后练习的时候,要注意收集这两个包,实现数据处理的例子,类似于做数学题。

并且datacamp相关的学习笔记,我会记录,也就是一些比较重要的知识点,这部分的内容重要复习和查缺补漏了。它们的记录方式,逻辑性不强,因此还是建议你按照datacamp的学,如果遇到了没有解释的bug,再看笔记。

第二部分

在基本熟悉了pandasmatplotlibseabornnumpy包, 线性回归、重要分布、样本检验后,

可以开始更加难的学习了。

当然这离机器学习还有一段路,但是以上应聘数据分析岗位已经够用了。



  1. Tidyverse是RStudio的首席数据科学家* Hadley Wickham做的,常见的ggplot2等都是他写的。