python数据科学手册pdf微盘_适合新手的Python数据科学

news/2024/7/5 12:03:26

对于做数据工作的新手,学习和使用一门编程语言,是基本的要求。你可以根据自己的实际情况,选择适合自己的编程语言。

做数据工作的朋友,有的使用R语言(我的很多数据工作就是用R语言完成),有的使用Python语言(我也是用Python语言做一些数据爬取和解析的工作),有的使用MATLAB语言(我做数据科学研究的时候,曾经试用过一段时间MATLAB),有的使用SAS语言(身边在银行做数据工作的朋友,很多人都会使用,成为一种标配,但逐渐有向开源工具转向的趋势)等。

初学者使用Python语言做数据科学,需要了解哪些内容?

kdnuggets网站的一篇文章较好地解答了这个问题。我将其翻译,希望对利用Python语言做数据科学的新手有启发,同时,帮助熟练者做个梳理和总结。

作者:Saurabh Hooda
原文链接:https://www.kdnuggets.com/2019/02/python-data-science-beginners.html

为什么是Python?

Python是一种流行的高级面向对象编程语言,被大量的软件开发人员广泛使用。Guido van Rossum在1991年设计了Python,Python软件基金会开发了Python。但问题是,基于OOP概念的编程语言已经有几十种了,那么为什么要使用这种新语言呢?因此,开发这种语言的主要目的是强调代码的可读性以及科学和数学计算(NumPy,SymPy, Orange)。

Python的语法非常简洁,长度也很短。Python是一种开源的、可移植的语言,它支持一个大型的标准库。

从Python示例开始

# To Add Two Numbers
num1 = 1
num2 = 8
sum = num1+num2
print(sum)

输出:9

数据科学是什么?

34fc675c16cf93b75cdd1ff4f20a0287.png

你一定听说过这个,但是你理解这个术语是什么呢?谁能成为数据科学家?

数据科学是利用机器学习原理从原始数据中发现隐藏模式的各种工具、数据接口和算法的集合。原始数据存储在企业数据仓库中,通过使用数据科学产生业务价值,以创造性的方式使用。

f0bec57a0dc2fe0f0eec384323277d7e.png

数据科学的应用可以通过下面的信息图来理解。

43d098ed79752852d38c9bd3936b1ff6.png

数据分析师和数据科学家是不同的,因为数据分析师只处理历史数据并解释发生了什么,而数据科学家需要各种先进的机器学习算法,通过使用概念分析来识别特定事件的发生,以发现有关数据的所有信息。

Python数据科学概论

有各种各样的编程语言可以用于数据科学,如SQL、Java、Matlab、Sas、R等等,但是在这个列表中的所有其他编程语言中,Python是数据科学家最喜欢的选择

Python有一些额外的普通特性,因为它们是首选的。以下是列出的特点:

  • Python非常强大和简单,因此易于学习(这个)语言。如果你是初学者,你不需要担心它的语法。

  • Python支持许多平台,如Windows,Mac,Linux等。

  • Python是高级编程语言,因此您只需要用简单的英语编写程序,这将在内部将代码转换为低级代码。

  • Python是一种解释语言,意味着它一次只运行一条指令。

  • Python可以执行数据可视化,数据分析和数据操作。 NumPy和Pandas用于数据操作。

  • Python为机器学习和科学计算提供各种强大的库。可以使用该语言以一些简单的语法轻松地执行各种复杂的科学计算和机器学习算法,并根据数据获得输出。

这些是开发人员更喜欢Python而不是其他编程语言的几个原因。 现在还有其他术语介绍,我们需要详细说明。 继续从数据操作开始。

数据操作是对数据进行快速、方便、高效的提取、过滤和转换的一种方法。有两个重要的库用于执行这些任务,它们是NumPy和Pandas。

NumPy是Python中免费提供的开放源码库,代表数值Python。它是流行的Python核心库,在提供数组对象的科学计算中非常有用,还提供了集成C和c++的工具。NumPy是一个强大的N维数组,以行和列的形式存在。您可以从Pythons列表中初始化它并访问它。要使用它,首先只需输入:conda install numpy,然后使用命令提示符安装这个库。之后,您可以在IDE中简单地输入import numpy来使用它。

示例:创建一个NumPy一维数组

首先,您需要导入NumPy库。这样写

import numpy as np

创建一个数组

a = np.array( [1,2,3] )
a

输出

array( [1,2,3] )

类似地,Pandas是一个强大的库,它以能够在Python中创建数据框和用于数据操作和数据分析而闻名。Pandas适用于矩阵、统计、观测等多种数据。要安装panda,您必须遵循与NumPy相同的步骤,在命令提示符中输入:conda install panda来安装这个库。之后,您可以在IDE中简单地输入import panda来使用它。

示例:创建一个Pandas操作

首先,您需要导入Pandas库。这样写

import pandas as pd

创建2个列表

lst1=[‘a’,’b’,’c’]
lst2=[1,2,3]
pd.Series(lst1)

输出

1   a
2   b
3   c
dtype: object

在输出中,0 1 2是索引。如果要根据引用显示索引值,可以这样做:

lst1=[‘a’,’b’,’c’]
lst2=[1,2,3]
pd.Series(lst1, index=lst2)

输出

  1   a
  2   b
  3   c
dtype: object

如何选择最好的Python数据科学框架?

Python有许多用于数据分析、数据操作或数据可视化的框架。Python编程是数据科学、大型数据集评估、数据可视化等领域的理想选择。

数据分析和Python编程是互补的。Python对于数据科学和那些想要在数据科学领域起步的人来说是一种极好的语言。数据分析和Python编程是互补的。Python对于数据科学和那些想要在数据科学领域起步的人来说是一种不可思议的语言。

各种框架和库都有特定的用途。你需要根据你的要求来选择。这里我们列出了一些用于数据科学的最佳Python框架。

72e53ca3d415156e4d1bdf04253d031e.png

  • NumPy:正如我们在NumPy之前总结的那样,它是'Numerical Python'的缩写形式。 它是数据科学Python编程中更高级工具的最受欢迎和基础。对NumPy数组的深入理解可帮助数据科学家有效地利用Pandas。NumPy可用于多维数组和矩阵。NumPy有很多与统计和数值相关的内置函数,包括线性代数、傅立叶变换等。NumPy是科学计算的标准库,具有与C和c++代码集成的强大工具。如果您想掌握数据科学,那么NumPy是必须学习的库。

  • SciPy:它是一个开源库,用于计算各种模块,如图像处理、集成、插值、特殊函数、优化、线性代数、傅立叶变换(FFT)、集群等许多其他任务。这个库与NumPy一起用于执行高效的数值计算。SciPy还用于图像处理和信号处理。

  • SciKit:这个流行的库用于数据科学中的机器学习,各种分类、回归和聚类算法为向量机、朴素贝叶斯、梯度增强和逻辑回归提供支持。SciKit被设计成与SciPy和NumPy互操作。

  • Pandas:Pandas以Python中的数据框而闻名。这是用于数据分析的最佳且功能强大的库,而不是像R这样的特定领域的语言。通过使用Pandas,它更容易处理缺失的数据,支持使用从多个不同资源收集的不同索引数据,支持自动数据对齐。 它还提供数据分析和数据结构的工具,如合并,整形或切片数据集,并且通过提供用于从Excel,平面文件,数据库和快速HDF5格式加载数据的强大工具,它在处理与时间序列相关的数据方面非常有效。

  • Matplotlib: Python中的Matplotlib表示Python中的数学绘图库。该库主要用于绘制三维图、直方图、图像图、散点图、条形图、功率谱等数据可视化,具有交互式的放大和平移特性,可用于格式的出版。它支持几乎所有的平台,如Windows、Mac和Linux。这个库还可以作为NumPy库的扩展。Matplotlib有一个用于可视化的模块pyplot,常与MATLAB进行比较。

对于使用Python编程语言开始数据科学的初学者来说,这些库是最好的选择。除了这些库之外,还有许多其他Python库可用,比如用于自然语言处理的NLTK、用于web挖掘的Pattern、用于深度学习的Theano、IPython、用于web抓取的Scrappy、Mlpy、Statsmodels等等。但是对于Python中的数据科学初学者来说,必须熟悉Python中列出的顶级数据分析库。

我们希望本文能够帮助您选择最好的数据科学框架或库。如果您仍有任何疑问或需要任何指导或支持,请与我们联系。

培根先生说:“活着就要学习,学习不是为了活着。”,而我想说,“学习是美好的事情,人生短暂,让我们拥抱美好,想着和做着那美好的事情。”

内容推荐

  • 如何阅读论文?

  • AppDNA:基于图深度学习的APP行为分析

  • 论文管理工具,我用Zotero

  • 事件社交网络:深度用户模型的内容事件推荐

  • DeepLink:一种用户身份链接的深度学习方法

  • 制造业的机器学习:优势,挑战和机会

  • 大数据时代做着数据工作

  • 一个数据人的2018

  • MATLAB(R2016)软件安装与测试

  • 数据人的家园,数据人网

  • 代码学习法

  • R语言做深度学习

  • 用Python做监督学习

  • 使用Python和Jupyter Notebook进行数据分析

  • 为什么将数据科学应用于生产如此困难?

  • 读完《活法》,对我数据工作的几点启示

  • 使用R的caret对银行定期存款订阅进行分类

我是数据人王路情,专注于从数据中学习
我们创建数据人网http://shujuren.org,它是数据人的家园,一个数据人学习,交流和分享的场所。欢迎您,大家一起来创造和分享数据知识,共建和共享数据智库,为智能化社会助力。


http://www.niftyadmin.cn/n/3122530.html

相关文章

Java To CSharp源代码转换

前言 开发环境 客户端:Unity3D开发(C#) 服务器:Java (基于Java7) 日 期:2016年09月 需求说明 部分服务器的部分逻辑功能在客户端实现一遍,可以简单的理解为服务器的部分逻辑代码搬到客户端来实现一遍。 想…

java的ArrayList(线性表)和LinkedList(双向链表)的深入学习

java的ArrayList和LinkedList的实现原理是完全不一样的,一个是用数组,而另一个则是用节点(Node)。 我们经常说,如果查询多,那就用ArrayList,而如果删除或者添加,那就用LinkedList。为什么要这样子&#xff…

完全数java

完全数&#xff1a;小于本身的所有因子的和&#xff08;包括1&#xff09; public class test01 {public static void main(String[] args) {Scanner scannernew Scanner(System.in);int nscanner.nextInt();for (int i2;i<n;i){int sum0;for (int j1;j<i;j)if (i%j0) su…

[Hihocoder] 字符串排序

题目 http://hihocoder.com/problemset/problem/1712 题解 https://www.zybuluo.com/wsndy-xx/note/1135606转载于:https://www.cnblogs.com/shandongs1/p/8992290.html

C#-WebForm-★★★JQuery知识——DOM操作★★★

例如&#xff1a; $("#btn1").attr( "disabled" , "disabled" ); 例如&#xff1a; $("#d1").css( "width" , "100px" );  设置宽度为100px 例如&#xff1a; 获取<input type"text" id"txt…

mysql-5.7.15-winx64配置

1. 配置环境变量 1.1 添加path路径 选择 控制面板>系统和安全>系统>高级系统设置>环境变量 mysql文件目录的绝对路径\bin 1.2 修改mysql default.ini 配置文件 2. 以管理员身份进入命令行cmd 进入mysql的bin目录下 3. mysqld --initialize-insecure &am…

圆 最小外包矩形_点圆最值母子相似阿斯圆

转发或点击文章末“在看”也是一种“点赞”如下图&#xff0c;OP、OA线段长度不变&#xff0c;看到这幅动态图&#xff0c;你能想到什么&#xff1f;1、当点P运动到C点时&#xff0c;AP达到最大值。2、当点P运动到B点时&#xff0c;AP达到最小值。3、在运动过程中&#xff0c;O…

CentOS6.8下安装MySQL5.6

一&#xff1a;卸载旧版本 使用下面的命令检查是否安装有MySQL Server rpm -qa | grep mysql有的话通过下面的命令来卸载掉 rpm -e mysql       //普通删除模式 rpm -e --nodeps mysql // 强力删除模式&#xff0c;如果使用上面命令删除时&#xff0c;提示有…