5.4 KiB

Raw Permalink Blame History

使用熊猫阅读文本文件——简要参考

原文：https://www.askpython.com/python-modules/pandas/read-text-file-pandas

这篇文章是一个简单的教程，关于我们如何使用 Python 中的熊猫库读取文本文件。如今，文本文件有助于存储大量原始信息。它们是获取特定信息的最简单方式之一。他们可以持有以下物品:

密码
Raw info
链接
信息和更多信息

因此，为了管理它，有一些工具和技术，通过它们我们可以很容易地提取我们需要的东西。其中之一是通过计算机编程。让我们更详细地看看它是如何工作的。

使用 Python Pandas 读取文本文件的步骤

计算机中的文件可以存储各种数量的文件和扩展名。一般来说，文件是用来存储任何信息的。所以，没有具体的定义。但是，它们的扩展说明了很多。每个扩展都定义了存储在其中的不同数据位。

例如，像 python 这样的特定编程语言的文件具有. py 的扩展名。扩展名只是为了表明它是什么类型的文件以及它代表什么数据。

在 windows 中创建 sample.txt 文件

在 windows 中创建文本文件的过程非常简单。请遵循以下步骤:

转到 windows 搜索栏，键入记事本。点击那个。
它会打开一个空白页。在那里我们可以放入任何我们想要的文本或信息，并随时对其进行修改。
完成工作后，按下 Ctrl+S 或转到左上角的文件选项，点击保存将文件保存到您想要的位置。

阅读熊猫的文本文件

Pandas 是 Python 中的一个库，包含了一些必要的数据。主要在**数据科学和机器学习领域使用。**这是一个开源项目，就像 Python 一样，任何人都可以参与开发。

前往此链接了解更多信息。以下是它的用途:

数据分析
数据预处理
数据清理
数据争论
从嵌入外部链接的文件中访问信息
从 JSON、SQL、Excel 文件格式中提取数据。

纯内置的 Python 和其他支持库为管理大量数据提供了最佳工作空间

Python Pandas 中的文本文件方法

在数据科学中，我们获取的信息量是巨大的，所以它们都包含在一个称为数据集的文件中。这个数据集可能有数千行和数千列，包含各种输入。熊猫为处理我们的数据提供了更多的功能和方法。

read_excel() : 读取一个 excel 文件
read_csv() : 读取逗号分隔值文件
info() : 显示所有列的信息
isna() : 检查缺少的值
sum() : 各种数据类型的任意列的值的总和
dropna() : 删除一列
head() : 返回数据集的前 5 行。但是，可以根据我们给大括号里面的数字返回。

这些是主要功能。要提前了解更多关于该库的信息，请访问此链接获取入门指南。

安装熊猫

Python PIP 命令即**‘Python 的包安装器’**使得在任何系统中安装 Pandas 变得容易。但是，这有一些限制。但是首先，在命令提示符下输入

python --version

确保您拥有 Python 3.6 或更高版本。

下一个类型 pip 安装熊猫如下所示:

pandas installation

使用 Anaconda 安装熊猫

注意:为此你需要在你的系统上安装 Anaconda 。

Pandas 预装了 Anaconda，但是作为参考，我们应该知道如何通过 conda 提示符添加新的库。

因此，打开 Anaconda 提示符并输入以下命令

conda install pandas

因此，我们确认该库已经存在于 conda 环境中。

进口熊猫

所以，在安装并获得一些粗略的信息后，是时候更熟悉它了。首先要做的是导入库并检查它是否正确安装。

import pandas

如果安装后没有出现错误，那么就可以使用了。

在熊猫中读取文件

该教程是非常简单的关于读取一个文件。我们将在此阅读三种类型的文件。

彗形分离值文件
Excel 文件
文本文件

读取每个文件都有特殊的函数。如前所述，它有 read_excel() 和 read_csv() 。环境—《朱庇特笔记本》

用 Python 读取 excel 文件:

使用的样本文件-" train . xlsx "

import pandas as pd                       
data = pd.read_excel('train.xlsx')      
data.head()

输出:

读取 Python 中的文本文件:

使用的样本文件-" titanic . txt "

import pandas as pd
data_1 = read_csv('titanic.txt')
data_1.head()