使用 NumPy 和 Pandas 清理 Python 数据

原文：https://www.askpython.com/python/examples/python-data-cleaning-numpy-pandas

Python 数据清理是用一些默认值替换空值、删除不需要的列、删除缺失的行等的过程。当处理大量原始数据时，在分析之前清理数据是有意义的，这样我们就可以处理完整的数据集。

Python 中的数据清理

Python NumPy 和 Pandas 模块为 Python 中的数据清理提供了一些方法。数据清理是指通过更新或删除缺失、不准确、格式不正确、重复或不相关的信息来清理需要传递到数据库或用于数据分析的所有数据的过程。应该定期进行定期数据清理，以避免多年来堆积未清理的数据。

如果数据清理不当，可能会导致巨大的损失，包括降低营销效率。因此，清理数据对于避免主要结果中的所有不准确性变得非常重要。

高效的数据清理意味着更少的错误，从而导致更满意的客户和更少沮丧的员工。它还能提高生产力，做出更好的决策。

现在让我们对我从网上下载的一个随机的csv文件进行数据清理。数据集的名称是“旧金山建筑许可”。在对数据进行任何处理之前，首先从文件中加载数据。数据加载的代码如下所示:

import numpy as np
import pandas as pd
data = pd.read_csv('Building_Permits.csv',low_memory=False)

首先，导入所有需要的模块，然后加载 CSV 文件。我添加了一个名为low_memory的额外参数，其目的是确保程序不会因为庞大的数据集而出现任何内存错误。

数据集包含 198900 个许可细节和 43 列。数据集中的列如下:

当我们查看数据集时，我们看到数据集中有如此多的列。但是对于处理，我们可以在处理过程中跳过一些列。

现在，让我们删除一些随机的列，即 TIDF 合规性、仅火灾许可、单位后缀、区块和批次。

columns_to_drop=['TIDF Compliance', 'Fire Only Permit', 'Unit Suffix', 'Block','Lot']
data_dropcol=data.drop(columns_to_drop,axis=1)

我们将首先创建一个列表，存储要从数据集中删除的所有列名。

在下一行中，我们使用了 drop 函数，并将创建的列表传递给该函数。我们还传递轴参数，该参数的值可以是 0(按行放置)或 1(按列放置)。

代码执行后，新数据只包含 38 列，而不是 43 列。

在直接移动到删除带有缺失值的行之前，让我们首先分析数据集中有多少缺失值。出于同样的目的，我们使用下面提到的代码。

no_missing = data_dropcol.isnull().sum()
total_missing=no_missing.sum()

在代码执行时，我们发现数据集中有 1670031 个丢失的值。因为丢失的值太多了，所以我们不是删除丢失数据的行，而是删除丢失值最多的列。相同的代码如下所示。

drop_miss_value=data_dropcol.dropna(axis=1)

该代码导致删除了最大列数，结果数据集中只剩下 10 列。是的，大部分信息都从数据集中删除了，但至少现在数据集得到了充分的清理。

数据分析是一项资源密集型操作。因此，在分析之前清理原始数据以节省时间和精力是有意义的。数据清理也确保了我们的分析更加准确。Python pandas 和 NumPy 模块最适合 CSV 数据清理。