单列文本拆分为多列，Python可以自动化

hercules028 2022-03-24

展开全文

excelperfect

标签：Python与Excel,pandas

在Excel中，我们经常会遇到要将文本拆分。Excel中的文本拆分为列，可以使用公式、“分列”功能或Power Query来实现。

图1

然而，这三种方法都有点低效，需要手动输入。为了自动化这些手工操作，本文将展示如何在Python数据框架中将文本拆分为列。

准备用于演示的数据框架

这里将使用一个简单的示例，你可以到知识星球完美Excel社群下载Excel示例文件或者自己按照下图所示创建一个Excel文件，以方便进行后续操作。示例文件包含两列，一个人的姓名和出生日期。

图2

我们的任务如下：

1.把名字和姓氏分开

2.将出生日期拆分为年、月和日

让我们将数据加载到Python中。在这里，我特意将“出生日期”列中的类型强制为字符串，以便展示切片方法。实际上，pandas应该自动检测此列可能是datetime，并为其分配datetime对象，这使得处理日期数据更加容易。

import pandas as pd

df = pd.read_excel('D:\split_text.xlsx',dtype={'姓名':str, '出生日期':str})

图3

不使用循环，而是使用矢量化操作

对于了解Excel并且倾向于使用公式来解决此问题的人，第一反应可能是：好的，我将创建一个可能包含FIND函数和LEFT函数或MID函数等的公式，然后向下拖动以将其应用于所有单元格。虽然在Excel中这样做是可以的，但在Python中这样做从来都不是正确的。上述操作：创建一个公式然后下拉，对于编程语言来说，被称为“循环”。当我们使用pandas来处理数据时，我们不会使用循环，相反，我们使用矢量化操作来实现快速处理。

矢量化操作（在表面上）相当于Excel的“分列”按钮或Power Query的“拆分列”，我们在其中选择一列并对整个列执行某些操作。在Python中，矢量化操作是处理数据的标准方法，因为它比循环快数百倍。后续我们会讨论为什么它要快得多。

一旦我们将Excel表加载到pandas中，整个表将成为pandas数据框架，“出生日期”列将成为pandas系列。因为我们不能循环，所以需要一种方法来访问该系列中的字符串元素。这就是.str出现的地方。它基本上允许访问序列中的字符串元素，因此我们可以对列执行常规String方法。

Python字符串切片

让我们首先处理日期，因为它们看起来间隔相等，应该更容易。我们可以使用Python字符串切片来获取年、月和日。字符串本质上类似于元组，我们可以对字符串使用相同的列表切片技术。看看下面的例子。