【原】使用textstat库计算文本可读性

大邓的Python 2022-10-23 发布于瑞典

展开全文

textstat可以对文本进行可读性计算，支持英文、德语、西班牙、意大利、荷兰语等。目前不支持中文，如做中文文本分析，可以考虑用cntext包。之前分享过两篇可读性的内容

https://github.com/textstat/textstat

今天尝试将pandas和textstat结合起来，对csv做文本分析

任务

今天在本文中，将学习三个知识点。

pip3 install textstat

import pandas as pd
import textstat
#设置dataframe显示的宽度
pd.options.display.max_colwidth = 100

df = pd.read_csv('data.csv')
df

Run

使用apply方法对pd.Series类型的数据进行批操作

extstat库有丰富的可读性方法，这里任选2个作为 批操作函数。

df['Fog'] = df['doc'].apply(textstat.gunning_fog)
df['Flesch'] = df['doc'].apply(textstat.flesch_reading_ease)

df.head()

Run

选中Fog、Flesch两列

#查看df[['Fog', 'Smog']]数据类型
type(df[['Fog', 'Flesch']])

Run

pandas.core.frame.DataFrame

对这两个指标水平方向进行均值

df['Mean'] = df[['Fog', 'Flesch']].mean(axis=1)
df.head()

Run

存储到可读性.csv中

df.to_csv('可读性.csv', index=False)

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：大邓的Python > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

大邓的Python

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换