手动处理Excel要2小时,用Python只需30秒

你是不是也有过这样的经历——
每月末要对上千行的销售数据做汇总统计,对着Excel表格点点点、拖拖拖,眼睛都花了;领导突然要改个统计维度,你得从头再来一遍;数据量大了Excel直接卡死……
今天我要告诉你一个更高效的方式——用Python的Pandas库处理Excel,10行代码就能完成那些让你头疼半天的工作

一、为什么选择Pandas?

Pandas是Python数据分析领域最核心的库,它能帮你:
  • 几秒钟读取上万行Excel数据
  • 一键完成筛选、排序、汇总
  • 自动生成统计报表
  • 把重复性工作变成可复用的代码
最重要的是,学会后你可以告别手动操作Excel的痛苦,每次需要类似分析时,运行一下代码就搞定了。

二、环境准备:5分钟安装完成

1. 安装Python

如果你的电脑还没装Python,强烈推荐安装Thonny。它是一款专为初学者设计的Python IDE,内置Python解释器,界面简洁,安装就能用,非常适合入门学习。
下载地址:https://thonny.org

2. 安装Pandas

打开命令行(Windows按Win+R,输入cmd;Mac打开终端),输入:
pip install pandas openpyxl
openpyxl是Pandas读取Excel文件需要的支持库。
安装完成后,打开Thonny,我们就可以开始写代码了。

三、核心代码:10行搞定Excel处理

先来看一个完整例子:读取销售数据,计算每个销售员的业绩总额,然后保存结果。
# 第1行:导入Pandas库
import pandas as pd  

# 第2行:读取Excel文件
df = pd.read_excel('销售数据.xlsx')

# 第3-4行:数据清洗,去掉重复行和空值
df = df.drop_duplicates()
df = df.dropna()

# 第5行:按销售员分组,计算业绩总额
sales_summary = df.groupby('销售员')['销售额'].sum().reset_index()

# 第6行:添加一列"排名"
sales_summary['排名'] = sales_summary['销售额'].rank(ascending=False).astype(int)

# 第7-8行:按业绩降序排列,重命名列
sales_summary = sales_summary.sort_values('销售额', ascending=False)
sales_summary.columns = ['销售员', '业绩总额', '排名']

# 第9行:保存结果到新Excel
sales_summary.to_excel('销售业绩汇总.xlsx', index=False)

# 第10行
print("处理完成!结果已保存。")  
把这10行代码保存成.py文件,下次有新的销售数据,直接运行就能得到汇总结果。

四、代码详解:每个函数的作用

行号 代码 作用
1 import pandas as pd 导入Pandas库,pd是它的别名,之后用起来更方便
2 pd.read_excel('文件路径') 读取Excel文件,返回一个叫DataFrame的数据表格
3 drop_duplicates() 删除重复的行,避免重复计算
4 dropna() 删除含有空值的行,保证数据完整性
5 groupby().sum() 按某列分组,对另一列求和——这是统计汇总的核心
6 rank() 计算排名
7 sort_values() 按指定列排序,ascending=False表示降序
8 columns = [...] 重命名列,让表头更清晰
9 to_excel() 将结果保存为Excel文件,index=False表示不保存行号
小贴士:你不需要记住所有函数,用到时查文档就好。记住核心逻辑:读取→处理→保存。

五、实战场景:学以致用

场景1:学生成绩统计分析

假设你有一份学生成绩单,想计算每个班的平均分:
import pandas as pd

df = pd.read_excel('学生成绩.xlsx')
class_avg = df.groupby('班级')['总分'].mean().round(2)  # 保留2位小数
class_avg.to_excel('班级平均分.xlsx')

场景2:筛选符合条件的记录

找出销售额超过10000的订单:
df = pd.read_excel('订单数据.xlsx')
high_value = df[df['销售额'] > 10000]
high_value.to_excel('高价值订单.xlsx', index=False)
这里的df[条件]是Pandas的筛选语法,非常直观。

场景3:多条件统计

统计每个部门、不同产品线的销量:
df = pd.read_excel('销售数据.xlsx')
report = df.groupby(['部门', '产品线'])['销量'].agg(['sum', 'mean', 'count'])
report.to_excel('部门产品统计.xlsx')
agg(['sum', 'mean', 'count'])能同时计算总和、平均值、计数,一个命令搞定多维度统计。

六、进阶方向:接下来学什么?

学会基础操作后,你可以继续探索:

数据可视化:用Matplotlib或Seaborn把数据画成图表,让分析结果更直观

  1. 数据清洗进阶:处理缺失值、异常值、统一数据格式
  2. 时间序列分析:分析销售趋势、季节性波动
  3. 自动化报表:结合定时任务,实现数据的自动更新和报表生成

写在最后

Pandas最强大的地方在于:你用代码处理过一次的工作,下次可以直接复用。与其每次花半小时手动操作Excel,不如花20分钟写一段代码,一劳永逸。
上手其实没那么难,今天分享的10行代码已经能覆盖80%的日常需求了。建议你找一份自己的Excel数据,动手试一试——相信我,跑通第一个代码的那一刻,你会很有成就感。
如果遇到问题,欢迎在评论区留言,我们一起解决!
上一篇 宝墨园:那个"太有钱"的人