你是不是也有过这样的经历——
每月末要对上千行的销售数据做汇总统计,对着Excel表格点点点、拖拖拖,眼睛都花了;领导突然要改个统计维度,你得从头再来一遍;数据量大了Excel直接卡死……
今天我要告诉你一个更高效的方式——用Python的Pandas库处理Excel,10行代码就能完成那些让你头疼半天的工作。
一、为什么选择Pandas?
Pandas是Python数据分析领域最核心的库,它能帮你:
- 几秒钟读取上万行Excel数据
- 一键完成筛选、排序、汇总
- 自动生成统计报表
- 把重复性工作变成可复用的代码
最重要的是,学会后你可以告别手动操作Excel的痛苦,每次需要类似分析时,运行一下代码就搞定了。
二、环境准备:5分钟安装完成
1. 安装Python
如果你的电脑还没装Python,强烈推荐安装Thonny。它是一款专为初学者设计的Python IDE,内置Python解释器,界面简洁,安装就能用,非常适合入门学习。
下载地址:https://thonny.org
2. 安装Pandas
打开命令行(Windows按Win+R,输入cmd;Mac打开终端),输入:
pip install pandas openpyxl
openpyxl是Pandas读取Excel文件需要的支持库。安装完成后,打开Thonny,我们就可以开始写代码了。
三、核心代码:10行搞定Excel处理
先来看一个完整例子:读取销售数据,计算每个销售员的业绩总额,然后保存结果。
# 第1行:导入Pandas库
import pandas as pd
# 第2行:读取Excel文件
df = pd.read_excel('销售数据.xlsx')
# 第3-4行:数据清洗,去掉重复行和空值
df = df.drop_duplicates()
df = df.dropna()
# 第5行:按销售员分组,计算业绩总额
sales_summary = df.groupby('销售员')['销售额'].sum().reset_index()
# 第6行:添加一列"排名"
sales_summary['排名'] = sales_summary['销售额'].rank(ascending=False).astype(int)
# 第7-8行:按业绩降序排列,重命名列
sales_summary = sales_summary.sort_values('销售额', ascending=False)
sales_summary.columns = ['销售员', '业绩总额', '排名']
# 第9行:保存结果到新Excel
sales_summary.to_excel('销售业绩汇总.xlsx', index=False)
# 第10行
print("处理完成!结果已保存。")
把这10行代码保存成
.py文件,下次有新的销售数据,直接运行就能得到汇总结果。四、代码详解:每个函数的作用
| 行号 | 代码 | 作用 |
|---|---|---|
| 1 | import pandas as pd |
导入Pandas库,pd是它的别名,之后用起来更方便 |
| 2 | pd.read_excel('文件路径') |
读取Excel文件,返回一个叫DataFrame的数据表格 |
| 3 | drop_duplicates() |
删除重复的行,避免重复计算 |
| 4 | dropna() |
删除含有空值的行,保证数据完整性 |
| 5 | groupby().sum() |
按某列分组,对另一列求和——这是统计汇总的核心 |
| 6 | rank() |
计算排名 |
| 7 | sort_values() |
按指定列排序,ascending=False表示降序 |
| 8 | columns = [...] |
重命名列,让表头更清晰 |
| 9 | to_excel() |
将结果保存为Excel文件,index=False表示不保存行号 |
小贴士:你不需要记住所有函数,用到时查文档就好。记住核心逻辑:读取→处理→保存。
五、实战场景:学以致用
场景1:学生成绩统计分析
假设你有一份学生成绩单,想计算每个班的平均分:
import pandas as pd
df = pd.read_excel('学生成绩.xlsx')
class_avg = df.groupby('班级')['总分'].mean().round(2) # 保留2位小数
class_avg.to_excel('班级平均分.xlsx')
场景2:筛选符合条件的记录
找出销售额超过10000的订单:
df = pd.read_excel('订单数据.xlsx')
high_value = df[df['销售额'] > 10000]
high_value.to_excel('高价值订单.xlsx', index=False)
这里的
df[条件]是Pandas的筛选语法,非常直观。场景3:多条件统计
统计每个部门、不同产品线的销量:
df = pd.read_excel('销售数据.xlsx')
report = df.groupby(['部门', '产品线'])['销量'].agg(['sum', 'mean', 'count'])
report.to_excel('部门产品统计.xlsx')
agg(['sum', 'mean', 'count'])能同时计算总和、平均值、计数,一个命令搞定多维度统计。六、进阶方向:接下来学什么?
学会基础操作后,你可以继续探索:
数据可视化:用Matplotlib或Seaborn把数据画成图表,让分析结果更直观
- 数据清洗进阶:处理缺失值、异常值、统一数据格式
- 时间序列分析:分析销售趋势、季节性波动
- 自动化报表:结合定时任务,实现数据的自动更新和报表生成
写在最后
Pandas最强大的地方在于:你用代码处理过一次的工作,下次可以直接复用。与其每次花半小时手动操作Excel,不如花20分钟写一段代码,一劳永逸。
上手其实没那么难,今天分享的10行代码已经能覆盖80%的日常需求了。建议你找一份自己的Excel数据,动手试一试——相信我,跑通第一个代码的那一刻,你会很有成就感。
如果遇到问题,欢迎在评论区留言,我们一起解决!


