数组去重的7种方法，你只会set？

平时处理数据、清洗列表时，去重是最常见的操作之一。
很多人上来就 set()，其实不同场景用对方法，又快又稳还不踩坑。

今天整理 7 种好用的去重方式，工作里随手就能用，按需选择就行。

先看结论（重要！）

arr = [3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]
result = list(set(arr))
# 输出: [1, 2, 3, 4, 5, 6, 9]

不需要顺序时用它，10万条数据只需5毫秒。

arr = [3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]
result = list(dict.fromkeys(arr))
# 输出: [3, 1, 4, 5, 9, 2, 6]

日常使用首选！速度仅次于set()，同时保持原始顺序。

arr = [3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]
seen = []
result = [x for x in arr if x not in seen and not seen.append(x)]
# 输出: [3, 1, 4, 5, 9, 2, 6]

只适合1000条以内的小数据，大数据用它会慢几十倍！

from itertools import groupby

arr = [3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]
result = [key for key, _ in groupby(sorted(arr))]
# 输出: [1, 2, 3, 4, 5, 6, 9]

需要同时去重和排序时用它，结果会自动升序排列。

import numpy as np

arr = [3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]
result = list(np.unique(arr))
# 输出: [1, 2, 3, 4, 5, 6, 9]

用NumPy处理数据时用它，还能顺便统计每个值出现几次。

import pandas as pd

arr = [3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]
result = pd.Series(arr).drop_duplicates().tolist()
# 输出: [3, 1, 4, 5, 9, 2, 6]

用Pandas处理表格数据时用它，和其他操作链式调用很方便。

from collections import OrderedDict

arr = [3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]
result = list(OrderedDict.fromkeys(arr))
# 输出: [3, 1, 4, 5, 9, 2, 6]

现在Python 3.7+普通dict已经有序，这个基本用不上了，了解即可。

其他方法介于6-25ms之间。

重点记住：列表推导最慢，大数据量时千万别用！

记住这3点，够用了！