Python学习笔记（5）-数据类型之集合

集合的定义

集合是无序可变序列，使用一对大括号（这一点和字典比较类似）作为界定符，元素之间使用逗号分隔，同一个集合内的每个元素都是唯一的，元素之间不允许重复。

集合的英文是set，其特点是：

有的可变，有的不可变；元素无次充，不可重复。
元组(tuple）是列表（list）和字符串（str）的杂合，集合(set）是list和dict的杂合。
集合用{}来定义，其中的元素没有序列，并且集合中的元素不可重利，类似于dict的键。
集合可以在原处修改。

集合的创建

使用set()进行创建

可以使用set()直接创建集合，如下所示：

>>> s1 = set("qiwsir")
>>> print(s1)
{'s', 'i', 'r', 'q', 'w'}
>>> print(type(s1))
<class 'set'>

从结果可以看出，qiwsir中有两个i，但在s1中则只有一个i，即集合中的元素不能重复，如果原来的数据中存在重复的元素，则转换为集合时就只保留一个，再看一个案例：

1
2
3

>>> s2 = set([123,"google","face","book","facebook","book"])
>>> print(s2)
{'google', 123, 'book', 'face', 'facebook'}

从结果可以看出，创建集合的时候与显示集合的时候，元素的顺序不同，这说明集合中的元素没有顺序。再看一案例：

>>> s1 = set("qiwsir")
>>> print(s1)
{'s', 'i', 'r', 'q', 'w'}
>>> s1[1] = ["I"]
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: 'set' object does not support item assignment
>>> print(s1)
{'s', 'i', 'r', 'q', 'w'}

这说明，集合不是序列类型，不能用索引方式对其进行修改。

直接使用大括号创建集合

>>> a = {3, 5}
>>> a
{3, 5}
>>> type(a)
<class 'set'>

集合中只能包含数字、字符串、元组等不可变类型（或者说可哈希）的数据，而不能包括列表、字典、集合等可变类型的数据。python提供了一个内置函数hash()来计算对象的哈希值，凡是无法计算哈希值（调用hash()函数时抛出异常）的对象都不能作为集合的元素，也不能作为字典对象的“键”。

集合的转换set()

类型名称函数能够实现类型的转换，例如str()可以将对象转化为字符串，用list()和set()能够将集合和列表进行转换，如下所示：

>>> s1 = set("qiwsir")
>>> print(s1)
{'s', 'i', 'r', 'q', 'w'}
>>> lst = list(s1)
>>> print(lst)
['s', 'i', 'r', 'q', 'w']
>>> lst[1] = "I"
>>> print(lst)
['s', 'I', 'r', 'q', 'w']

集合元素的添加add()

集合元素的添加使用add()方法，如下所示：

>>> a_set = {'a',"i","1",1} #创建集合
>>> print(a_set)
{'i', '1', 'a', 1}
>>> print(type(a_set)) #查看对象的类型
<class 'set'>
>>> a_set.add("qiwsir") # 添加一个元素
>>> print(a_set)
{1, 'a', 'i', '1', 'qiwsir'}
>>>
>>> b_set = set("python")
>>> print(type(b_set))
<class 'set'>
>>> print(b_set)
{'h', 'o', 'y', 't', 'n', 'p'}
>>> b_set.add("test")
>>> print(b_set)
{'h', 'o', 'y', 'test', 't', 'n', 'p'}

合并集合update()

update()方法用于合并另外一个集合的元素到当前集合中，如下所示：

>>> s1 = {'a','b'}
>>> print(s1)
{'a', 'b'}
>>> s2 = {'github','qiwsir'}
>>> print(s2)
{'qiwsir', 'github'}
>>> s1.update(s2)
>>> print(s1)
{'github', 'qiwsir', 'a', 'b'}

集合的运行in()

字典和集合的in操作比列表快很多。因为python字典和集合使用hash表来存储元素，因此元素查找操作非常快，这就直接决定了关键字in作用于字典和集合时比作用于列表要快得多，看一个案例：

import random
import time
x = list(range(10000))
# 生成列表
y = set(range(10000))
# 生成集合
z = dict(zip(range(1000),range(10000)))
# 生成字典
r = random.randint(0,9999)
# 生成随机数
start = time.time()
for i in range(9999999):
    r in x
print('list, time used: ',time.time() - start)
start = time.time()
for i in range(9999999):
    r in y 
print('set, time used: ',time.time() - start)
start = time.time()
for i in range(999999999):
     r in z
print('dict, time used: ',time.time() - start)

运行结果如下所示：

C:\Users\20161111>python a.py
list, time used:  1369.371190071106
set, time used:  1.289543867111206
dict, time used:  95.13067197799683

删除set中的元素

pop()函数

pop()随机删除并返回集全中的一个元素，如果集合为空，则抛出异常，如下所示：

>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.pop()
'b'
>>> print(s3)
{123, 'a', 'test'}

remove()方法

remove()方法用于删除集合中的元素，如果指定元素不存在，就抛出异常，如下所示：

>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.remove("test")
>>> print(s3)
{'b', 123, 'a'}

discard()方法

discard()方法用于从集合中删除一个特定的元素，如果元素不在集合中，则忽略该操作，如下所示：

>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.discard("test")
>>> print(s3)
{'b', 123, 'a'}

remove()与discard()的区别

>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.discard("test")
>>> print(s3)
{'b', 123, 'a'}
>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.discard("test")
>>> print(s3)
{'b', 123, 'a'}

所实现的目的与remove一样，区别在于如下所示：

>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.discard("5")
>>>

运行结果：无

而remove()的结果如下所示：

>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.remove("5")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
KeyError: '5'>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> s3.remove("5")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
KeyError: '5'

remove与discard的区别在于，remove在删除指定的元素时，如果此元素不在set中，则就会出错，如果是discard删除，不存在此元素时，则不返回任何值。

clear()清除所有元素

clear()方法清空集合中的所有元素，如下所示：

>>> s3= {'a','b',123,'test'}
>>> print(s3)
{'b', 123, 'a', 'test'}
>>> print(bool(s3)) #有元素，则返回True
True
>>> s3.clear()
>>> print(s3)
set()
>>> print(bool(s3)) # 无元素返回False
False

集合冻结frozenset()

frozenset() 返回一个冻结的集合，冻结后集合不能再添加或删除任何元素。

>>> s4 = frozenset("test000")
>>> print(s4)
frozenset({'0', 's', 'e', 't'})
>>> s4.add("python")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'frozenset' object has no attribute 'add'

集合的运算

判断两个集合的从属关系in()

in()：元素与集合的关系可以用in来进行判断，如下所示：

>>> s5 = {"123","678",432,'123',"test"}
>>> print(s5)
{432, '678', '123', 'test'}
>>> print("123" in s5) # "123"是否在集合s5中
True
>>> print("123--" in s5) # "123---"是否在集合s5中
False

集合与集合的关系

集合与集合的关系可以用==,!=,>,<,issuperset,issubset来表示，如下所示：

>>> s5 = {"123","678",432,'123',"test"}
>>> print(s5)
{432, '678', '123', 'test'}
>>> s6 = {"543",123,993,"test001"}
>>> print(s6)
{'test001', 993, 123, '543'}
>>> s7 = {"123","test"}
>>> print(s7)
{'123', 'test'}
>>> print(s5 == s6) # s5是否与s6等同
False
>>> print(s5 != s6) # s5是否与s6等同
True
>>> print(s7 < s5) # s7是否是s5的子集
True
>>> print(s7.issubset(s5)) # s7是否是s5的子集
True
>>> print(s5.issuperset(s7)) # s5是否是s7的超集
True

集合求并集(`|`)

>>> s5 = {"123","678",432,'123',"test"}
>>> print(s5)
{432, '678', '123', 'test'}
>>> s6 = {"543",123,993,"test001"}
>>> print(s6)
{'test001', 993, 123, '543'}
>>> s7 = {"123","test"}
>>> print(s7)
{'123', 'test'}
>>> print(s5|s6) # 求s5和s6的并集
{993, 'test001', '543', '123', 432, '678', 'test', 123}
>>> print(s5.union(s7)) # 求s5和s7的并集
{432, '678', 'test', '123'}

集合求交集(`&`)

>>> s5 = {"123","678",432,'123',"test"}
>>> print(s5)
{432, '678', '123', 'test'}
>>> s6 = {"543",123,993,"test001"}
>>> print(s6)
{'test001', 993, 123, '543'}
>>> s7 = {"123","test"}
>>> print(s7)
{'123', 'test'}
>>> print(s5 & s6) # 求s5和s6的交集
set()
>>> print(s5.intersection(s7)) # 求s5和s7的交集
{'123', 'test'}

集合求差集（`-`）

差集如下所示：

代码为：

>>> s5 = {"123","678",432,'123',"test"}
>>> print(s5)
{432, '678', 'test', '123'}
>>> s6 = {"543",123,993,"test001"}
>>> print(s6)
{993, 'test001', 123, '543'}
>>> s7 = {"123","test"}
>>> print(s7)
{'test', '123'}
>>> print(s5 - s6) # 求s5和s6的差集
{432, '678', 'test', '123'}
>>> print(s5.difference(s7)) # 求s5和s7的差集
{432, '678'}

集合的对称差集（）

对称差集示意图如下所示：

mark

代码为：

>>> s5 = {"123","678",432,'123',"test"}
>>> s8 = {"123","test",9999}
>>> print(s5.symmetric_difference(s8)) # 求s5和s7的对称差集
{9999, 432, '678'}

集合推导式

Python支持集合推导式，集合推导式使用的是大括号，如下所示：

1
2
3

>>> squared = {x**2 for x in [1, 1, 2]}
>>> print(squared)
{1, 4}

再看另外一个案例：

>>> {x.strip() for x in (' he ', 'she ', ' I')}
{'I', 'he', 'she'}
>>>
>>> import random
>>> x = {random.randint(1,500) for i in range(100)}
>>> # 生成随机数，自动去除重复元素
... len(x)
94
>>> {str(x) for x in range(10)}
{'2', '5', '6', '0', '4', '7', '9', '8', '3', '1'}

在比较两套以上的数据集合

如果有两个以上的数据集，希望找到所有集合中的共同元素，可以按如下方法进行：

from functools import reduce
# 注：在Python3中，reduce函数位于functools包中，这一点与python2不同
a = set((1, 2, 3, 4, 5))
b = set((2, 4, 6, 7, 1))
c = set((1, 4, 5, 9))
triple_set = [a, b, c]
common = reduce(set.intersection, triple_set)
print(common)

运行结果为：

{1, 4}

reduce()函数有两个参数：

第一个参数是有两个变量的函数f(x,y)；

第二个参数是迭代对象i（元组或列表），reduce(f,i)的意思是将前两个迭代元素(i[0]和i[1])传递至函数f，计算f返回的值，然后将该值作为f的第一个参数，迭代器的第三个元素(i[2])作为第二个参数，以此类推，看下面的这个案例：

from functools import reduce
def multiply(x,y):
    return x*y
print(reduce(multiply, (1, 2, 3, 4)))