20、Python之容器：红楼主角都有谁？10行代码生成《红楼梦》词云图

引言

Python系列前面的文章中，我们介绍了Python中容器的基本使用，上一篇中，我们又重点介绍了Counter计数器的使用。这些介绍，应该足以应付日常的工作需求了。

在今天的文章中，我想以词云图的生成这个综合案例，巩固一下前面关于容器、字典推导式、Counter的使用。同时，介绍两个比较好用三方模块：jieba和wordcloud。

本文的主要内容有：1、jieba模块的简单介绍2、wordcloud模块的简单介绍3、《红楼梦》词云图的生成

jieba模块的简单介绍

jieba是一个比较好用的中文分词库，它能够很高效地进行中文文本的分词处理，也能支持词性的标注。

由于是三方模块，使用之前，首先是jieba模块的安装：

pip3 install jieba

然后，我们可以看下jieba模块中cut()函数的定义，因为我们接下来主要用到的就是分词功能：

从定义中可以看到，cut()函数支持两种分词模式，通过cut_all这个bool参数来决定：cut_all=False时，进行更精准的分词，适合进行文本分析；当cut_all=True时，会将所有可以成词的词语都扫描出来，速度更快，但是可能存在歧义问题。

定义中还有一个函数，是我们要用到的，即load_userdict()，用于定义我们自定义的词语，提示模块不要切分了，主要还一些人名：

以纯文本的形式存储，词语、频度、词性，其实可以只有词语。

wordcloud模块的简单介绍

wordcloud是一个用于生成词云图的三方模块，可以自定义文字大小、颜色等，可以更加直观地查看词语的出现频度。

同样需要先安装该模块：

pip3 install wordcloud

简单看下WordCloud类的定义：

WordCloud的构造方法的可选参数比较多。不过，我们可以只用到这三个就行了：

1、font_path：自定义一个字体文件的路径，由于是要生成中文的词云图，必须要指定一个中文字体，若是英文词云图，默认字体也是可以的。

2、width：指定词云图的宽度，默认为400，有点小。

3、height：指定词云图的高度，默认为200，有点小。

完整的参数有点多：

后续，感兴趣的话，可以自行研究，生成更加灵活多样化的词云图。

除了WordCloud的构造方法外，要生成一个词云图，还需要两个函数：1、generate_from_frequencies()或者generate_from_text()：以词频dict或者词语串，来生成词云图。

2、to_file()：用于将生成的词云图保存成图片。也可以使用to_svg()方法导出svg格式。

《红楼梦》词云图的生成

准备工作已然就绪，接下来我们以《红楼梦》小说的全文为基础，生成一幅词云图，从而看下谁才是红楼梦中真正的主角。这个案例会将前面文章中的一些知识用起来。

直接看代码：

去除注释及空行，刚好10行代码……

这些代码本身并不复杂，都是前面已经用过的知识。看下生成的词云图：

总结

本文介绍了三方模块jieba和wordcloud的安装及简单使用。然后结合前面介绍的Python中关于容器的使用、Counter，以10行代码实现了对《红楼梦》全文的中文分词、词频统计及词云图的生成。希望这篇文章对您学习使用Python能有所帮助。

玩酷网