酷炫词云图:教你如何优雅地划重点!
说起词云图,这仿佛是一个为互联网而生的图表。许多网站用词云图显示用户搜索的关键词,从而引导用户进行索引。在Web3.0时代,词云图随处可见,并更多用于文本数据可视化。
词云图:文本数据的视觉呈现
词云(Word Cloud),又称文字云、标签云(Tag Cloud)、关键词云(Keyword Cloud),是文本数据的视觉表示,由词汇组成类似云的彩色图形。相对其它诸多用来显示数值数据的图表,词云图的独特之处在于,可以展示大量文本数据。
词云图通常用于描述网站上的关键字元数据(标签),或可视化自由格式文本。每个词的重要性以字体大小或颜色显示。比如下图中用词云图显示了某机构对品牌奶茶在互联网上的热评进行分析的结果,“红茶玛奇朵”可谓是“一点点”的爆款单品,撑起了网红奶茶店门面。
词云的本质是点图,是在相应坐标点绘制具有特定样式的文字的结果。词云可以很好地表明每个单词在特定文本体中被提及的频率(即词频分布),通过使用不同的颜色和大小来表示不同级别的相对显着性。
通过词云图,读者可以快速感知最突出的文字。比如下图中我们可以迅速得出结论:UI设计师的技能要求多为熟练掌握PS和Flash,而产品经理则大多都要求掌握Visio、Axure和PPT等。
词云图的历史并没有线图、饼图那么悠久,在20世纪90年代,作为早期Web 2.0网站和博客的一个普遍特征,词云图被广泛用作各种信息资源(如博客和小门户)的导航工具,帮助突出显示具有快速访问链接的最受欢迎标签。
2004年,照片共享平台Flickr开始使用词云图。用户上传到Flickr的图片添加了一些标签,词云图使用户能够找到所有带有相同标签的照片。另外,Flickr在首页上展示一些最受欢迎的标签和关键字,用户只需点击一个标签,无需搜索就可以链接到相关内容。
随着互联网的不断普及和发展,词云图变得越来越流行,开发人员逐渐意识到词云的重要性——其不仅仅是为网站定义关键字元数据和导航,也是展示文本数据的绝佳方式。由此,词云图演变成一种专用的数据可视化类型。
使用词云有技巧
词云图凭借着简单易用的特点和酷炫的可视化效果,成为互联网时代的宠儿。
1,适合的场景
①对比大量文本
下图是根据2016年8月财新网根据知微数据绘制的词云,在词云图中添加了不同颜色和大小的气泡从而强化文本之间的差异。从图中我们可以一眼看出,这个月的舆论焦点无疑集中于里约奥运会相关的人物和事件,“最当红炸子鸡”并非任何一位金牌得主,而是“洪荒少女”傅园慧。
②特定形状的词云
通过使用不同的图片形状做边界限制,可以绘制出形形色色的词云图,这也是词云图个性化的魅力所在。花花公子数字设计师Sean Noyce曾设计了下面的词云图,对Bowie发行歌曲中最常用的单词进行了统计和分类。从图中我们可以看出情感类的“love”、行动类的“dance”和感叹词“oh”等都是其歌曲中的高频词汇。
③结合地图的特殊词云
通过不同大小和颜色来反应对应的属性,一些与位置点相关的文本信息在地图上展示出来。这种结合地图的词云图的特殊之处在于,词汇的大小并不与其频次直接相关,而是与词汇所处地区区域的大小有关。地图词云需要做好标签的避让,防止标签叠在一起而影响阅读。
2,不适合的场景
①数据区分度不大
当数据的区分度不大时使用词云起不到突出的效果。
②数据太少
数据太少时很难布局出好看的词云,推荐使用柱状图
3,词云图VS柱状图
词云图和柱状图都有比较数据量大小的功能,那什么时候应该选择词云图呢?
①词云适合大量数据,柱状图适合少量数据
②词云展示文字更为直观,柱状图需要借助坐标轴和刻度表示文字的分类和数据
③词云可以映射更多分类字段在在文字样式,柱状图只能映射一个分类字段在颜色上
从统计的角度来看,词云图等价于单变量频率的条形图,但是使观众更难估计两个词的相对频率。例如下面是描述2010年和2011年描述某工会地址状态的条形图和词云图。显然,在词云图中突出了权重最大的文本,模糊了两个文本之间的差距。
另一方面,条形图包含更多信息,读者可以通过y轴获得准确的频率。而且,在词云中,单词的大小既表示频率,也表示单词中的字符数(图中较长的单词较大),这可能导致读者理解出现混乱。
尽管如此,网络上的许多信息图都使用词云是有原因的,不可否认词云图在呈现定量信息方面达到了平衡,同时读者对优秀美观的设计感兴趣。
那些年,我们追过的词云图
词云以简单易懂的视觉方式来表示语料库的定量元素。方法是先将语料库分解成单独的词汇,并计算它们出现的次数,然后通过将原始语料库中出现的次数映射到词汇(或词汇所在的气泡)的大小或颜色来表示这一点。这有利于通过非常大的语料库找到词汇和潜在的主题。
比如下图是将网上搜集的唐诗4.8万首和宋词1400首进过预处理之后,对其进行分词与词频统计,各取其词频数前50的词绘制如下的词云图。从图中我们可以发现,唐代诗人偏爱长安,宋代词人则独爱江南。从长安到江南,是文人的迁徙,也是中国政治中心的南移。
词云的好处相当多,即使读者不知道原始语料库的任何内容,它们也非常直观且易于解释。比如下图是财新联合知微数据统计十九大报告中的高频词而制作的词云图,图中“发展”、“人民”、“建设”、“社会主义”等词出现频次最高。
尽管词云图使用起来方便简单,但仍要注意:频率并不总是等同于重要性。尽管大多数词汇云生成器包含删除诸如“和”等许多常用单词的功能,但这并不能解决某些意义不大的单词会频繁出现的问题。另一方面,读者应该联系上下文去理解词云图,避免将分散的词汇主观臆断地联系起来。
通过对收集的资料等进行分词统计后,就可以用词云图对数据进行可视化了。
镝数图表,提供无需编程的可视化功能,只要将数据复制粘贴过来(无需排序处理),就可以一秒生成词云图!还可以调整词云的大小和颜色哦!
如果还想知道图表的相关知识,可参看往期图表家族:
或在我的公众号Dydata镝数(dydata)后台留言告诉我~