“词云”这个概念由美国西北大学学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于2006年提出。“词云”就是通过形成“关键词云层”或“关键词渲染”,对网络文本中出现频率较高的“关键词”的视觉上的突出。词云图过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。
简单来说,所谓词云, 就是利用语言分析技术, 对大数据文本进行词频分析, 并生成可视化图像的技术。词云将词语按照一定顺序和规律进行排列, 如按照频度递减或者字母顺序排列, 并以文字的大小代表词语重要性。
词云不仅用于展示标签, 也多用于呈现文本的关键词语, 以帮助人们简明扼要地了解文本的大体内容。除了用于标签或关键词的可视化呈现,词云还可以展示更为复杂的文本信息, 例如文本集合间的关系、文本内容随时间的变化等。

从词云的形式上来看,最初的词云大多将文字一行一行地水平排列。自2002年起, 照片分享网站Flickr便采用了这一形式对用户标注的用以阐述照片内容的标签进行展示, 并通过文字大小表示一个标签的流行程度。随后, 网络书签应用del.icio.us也采用了词云展示用户标注的大量社会化标签。
随着越来越多的网站开始使用词云,它已逐步成为Web 2.0时代的一个显著标识。随后出现的词云遵循了更加复杂和美观的布局,Wordle便是典型代表。在通过Wordle生成的词云中, 词语的布局遵循了更为严格的算法, 词语可以被水平或者竖直排列, 词语和词语之间的空隙被充分利用, 最终达成内部紧凑、轮廓明显的视觉效果。
词云图作为一种数据可视化方式,其数据来源主要是由文本产生。同其他量表类数据可视化方式一样,词云图同样具有美观易懂的特点,它能够通过关键词的排列集合以及凸显来帮助读者在掌握轮廓的同时把握中心。
同时,词云图的形状也慢慢从最一开始的简单几何图形转变到现在更加具有个性的形状,地图、人物肖像、动物、交通工具等等。紧扣文本主题的词云形状不但能够达到主题的整体统一,也能够提升读者的阅读兴趣,达到信息的有效传播。
在一个越来越开放透明、公众和媒体拥有同步获取大数据能力的时代, 在图阅读、浅阅读盛行的时代,媒体的价值在于将那些看起来杂乱无序的数据进行筛选、分析、解读, 让读者“见所未见”, 和读者一起发现数据背后的真相。大数据采之为财富, 存之则如粪土。未经分析、挖掘的大数据, 百无一用。
不能体现主题的词云图是没有灵魂的,因此词云图文本的选择就尤为关键,好的词云图能够做到让读者看图明义,一眼抓到主题。2013年 新华社新媒体专线首次采用“词云”技术发布全国两会, 由清华大学计算机系自然语言分析实验室开发的中文“词云”就像一把打开数据之门的钥匙——十万字的文本, “读懂”只需几秒钟, 还能飞快生成“趋势化、可视化”的图表。新华社采编人员和清华大学年轻的工程师们共同努力写出的稿件中, 词云技术分别被用来分析文本本身, 得出带有趋势性的结论, 并配以精准解读。
随着近年来词云这一概念越来越火,词云制作工具也有了更多的选择。国外有诸如Wordle、WordItOut、Tagxedo、Tagul、ToCloud等制作工具,国内也有图悦、BDP个人版等在线或终端制作工具可供选择,这些词云制作工具各有优缺点,但是都能满足基本制作需要。
笔者今天选择的词云在线制作工具是wordart网站,之所以选择这个网站的原因主要是因为该网站对于词云制作分步骤完成且每步的操作引导及可选择项比较丰富,即对新手友好又能满足一定的个性化需求。稍显美中不足的是该网站没有中文界面,好在界面并不复杂,步骤也简单易懂,稍作熟悉就可以上手制作属于自己的词云图了。本文旨在通过对于wordart网站制作词云图的步骤进行简易讲解,帮助读者理解词云图制作的思路过程及逻辑顺序,从而达到触类旁通的效果,能够自主选择最适合自己要求的词云制作工具。
提示:真正的词云制作基本步骤应该是1.选择文本,多为一篇或多篇相关文章,网络爬取的文本集合等;2.对文本利用软件进行分词处理,分词规则需要考虑行业习惯以及专业性质或者想制作词云图的主题要求;3.对已拆分的关键词进行删除无意义词以及合并同类词处理(此步需谨慎考虑,从严谨性来说删除合并操作对于数据整体完整性势必有一定影响);4.对于保留的关键词进行词频统计;5.根据统计出的词频制作词云图。本文教程仅涉及最后一步,词云图制作具体操作步骤。
操作步骤
1. 登陆注册wordart网站。https://wordart.com/
初次进入点击SIGNUP进行注册,若已有账号则可以点击LOGIN登录进入网站。
注册需要填写用户名、邮箱、密码等基本资料,两个勾选项第一个是同意相关协议,第二个是同意接收网站发送消息,一般建议都勾上。另外要注意的是,我用QQ邮箱无法正常注册,换网易163邮箱可以正常注册。全部填写好之后不要急着点击sign up注册,可能会弹出人机验证如下图,这时候点击勾选进行人机验证,通过后就可以正常注册了。
2.用户管理
注册成功后,网站自动登录并跳转用户管理界面。此界面可以管理你创建的词云文件并支持文件夹管理,包含了常规的删除复制等文件管理操作。点击Create可以直接进入词云制作界面。
3.词云制作主界面
进入词云制作主界面后,主要分为三大部分如上图所示。红框部分为任务栏,包含了菜单、保存、购买服务、分享、下载等基本操作。这里需要注意的有两点:一是SAVE和DOWNLOAD并不是一个概念,SAVE保存是保存你当前制作的所有数据在该网站你的用户名下,支持前文提到的文件夹管理等操作;DOWNLOAD更像是传统意义的导出功能,目前Wordart网站对于免费用户提供了标准分辨率下的png及jpg两种格式的词图下载。二是MENU的二级菜单里面有一个emoji选项,点击之后在新窗口弹出各种矢量小图标,选择后生成代码可用于粘贴在词云图的关键词当中,算是一个小彩蛋功能。
黄框部分为传统的编辑区域,基本按照词云图制作步骤分为了文本、形状、字体、排列方式、显示调节五个部分,其中文本、形状、字体三个部分除了提供网站自带的素材以外,还支持导入数据。
最后绿框部分为预览区域,点击visualize后可以在此区域对词云图进行预览,对于不满意的部分可以点击选择后进行编辑修改。
4.导入字体
因为wordart对于中文字体支持不友好,因此我们需要提前下载准备好字体后导入。在FONTS界面点击Add font按钮选择保存在本地的字体路径就可以导入中文字体了,此处我导入的是免费使用的方正黑体,导入后字体名称为“FZHei-B01S”。当然如果对于字体要求不高,网站自带的Noto Sans S Chinese字体也支持中文。
5.编辑关键词文本
点击WORDS进入关键词编辑界面如上图,编辑界面一共五栏从左到右依次为关键词、大小(词频)、颜色、角度、字体。其中Size代表了该关键词在云词图中的重要性,Size值越大关键词显示效果越大越突出,Size值相同的情况下排名靠前的关键词更凸显,因此也可以选择关键词后利用利用Up和Down按钮进行排序。点击Color后会弹出调色板,拖动选择该关键词的颜色。Angle栏的取值意味关键词逆时针旋转角度,若输入90则相当于关键词向左旋转90°。Font栏字体选项若关键词是中文,务必选择此前已导入的中文字体或者Noto Sans S Chinese字体,否则词云图会出现乱码。点击+Add按钮可以添加新的关键词录入栏。
本文关键词来源于腾讯《曾经的“黑色黄金”如今的烫手山芋 油价跌到负数不等于加油不要钱》(https://xw.qq.com/cmsid/20200421A0PF7200?f=newdc),利用词频统计工具对正文关键词分析得出,为便于制图统计已删除词频在4以下的关键词。左上角点击Import后将词频列表复制文本后粘贴到对话框,然后点击Import words一键导入(记得勾选CSV format选项)。
6.形状选择
点击SHAPES进入形状选择界面,侧边栏对于网站自带的可用词云图形状进行了分类,单击选中形状后,该形状图标右下角会出现绿色此轮按钮代表已选中该形状。当然,为了更好的契合主题,我们还可以点击左上角Add image来导入自定义图片,比如人物肖像以及地图等,在导入自定义图片时应该尽量选择矢量图,便于文字排版显示。
7.排列方式
点击LAYOUT进入关键词排列编辑界面,根据给出的预览效果来选择关键词在词云图中的排列方式。Words amount选项为词云图显示的总词数,如果显示数量大于关键词数量,则必然有部分关键词重复显示,一般建议选择Auto由系统自动匹配,如果词云图不能完全显示所有关键词,可以点击Keep as is选项,意为显示数量为关键词总数,每个关键词显示一次。在实际操作过程当中,如果关键词总数较少,为了美化效果,我们通常可以点击Define后拖动按钮调整显示数量,使词云图更加饱满美观。Density按钮调整的是关键词填充的疏密程度,数值越大越密,可以结合预览图自行调节。
8.词云图色彩设置
点击STYLE可以进入词云图风格设置编辑界面,虽然选项名称是STYLE,其实主要还是和色彩相关,从上到下共有6个调节选项。Word colors顾名思义是字体颜色,选择Shape则字体跟随形状颜色的纯色模式,整体较为统一但是关键词不凸显。选择Custom可以简单理解为字体撞色模式,点击Custom后的色彩栏可以自行添加或者删除字体颜色,由系统随机赋予已选择色彩范围内的颜色。下图为纯色模式和撞色模式的对比。
Color emphasis为字体颜色对比度,数值越大,低频关键词对比度越低,越凸显高频关键词。Backgroundcolor为整体背景颜色,点击色彩栏可以自行调节,点击Make transparent按钮可以选择透明背景,多用于需要将制作词云图作为图层设计时使用。Background image选项调节形状颜色透明度(即关键词填充区域背景色),数值越大背景色越明显。Animation speed选项调节鼠标悬停某一关键词时的动画效果显示时间,对应的勾选项分别为放大效果以及旋转效果,因为Wordart只能通过链接分享动画效果,不能生成GIF等动图因此该选项意义不大。Rollovertext color以及box color两个选项调节鼠标悬停关键词之后关键词的颜色以及背景色。
9.预览及调整
在网站屏幕右面的预览区域左上角点击Visualize按钮生成预览图,点击Edit按钮之后可以对关键词进行拖动移位及重新赋色等操作,点击Print可以进行打印。
10.保存及分享
点击菜单栏SAVE按钮可以将词云图保存至你的用户档案,点击SHARE可以分享带有动画效果的链接地址。(然而此功能属于付费内容,留下了贫穷的泪水。)点击DOWNLOAD可以将制作好的词云图进行导出,带有HQ标志的都是付费内容,免费用户只能导出标准分辨率的PNG和JPG图片,以及导出CSV格式的关键词表格,可以一键导入关键词编辑界面,然而此功能对于中文支持不够友好,导出的CSV文件关键词一栏是乱码,可以略过了。当然,如果不想注册或者没有注册成功的,可以直接在网站主页点击Create按钮进行制作,最后生成词云图之后用截图软件截图,虽然分辨率差点也可以将就用。
参考资料
[1]李俊. 大数据时代需要更多“词云”钥匙[J]. 中国, 2013, (04): .
[2]唐家渝;孙茂松. 新媒体中的词云:内容简明表达的一种可视化形式[J]. 中国传媒科技, 2013, (11): .
[3]紫竹.“词云”——网络内容发布新招式[EB/OL].http://media.people.com.cn/GB/22100/61748/61749/4281906.html,2006-4-7.
[4]小草莓.图表控必须收藏的几款词云可视化工具!
[EB/OL].https://www.sohu.com/a/111425881_400678,2016-08-21.