作者:wan乄etsnyd | 来源:互联网 | 2023-07-03 13:37
聚类热图是生物医学论文中最常见的一类图。通常,一篇研究癌症预后、突变等类型的文章最终都会聚焦到几个或者十几个基因,然后利用这些基因的表达量绘制热图,并尽可能多地在图中展示样品的临床信息,例如TNM(Tumor Node Metastasis)分期、stage、性别、年龄、riskscore等。这时,我们需要在常规热图的基础上,根据某一变量(例如riskscore从小到大)对样品进行排序,然后在热图的顶部添加不同的颜色条,用来表示额外的分组信息,并对颜色条中的颜色块进行标注说明。作为文章中的一个结论性图片在不同维度上汇总和展示所有相关信息。
发文tips:“石韫玉而山辉,水怀珠而川媚”。故事需要主人公,文章需要聚焦点。聚焦到某些具体的基因、通路、marker等,而不是笼统地说,找到多少个差异。
图1. 多分组临床聚类热图
该图由顶部的不同分类/组,左侧的聚类树、中间主图的颜色块矩阵,右侧的基因名,colorbar和组说明等元素构成。
1,打开绘图页面
首先,使用浏览器(推荐chrome或者edge)打开聚类热图绘制页面。左侧为常见作图导航,中间为数据输入框和可选参数,右侧为描述和结果示例。也可以在主页搜索框中搜索heatmap,找到绘图页面。
微生信-在线绘制多分类临床聚类热图(clinical heatmap)
图2.可视化绘图页面
2,示例数据
点击右侧“示例数据”链接下载excel格式的示例数据。
示例数据(仅供参考)的输入包括两个:
1) 基因表达矩阵
行是基因,列是样品。或者其他矩阵形式的数据,例如,基因甲基化程度、免疫细胞占比等。
图3.输入数据1:表达矩阵
2)样品分组信息
样品对应的分组或者数值信息。样品顺序与表达矩阵对应。第一列是分组或者数值信息的标志:category表示这一行对应的是分组变量,例如TNM分期;number表示这一行对应的是数值信息,例如riskscore。第二列是描述信息,表示这一行是什么内容(名字请勿使用特殊符号详见实验送样、数据分析样品、组名命名规范)。默认分组变量绘制在一起,数值变量绘制在一起。预设了6个分组类型数据,2个数值型数据。
图4.输入数据2:分组信息
由于category类型的颜色块是离散的,而数值类型的颜色是渐变的。所以需要在输入数据2中指定类型。
注意:需要参考示例数据,在excel中将自己的数据整理成示例数据的样式,每个cell都需要有,表达值不能为空或者NA。
3,粘贴示例数据
由于必需输入有2个,因此需要分别拷贝后,粘贴到相应的输入框中。第1个输入框粘贴表达矩阵,第2个输入框粘贴分组信息。
图5. 2个必需输入输入框
注意:不是拷贝excel文件,是拷贝excel文件里边的数据。另外粘贴到输入框后,格式乱了没关系,只要在excel中是整齐的就行。并且数据矩阵中不能有空的单元格,中文字符等。一般这个数据比较小,不提供上传按钮。
4,修改参数,并提交
我们设置了图片尺寸、文字大小、颜色、聚类方法、字体等参数,基本能满足日常绘图使用。分类颜色选项中,我们提供了完全自定义的颜色,让你实现色彩搭配自由。如需更高级的定制,请联系我们。
图6.颜色、字体等可调参数
5,提交出图
粘贴好输入数据,调整好参数(或者全部默认)后,点击提交按钮,几秒钟后,会在页面右侧出现预览图。我们提供了4种图片格式供下载,两种矢量图(pdf,svg)和两种标量图(600 dpi tiff和300 dpi png)。
图7.预览与下载
热图说明:
- 由于热图参数众多,这里仅设置了一些常用参数
- 一般列不聚类
- 由于聚类,所以行的顺序会改变
- 参考ComplexHeatmap绘制
没有预览就没有出图,这时请参考示例数据,检查自己输入数据的格式。
遇到文字截断,需要修改字体、调整字体大小等,请参考
科研作图实操:用inkscape编辑svg矢量图。
微生信助力高分文章,用户60000+,引用760+