首页 > 编程语言 > R语言绘图-点图dot plot
2021
05-20

R语言绘图-点图dot plot

点图简介

点图又叫Cleveland dot plot,克利夫兰点图。可以在水平线上绘制大量的点,更好的表示点之间的关系。强调数据的排序展示以及数据之间的差距。

点图一般是横向展示,所以y轴为类别型变量,x轴为需要展示的数据值。

dotchart函数

dotchart(x, labels = NULL, groups = NULL, gdata = NULL,
         ann = par("ann"), xaxt = par("xaxt"), frame.plot = TRUE, log = "",
         cex = par("cex"), pt.cex = cex,
         pch = 21, gpch = 21, bg = par("bg"),
         color = par("fg"), gcolor = par("fg"), lcolor = "gray",
         xlim = range(x[is.finite(x)]),
         main = NULL, xlab = NULL, ylab = NULL, ...)

R语言的base包里面自带的dotchart函数可以绘制点图。

上面简介中的例子copy自dotchart的函数帮助文档。

dotchart(VADeaths, main = "Death Rates in Virginia - 1940")

数据是1940年每1000人的死亡率。数据按照年龄段来区分,并且按照地方,男女性分组。

> VADeaths
      Rural Male Rural Female Urban Male Urban Female
50-54       11.7          8.7       15.4          8.4
55-59       18.1         11.7       24.3         13.6
60-64       26.9         20.3       37.0         19.3
65-69       41.0         30.9       54.6         35.1
70-74       66.0         54.3       71.1         50.0

dot 比较图

我想比较特定地方的男女死亡率的比较。这样的话,数据需要处理。下面的code处理的比较麻烦。但是达到了我要的效果。

ruralDFMale <- data.frame(rownames(VADeaths),VADeaths[,1], c("Male","Male","Male","Male","Male"))
names(ruralDFMale ) <- c("AgeGroup", "DeathRate","Gender" )

ruralDFFeMale <- data.frame(rownames(VADeaths),VADeaths[,2], c("Female","Female","Female","Female","Female"))
names(ruralDFFeMale) <- c("AgeGroup", "DeathRate","Gender" )

ruralDF <- rbind(ruralDFMale, ruralDFFeMale)

colorFun <- function(gender) {
    colorVec <- vector()
    for(g in gender) {
        if(g == "Female") {
            colorVec <- c(colorVec, "Red")
        } else {
           colorVec <- c(colorVec, "Blue")
        }
    }
    colorVec 
}
dotchart(ruralDF$DeathRate, main = "Death Rates in Virginia - 1940", groups=ruralDF$AgeGroup,color=colorFun(ruralDF$Gender))

处理过后的数据

> ruralDF
       AgeGroup DeathRate Gender
50-54     50-54      11.7   Male
55-59     55-59      18.1   Male
60-64     60-64      26.9   Male
65-69     65-69      41.0   Male
70-74     70-74      66.0   Male
50-541    50-54       8.7 Female
55-591    55-59      11.7 Female
60-641    60-64      20.3 Female
65-691    65-69      30.9 Female
70-741    70-74      54.3 Female

图中的红色为女性,蓝色为男性。结果符合一般的常识,女性的寿命高于男性。所以同一年龄段的女性死亡率比男性低。

补充:R语言作图——violin plot(小提琴图)

小仙同学决定学习R语言来提升自己作图的“逼格”的时候,心中还有有些疑虑的(嘿嘿,我这么懒,可不愿意做无用功了?)。仔细想了想,貌似又找到了两个学习R的理由。

一是R可以帮助我们避免重复劳动,实现“一劳永逸”的终极梦想。尽管非常不想承认这一事实,在科研的过程中,小仙同学制造出了大量“无效”的数据(sign…),但也不得不“绞尽脑汁”、“竭尽全力”地进行花式分析,试图找出合理的解释。这时候用Excel或者Origin作图的劣势就显现出来了,每换一种分析方法或者是数据,我们都需要经过“插入图表”、“调整颜色”、“调整间距”等等繁杂的工序画出一张可以拿去“面圣”的图。小仙同学一想到这些就感觉“累觉不爱”了。

二是R可以自动生成比较貌美的图。不知道大家有没有这样的感受,自己辛辛苦苦画了半天、调整的半天的图会得到真实却很残忍的评价“很丑”(这是小仙同学心中永远的痛)。即使本小仙自以为眼光独特、品味高雅,费劲尝试“高级”的色系,但搭配出来总是那么不尽人意(实测网红晚晚带火的“莫兰迪色”不适用于科研绘图)。颜色的搭配、饱和度和透明度的调整没有想象中那么容易。折腾了半天,天生就爱不服气的本小仙,最后决定还是把专业的事交给专业的人做啦(偷偷告诉你,据说有科学家专门研究paper插图的配色,所以自己画的图没有那么貌美的时候也不要“妄自菲薄”啦)。

好了,叨叨这么多,终于要开始进入正题啦。一开始用R绘图的时候,小仙同学其实是非常痛苦的,因为没有编程基础,又怼了好几年瓶瓶罐罐,看到一行行代码,脑子里飘过的全是“&%¥#@¥$”。尤其是当你有实验要做、报告要写、作业要交的时候,平心静气地坐下来踏踏实实学习真的太难了(有人说小仙同学那么忙是因为效率低,好像真有些道理,我这真是“唉”,有苦说不出)。

后来本小仙的学习策略就非常简单,用到啥就去搜啥,我对数据结构、语法结构一点都不感兴趣,能让我用最短的时间内画出我想要的图,就是最好的方法。即使这样,小仙同学还是费了一些功夫。因为网上的一些教程,很多都是从别处复制粘贴过来的,本身就不完整。另外一个原因,某些大神觉得自己的教程已经足够通俗易懂了,有些大家都知道的基础知识根本不需要讲(小仙同学不服,有基础的同学不用看教程也可以自己摸索出来,真正需要教程的就是我们这些小白)。

小仙同学愿意尝试一下,把最最全面、稍作修改就能拿去的方法code分享一下,也不枉费花了那么多的时间。

那就先从violin plot开始吧。

(假设你已经安装了R和RStudio)

Step1. 绘图数据的准备

首先要把你想要绘图的数据调整成R语言可以识别的格式。

一般我们的数据都是保存在excel文档里,这里建议大家在excel中保存成csv格式,读写的速度会比xlsx快很多。(小仙同学的亲身经验,我的有些数据有两万行,xlsx在我的耐心范围内读不进去,RStudio崩溃)。

数据的格式如下图:一列表示一种变量,第一行是列名

数据格式

Step2. 绘图数据的读取

data<-read.csv(“your file path”, header = T) #注释:header=T表示数据中

的第一行是列名,如果没有列名就用header=F

Step3.绘图所需package的安装、调用

install.package(“ggplot2”) #注释:ggplot2是目前公认绘图很强的一个安装包
library(ggplot2) #注释:package在使用之前需要调用

Step4.绘图

data$dose <- as.factor(data$dose) #注释:此处dose可用你的变量名称替换,$表示取数据集里的某一个元素

p<-ggplot(data, aes(x = dose, y = len)) #注释:”x=”,”y=”表示x轴和y轴表示的变量数值,p表示图像对象
p+geom_violin() #注释:画出violin plot的函数

Step5.美化

p+geom_violin(aes(fill = dose)) #注释:按组别填充不同的颜色

*如果你想手动改变颜色,可以使用这一句

p+geom_violin(aes(fill = “dose”))+scale_fill_manual(values=c("#56B4E9"))
#注释:”#56B4E9”可以用其他颜色的代码来替换

以上为个人经验,希望能给大家一个参考,也希望大家多多支持自学编程网。如有错误或未考虑完全的地方,望不吝赐教。

编程技巧