202105-20 R语言中文本文件分割 符号 sep的用法 一般情况下:csv文件sep=“,”#以逗号分割txt文件sep=“\t”#以制表符分割其他文件sep=""#以空格分割具体情况,具体调整sep=文件中的字段分离符,用于文件数据文本的读取和保存过程中指定分割符号。补充:用R语言把超大文本文件拆分成几个小文本文件近一段时间一直在研究一些医院的数据。前两天遇到一个尴尬:想打开一个仅有3G左右的文本文件(有时候必须要打开,直接传到数据库满足不了需求),破电脑(4G内存的... 继续阅读 >
202105-20 R语言ggplot2之图例的设置 引言图例的设置包括移除图例、改变图例的位置、改变标签的顺序、改变图例的标题等。移除图例有时候你想移除图例,使用guides()。library(ggplot2)p<-ggplot(PlantGrowth,aes(x=group,y=weight,fill=group))+geom_boxplot()p+guides(fill=FALSE)改变图例的位置我们可以用theme(legend.position=…)将图例移到图表的上方、下方、左边和右边。p<-ggplot(PlantGrowth,aes(x=group,y=weight,fill=group))+geom_boxplot... 继续阅读 >
202105-20 R语言-解决处理矩阵遇到内存不足的问题 如下:Error:cannotallocatevectorofsizeXGb类似于这种问题的可能处理办法:1.可以用matrix尽量不要用dataframe;2.可以用integermatrix尽量不要用doublematrix;3.对于大量运算后最好加上一个gc(),强制R语言回收内存;4.对于大矩阵而言用bigmemory包,可以将大矩阵放到临时文件中,不占用内存。补充:R语言之内存管理在处理大型数据过程中,R语言的内存管理就显得十分重要,以下介绍几种常用的处理方法。1,设置软... 继续阅读 >
202105-20 R语言:数据筛选match的使用详解 数据筛选是在分析中最常用的步骤,如微生物组分析中,你的OTU表、实验设计、物种注释之间都要不断筛选,来进行数据对齐,或局部分析。今天来详解一下此函数的用法。matchmatch:匹配两个向量,返回x中存在的返回索引或TRUE、FALSEmatch函数使用格式有如下两种:第一种方便设置参数,返回x中元素在table中的位置match(x,table,nomatch=NA_integer_,incomparables=NULL)第二种简洁,返回x中每个元素在table中是否存在x%in%ta... 继续阅读 >
202105-20 R语言中assign函数和get函数的用法 assign函数在循环时候,给变量赋值,算是比较方便1、给变量赋值for(iin1:(length(rowSeq)-1)){assign(paste("nginx_server_fields7_",i,sep=""),nginx_server_fields7[(rowSeq[(i-1)+1]):(rowSeq[i+1]),])}2、通过for循环给变量a1、a2、a3赋值for(iin1:3){assign(paste("a",i,sep=""),i:10)}ls()[1]"a1""a2""a3""i">a1[1]12345678910>a2[1]23456789103、get和a... 继续阅读 >
202105-20 基于R语言赋值符号的区别说明 R语言赋值可以用=或<-,一般都建议使用<-,那你知道这两个之间的区间吗?那你有没有见过‘<-'和‘='这种赋值方法吗?今天就来和大家聊聊这基本的赋值符号都有哪些区别。首先我们来看看符号的优先级,和java,c这些编程语言的优先级类似。下面这些都取自R帮助文档,输入?Syntax即可查看,它是根据优先级从高到低排列的。:::::accessvariablesinanamespace$@component/slotextraction[[[indexing^expon... 继续阅读 >
202105-20 R语言中c()函数与paste()函数的区别说明 c()函数:将括号中的元素连接起来,并不创建向量paste()函数:连接括号中的元素例如c(1,2:4),结果为1234paste(1,2:4),结果为“12”“13”“14”c(2,"and"),结果为“2”“and”paste(2,"and"),结果为“2and”补充:R语言中paste函数的参数sep和collapse详解R语言用于拼接字符串的函数主要有两个:paste(...,sep="",collapse=NULL)paste0(...,collapse=NULL)其中paste0函数式paste函数的缩减版本,少了... 继续阅读 >
202105-20 R语言-有负下标里才能有零介绍 1、只有负下标里才能有零先看一个例子>a<-c(1,2,3,4)>a[-1:1]>a[-1:1]Errorina[-1:1]:只有负下标里才能有零(1)只有负下标里才能有零,在这里的意思为:a[-1:0]可行a[0:4]也可行a[-1:1]不可行也就是说要么是负索引到0,或者0到正索引,但不能同时出现正负索引。(2)a[0]结果为numberic(0),结果没有意义,如>a[0]+10.9numeric(0)>a[1]+10.9[1]11.9索引为0,不会得到正确的结果,但不会报错。2、容易混淆的例子>a<-c(1,2... 继续阅读 >
202105-20 R语言向量下标操作 向量下标即元素在向量中的位置,在实践中我们可以利用下标(元素的位置)来找出自己想要的数。利用runif函数生成包含10个正整数的向量x。options(digits=1)set.seed(1234)x<-runif(10,min=1,max=20)x[1]31313131713151411正整数下标我们可以输入正整数作为下标来找出对应位置的元素。在[]内输入下标。#向量x的第一位置的元素x[1][1]3#向量x的第2位置的元素x[2][1]13x[0]numeric(0)与其他编程语言不一样(下标... 继续阅读 >
202105-20 R语言通过parallel包实现多线程运行方式 总的来说,R的运算速度不算快,不过类似并行运算之类的改进可以提高运算的性能。下面非常简要地介绍如何利用R语言进行并行运算library(parallel)cl.cores<-detectCores()cl<-makeCluster(cl.cores)detectCores()检查当前电脑可用核数。makeCluster(cl.cores)使用刚才检测的核并行运算。R-Doc里这样描述makeCluster函数:CreatesasetofcopiesofRrunninginparallelandcommunicatingoversockets.即同时创建数个R进... 继续阅读 >
202105-20 在R语言中实现Logistic逻辑回归的操作 逻辑回归是拟合回归曲线的方法,当y是分类变量时,y=f(x)。典型的使用这种模式被预测Ÿ给定一组预测的X。预测因子可以是连续的,分类的或两者的混合。R中的逻辑回归实现R可以很容易地拟合逻辑回归模型。要调用的函数是glm(),拟合过程与线性回归中使用的过程没有太大差别。在这篇文章中,我将拟合一个二元逻辑回归模型并解释每一步。数据集我们将研究泰坦尼克号数据集。这个数据集有不同版本可以在线免费获得,但我建议使... 继续阅读 >
202105-20 R语言多线程运算操作(解决R循环慢的问题) 已经大半年没有更新博客了。。最近都跑去写分析报告半年没有R这次记录下关于R循环(百万级以上)死慢死慢的问题,这个问题去年就碰到过,当时也尝试过多线程,butfailed......昨天试了下,终于跑通了,而且过程还挺顺利step1先查下自己电脑几核的,n核貌似应该选跑n个线程,线程不是越多越好,线程个数和任务运行时间是条开口向下的抛物线,最高点预计在电脑的核数上。detectCores()检查当前电脑可用核数我的是4所以step2选的是... 继续阅读 >
202105-20 R语言-summary()函数的用法解读 summary():获取描述性统计量,可以提供最小值、最大值、四分位数和数值型变量的均值,以及因子向量和逻辑型向量的频数统计等。结果解读如下:1.调用:Calllm(formula=DstValue~Month+RecentVal1+RecentVal4+RecentVal6+RecentVal8+RecentVal12,data=trainData)当创建模型时,以上代码表明lm是如何被调用的。2.残差统计量:ResidualsMin1QMedian3QMax... 继续阅读 >
202105-20 R语言中cut()函数的用法说明 R语言cut()函数使用cut()切割将x的范围划分为时间间隔,并根据其所处的时间间隔对x中的值进行编码。参数:breaks:两个或更多个唯一切割点或单个数字(大于或等于2)的数字向量,给出x被切割的间隔的个数。breaks采用fivenum():返回五个数据:最小值、下四分位数、中位数、上四分位数、最大值。labels为区间数,打标签ordered_result逻辑结果应该是一个有序的因素吗?先用fivenum求出5个数,再用labels为每两个数之间,贴标签,采... 继续阅读 >
202105-20 R语言:排序的应用操作 工作中遇到过许多看起来挺复杂的数据筛选,本质上都可以用排序解决,这里以R自带的mtcar数据集为例做一个记录。首先简单介绍一下mtcar数据集,mtcar(MotorTrendCarRoadTests)是一个32行11列的数据集,记录了32种汽车的11种性能,具体数据如下:>mtcarsmpgcyldisphpdratwtqsecvsamgearcarbMazdaRX421.06160.01103.902.62016.460144MazdaRX4Wag... 继续阅读 >
202105-20 R语言-如何按照某一列分组求均值 主要介绍tapply函数:每次只能求一列aggregate函数:每次按组可以求多列tapply(shuju[shuju[,3],shuju$year,mean)以年份为组,求shuju表第三列的均值aggregate(shuju[,3:4],list(shuju[,2]),mean)以年份为均值,求数据表第三列,第四列的均值补充:R语言按某一列分类求均值+绘图总结看代码吧~D<-aggregate(.~K,data=data1,mean)#求数据集data1按照K分类后所有列的均值rm(list=ls())#删除所有对象attach()#锁定某个对象with(... 继续阅读 >