202203-01 R语言实现广义线性回归模型 目录1与广义线性模型有关的R函数2正态分布族3二项分布族例 R.Norell实验广义线性模型(GLM)是常见正态线性模型的直接推广,它可以适用于连续数据和离散数据,特别是后者,如属性数据、计数数据。这在应用上,尤其是生物、医学、经济和社会数据的统计分析上,有着重要意义。对于广义线性模型应有一下三个概念:第一是线性自变量,它表明第i个响应变量的期望值E(yi)只能通过线性自变量βTxi而依赖于xi,其中如通常一... 继续阅读 >
202202-28 R语言实现岭回归的示例代码 岭参数的一般选择原则选择k(或lambda)值,使得:各回归系数的岭估计基本稳定用最小二乘估计时符号不合理的回归系数,其岭回归的符号变得合理回归系数没有不合乎实际意义的绝对值残差平方和增大的不多用R语言进行岭回归这里使用MASS包中的longley数据集,进行岭回归分析(longley数据集中的变量具有显著的多重共线性)。从而分析使用岭回归进行多重共线性的解决。首相将longley数据集中的第一列数据命名为“y... 继续阅读 >
202202-26 详解R语言实现前向逐步回归(前向选择模型) 目录前向逐步回归原理数据导入并分组导入数据特征与标签分开存放前向逐步回归构建输出特征集合从空开始一次创建属性列表模型效果评估前向逐步回归原理前向逐步回归的过程是:遍历属性的一列子集,选择使模型效果最好的那一列属性。接着寻找与其组合效果最好的第二列属性,而不是遍历所有的两列子集。以此类推,每次遍历时,子集都包含上一次遍历得到的最优子集。这样,每次遍历都会选择一个新的属性添加到特征集合中,直至特征集合... 继续阅读 >
202202-26 R语言与多元线性回归分析计算案例 目录计算实例分析模型的进一步分析计算实例例6.9某大型牙膏制造企业为了更好地拓展产品市场,有效地管理库存,公司董事会要求销售部门根据市场调查,找出公司生产的牙膏销售量与销售价格,广告投入等之间的关系,从而预测出在不同价格和广告费用下销售量。为此,销售部门的研究人员收集了过去30个销售周期(每个销售周期为4周)公司生产的牙膏的销售量、销售价格、投入的广告费用,以及周期其他厂家生产同类牙膏的市场平均销售价... 继续阅读 >
202109-30 R语言的Dataframe常用操作使用 上节我们简单介绍了Dataframe的定义,这节我们具体来看一下Dataframe的操作首先,数据框的创建函数为data.frame(),参考R语言的帮助文档,我们来了解一下data.frame()的具体用法:Usagedata.frame(...,row.names=NULL,check.rows=FALSE,check.names=TRUE,fix.empty.names=TRUE,stringsAsFactors=default.stringsAsFactors())default.stringsAsFactors()Arguments...:theseargumentsareo... 继续阅读 >
202107-09 R语言常见面试题整理 尊敬的读者,这些R语言面试题是专门设计的,以便您应对在R语言相关面试中可能会被问到的问题。根据我的经验,良好的面试官几乎不打算在你的面试中问任何特定的问题,通常都是以如下的问题为开端进一步展开后继的问题。什么是R语言编程?R语言是一种用于统计分析和为此目的创建图形的编程语言。不是数据类型,它具有用于计算的数据对象。它用于数据挖掘,回归分析,概率估计等领域,使用其中可用的许多软件包。R语言中的不同数据对... 继续阅读 >
202107-04 R语言关于卡方检验实例详解 卡方检验是一种确定两个分类变量之间是否存在显着相关性的统计方法。这两个变量应该来自相同的人口,他们应该是类似是/否,男/女,红/绿等。例如,我们可以建立一个观察人们的冰淇淋购买模式的数据集,并尝试将一个人的性别与他们喜欢的冰淇淋的味道相关联。如果发现相关性,我们可以通过了解访问的人的性别的数量来计划适当的味道库存。语法用于执行卡方检验的函数是chisq.test()。在R语言中创建卡方检验的基本语法是chisq.tes... 继续阅读 >
202107-02 R语言关于生存分析知识点总结 生存分析处理预测特定事件将要发生的时间。它也被称为故障时间分析或分析死亡时间。例如,预测患有癌症的人将存活的天数或预测机械系统将失败的时间。命名为survival的R语言包用于进行生存分析。此包包含函数Surv(),它将输入数据作为R语言公式,并在选择的变量中创建一个生存对象用于分析。然后我们使用函数survfit()创建一个分析图。安装软件包install.packages("survival")语法在R语言中创建生存分析的基本语法是Surv(tim... 继续阅读 >
202107-01 R语言关于随机森林算法的知识点详解 在随机森林方法中,创建大量的决策树。每个观察被馈入每个决策树。每个观察的最常见的结果被用作最终输出。新的观察结果被馈入所有的树并且对每个分类模型取多数投票。对构建树时未使用的情况进行错误估计。这称为OOB(袋外)误差估计,其被提及为百分比。R语言包“randomForest”用于创建随机森林。安装R包在R语言控制台中使用以下命令安装软件包。您还必须安装相关软件包(如果有)。install.packages("randomForest")包“r... 继续阅读 >
202106-23 R语言关于决策树知识点总结 决策树是以树的形式表示选择及其结果的图。图中的节点表示事件或选择,并且图的边缘表示决策规则或条件。它主要用于使用R的机器学习和数据挖掘应用程序。决策树的使用的例子是预测电子邮件是垃圾邮件或非垃圾邮件,预测肿瘤癌变,或者基于这些因素预测贷款的信用风险。通常,使用观测数据(也称为训练数据)来创建模型。然后使用一组验证数据来验证和改进模型。R具有用于创建和可视化决策树的包。对于新的预测变量集合,我们使用... 继续阅读 >
202106-23 R语言关于非线性最小二乘的知识点实例 当模拟真实世界数据用于回归分析时,我们观察到,很少情况下,模型的方程是给出线性图的线性方程。大多数时候,真实世界数据模型的方程涉及更高程度的数学函数,如3的指数或sin函数。在这种情况下,模型的图给出了曲线而不是线。线性和非线性回归的目的是调整模型参数的值,以找到最接近您的数据的线或曲线。在找到这些值时,我们将能够以良好的精确度估计响应变量。在最小二乘回归中,我们建立了一个回归模型,其中来自回归曲线的... 继续阅读 >
202106-23 R语言中时间序列分析浅析 时间序列是将统一统计值按照时间发生的先后顺序来进行排列,时间序列分析的主要目的是根据已有数据对未来进行预测。一个稳定的时间序列中常常包含两个部分,那么就是:有规律的时间序列+噪声。所以,在以下的方法中,主要的目的就是去过滤噪声值,让我们的时间序列更加的有分析意义。语法时间序列分析中ts()函数的基本语法是timeseries.object.name<-ts(data,start,end,frequency)以下是所使用的参数的描述 data是... 继续阅读 >
202106-23 R语言关于协方差分析实例分析 我们使用回归分析创建模型,描述变量在预测变量对响应变量的影响。有时,如果我们有一个类别变量,如Yes/No或Male/Female等。简单的回归分析为分类变量的每个值提供多个结果。在这种情况下,我们可以通过将分类变量与预测变量一起使用并比较分类变量的每个级别的回归线来研究分类变量的效果。这样的分析被称为协方差分析,也称为ANCOVA。例考虑在数据集mtcars中内置的R语言。在其中我们观察到字段“am”表示传输的类型(自... 继续阅读 >
202106-23 R语言关于泊松回归知识点总结 泊松回归(英语:Poissonregression)包括回归模型,其中响应变量是计数而不是分数的形式。 例如,足球比赛系列中的出生次数或胜利次数。此外,响应变量的值遵循泊松分布。泊松回归的一般数学方程为log(y)=a+b1x1+b2x2+bnxn.....以下是所使用的参数的描述 y是响应变量。a和b是数字系数。x是预测变量。用于创建泊松回归模型的函数是... 继续阅读 >
202106-19 R语言关于二项分布知识点总结 二项分布模型处理在一系列实验中仅发现两个可能结果的事件的成功概率。例如,掷硬币总是给出头或尾。在二项分布期间估计在10次重复抛掷硬币中精确找到3个头的概率。R语言有四个内置函数来生成二项分布。它们描述如下。dbinom(x,size,prob)pbinom(x,size,prob)qbinom(p,size,prob)rbinom(n,size,prob)以下是所使用的参数的描述 x是数字的向量。p是概率向量。n是观察的数量。size是试验的数量。... 继续阅读 >
202106-19 R语言中逻辑回归知识点总结 逻辑回归是回归模型,其中响应变量(因变量)具有诸如True/False或0/1的分类值。它实际上基于将其与预测变量相关的数学方程测量二元响应的概率作为响应变量的值。逻辑回归的一般数学方程为y=1/(1+e^-(a+b1x1+b2x2+b3x3+...))以下是所使用的参数的描述 y是响应变量。x是预测变量。a和b是作为数字常数的系数。用于创建回归模型的函数是glm()函数。语法逻辑回归中glm()函数的基本语法是glm(formula,data,family... 继续阅读 >