函数篇 – 第10页

Excel 应用RSQ函数计算Pearson乘积矩相关系数的平方

RSQ函数用于根据known_y’s和known_x’s中数据点计算得出的Pearson乘积矩相关系数的平方。R平方值可以解释为y方差与x方差的比例。RSQ函数的语法如下。

RSQ(known_y's,known_x's)

其中参数known_y’s为因变量数组或数据点区域。known_x’s为自变量数组或数据点区域。

典型案例

已知一组x值和y值，计算Pearson乘积矩相关系数的平方。基础数据如图16-137所示。

步骤1：打开例子工作簿“RSQ.xlsx”。

步骤2：在单元格A10中输入公式“=RSQ（A2：A8，B2：B8）”，用于根据以上数据点计算得出的Pearson乘积矩相关系数的平方。计算结果如图16-138所示。

图16-137　基础数据

图16-138　计算结果

使用指南

参数可以是数字或者是包含数字的名称、数组或引用。逻辑值和直接键入到参数列表中代表数字的文本被计算在内。如果数组或引用参数包含文本、逻辑值或空白单元格，则这些值将被忽略，但包含零值的单元格将计算在内。如果参数为错误值或为不能转换成数字的文本，将会导致错误；如果known_y’s和known_x’s为空或其数据点个数不同，函数RSQ返回错误值“#N/A”；如果known_y’s和known_x’s函数只包含1个数据点，则RSQ函数返回错误值“#DIV/0！”。Pearson乘积矩相关系数r的计算公式如下。

其中X和Y是样本平均值AVERAGE（known_x’s）和AVERAGE（known_y’s）。RSQ返回r²，即相关系数的平方。

Excel 应用PEARSON函数计算Pearson乘积矩相关系数

PEARSON函数用于返回Pearson（皮尔森）乘积矩相关系数r，这是一个范围在-1.0到1.0之间（包括-1.0和1.0）的无量纲指数，反映了两个数据集合之间的线性相关程度。PEARSON函数的语法如下。

PEARSON(array1,array2)

其中参数array1为自变量集合，array2为因变量集合。

典型案例

已知一组自变量值和因变量值，计算数据集的Pearson乘积矩相关系数。基础数据如图16-135所示。

步骤1：打开例子工作簿“PEARSON.xlsx”。

步骤2：在单元格A8中输入公式“=PEARSON（A2：A6，B2：B6）”，计算结果如图16-136所示。

图16-135　基础数据

图16-136　计算结果

使用指南

参数可以是数字，或者是包含数字的名称、数组常量或引用。如果数组或引用参数包含文本、逻辑值或空白单元格，则这些值将被忽略，但包含零值的单元格将计算在内。如果array1和array2为空或其数据点个数不同，函数PEARSON返回错误值“#N/A”。Pearson乘积矩相关系数r的公式如下。

其中X和Y是样本平均值AVERAGE（array1）和AVERAGE（array2）。

Excel 应用TRIMMEAN函数计算数据集的内部平均值

TRIMMEAN函数用于计算数据集的内部平均值。函数TRIMMEAN先从数据集的头部和尾部除去一定百分比的数据点，然后再求平均值。当希望在分析中剔除一部分数据的计算时，可以使用此函数。TRIMMEAN函数的语法如下。

TRIMMEAN(array,percent)

其中参数array为需要进行整理并求平均值的数组或数值区域，percent为计算时所要除去的数据点的比例。例如，如果percent=0.2，在20个数据点的集合中，就要除去4个数据点（20×0.2）：头部除去2个，尾部除去2个。

典型案例

已知一组数据，计算其内部平均值。基础数据如图16-133所示。

步骤1：打开例子工作簿“TRIMMEAN.xlsx”。

步骤2：在单元格A14中输入公式“=TRIMMEAN（A2：A12，0.2）”，用于计算数据集的内部平均值（从计算中除去20%）。计算结果如图16-134所示。

图16-133　基础数据

图16-134　计算结果

使用指南

如果percent<0或percent>1，函数TRIMMEAN返回错误值“#NUM！”。函数TRIMMEAN将除去的数据点数目向下舍入为最接近的2的倍数。例如，如果percent=0.1，30个数据点的10%等于3个数据点。函数TRIMMEAN将会把除去的数据点数目向下舍入为2，并对称地在数据集的头部和尾部各除去一个数据。

Excel 应用RANK函数计算一个数字在数字列表中的排位

RANK函数用于计算一个数字在数字列表中的排位。数字的排位是其大小与列表中其他值的比值（如果列表已排过序，则数字的排位就是它当前的位置）。RANK函数的语法如下。

RANK(number,ref,order)

其中参数number为需要找到排位的数字。ref为数字列表数组或对数字列表的引用，其中的非数值型参数将被忽略。order为一数字，指明排位的方式。如果order为0（零）或省略，Excel对数字的排位是基于ref为按照降序排列的列表；如果order不为零，Excel对数字的排位是基于ref为按照升序排列的列表。

典型案例

已知一组数据，计算指定数值在数据集中的排位。基础数据如图16-131所示。

步骤1：打开例子工作簿“RANK.xlsx”。

步骤2：在单元格A8中输入公式“=RANK（A3，A2：A6，1）”，用于计算5.8在上表中的排位。

步骤3：在单元格A9中输入公式“=RANK（A2，A2：A6，1）”，用于计算11.6在上表中的排位。计算结果如图16-132所示。

图16-131　基础数据

图16-132　计算结果

使用指南

1）函数RANK对重复数的排位相同。但重复数的存在将影响后续数值的排位。例如，在一列按升序排列的整数中，如果整数10出现两次，其排位为5，则11的排位为7（没有排位为6的数值）。

2）由于某些原因，用户可能使用考虑重复数字的排位定义。在前面的示例中，用户可能要将整数10的排位改为5.5。这可通过将下列修正因素添加到按排位返回的值来实现。该修正因素对于按照升序计算排位（顺序为非零值）或按照降序计算排位（顺序为0或被忽略）的情况都是正确的。

3）重复数排位的修正因素=[COUNT（ref）+1–RANK（number，ref，0）–RANK（number，ref，1）]÷2。

4）在上面的示例中，RANK（A2，A1：A5，1）等于3。修正因素是（5+1–2–3）÷2=0.5，考虑重复数排位的修改排位是3+0.5=3.5。如果数字仅在ref出现一次，由于不必调整RANK，因此修正因素为0。

Excel 应用QUARTILE函数计算数据集的四分位数

QUARTILE函数用于计算数据集的四分位数。四分位数通常用于在销售额和测量数据中对总体进行分组。例如，我们可以使用函数QUARTILE求得总体收入中前25%的收入值。QUARTILE函数的语法如下。

QUARTILE(array,quart)

其中参数array为需要求得四分位数值的数组或数字型单元格区域，quart用于决定返回哪一个四分位值。

典型案例

已知一组数据，计算第一个四分位数，即第25个百分点值。基础数据如图16-129所示。

步骤1：打开例子工作簿“QUARTILE.xlsx”。

步骤2：在单元格A11中输入公式“=QUARTILE（A2：A9，1）”，用于计算第一个四分位数。计算结果如图16-130所示。

图16-129　基础数据

图16-130　计算结果

使用指南

如果数组为空，函数QUARTILE返回错误值“#NUM！”；如果quart不为整数，将被截尾取整；如果quart<0或quart>4，函数QUARTILE返回错误值“#NUM！”。当quart分别等于0、2和4时，函数MIN、MEDIAN和MAX返回的值与函数QUARTILE返回的值相同。

Excel 应用PERCENTRANK函数计算数据集中值的百分比排位

PERCENTRANK函数用于计算特定数值在一个数据集中的百分比排位。此函数可用于查看特定数据在数据集中所处的位置。例如，可以使用函数PERCENTRANK计算某个特定的能力测试得分在所有的能力测试得分中的位置。PERCENTRANK函数的语法如下。

PERCENTRANK(array,x,significance)

其中参数array为定义相对位置的数组或数字区域，x为数组中需要得到其排位的值。significance为可选项，表示返回的百分数值的有效位数。如果省略，函数PERCENTRANK保留3位小数。

典型案例

已知一组数据列表，计算指定的数字在列表中的百分比排位。基础数据如图16-127所示。

步骤1：打开例子工作簿“PERCENTRANK.xlsx”。

步骤2：在单元格A13中输入公式“=PERCENTRANK（A2：A11，9）”，用于计算9在上面数据列表中的百分比排位，结果为0.444，因为该数据集中小于9的值有4个，而大于9的值有5个，因此9在上面数据列表中百分比排位为4/（4+5），即0.444。

步骤3：在单元格A14中输入公式“=PERCENTRANK（A2：A11，8）”，用于计算8在上面数据列表中的百分比排位。

步骤4：在单元格A15中输入公式“=PERCENTRANK（A2：A11，11）”，用于计算11在上面数据列表中的百分比排位。

步骤5：在单元格A16中输入公式“=PERCENTRANK（A2：A11，25）”，用于计算“25”在上面数据列表中的百分比排位。计算结果如图16-128所示。

图16-127　基础数据

图16-128　计算结果

使用指南

如果数组为空，函数PERCENTRANK返回错误值#NUM！；如果significance＜1，函数PERCENTRANK返回错误值#NUM！；如果数组里没有与x相匹配的值，函数PERCENTRANK将进行插值以返回正确的百分比排位。

Excel 应用KURT函数计算数据集的峰值

KURT函数用于返回数据集的峰值。峰值反映与正态分布相比某一分布的尖锐度或平坦度。正峰值表示相对尖锐的分布。负峰值表示相对平坦的分布。KURT函数的语法如下。

KURT(number1,number2,...)

其中参数number1，number2，…是用于计算峰值的1到255个参数。对于参数的表示也可以不用这种用逗号分隔参数的形式，而用单个数组或对数组的引用。

典型案例

已知一组数据，计算数据集的峰值。基础数据如图16-125所示。

步骤1：打开例子工作簿“KURT.xlsx”。

步骤2：在单元格A13中输入公式“=KURT（A2：A11）”，用于计算给定数据集的峰值。计算结果如图16-126所示。

图16-125　基础数据

图16-126　计算结果

使用指南

参数可以是数字或者是包含数字的名称、数组或引用，逻辑值和直接键入到参数列表中代表数字的文本被计算在内。如果数组或引用参数包含文本、逻辑值或空白单元格，则这些值将被忽略，但包含零值的单元格将计算在内。如果参数为错误值或为不能转换为数字的文本，将会导致错误；如果数据点少于4个，或样本标准偏差等于0，函数KURT返回错误值“#DIV/0！”。峰值的计算公式如下：

s为样本的标准偏差。

Excel 应用CORREL函数计算两个数据集之间的相关系数

CORREL函数用于计算单元格区域array1和array2之间的相关系数。使用相关系数可以确定两种属性之间的关系。例如，可以检测某地的平均温度和空调使用情况之间的关系。CORREL函数的语法如下。

CORREL(array1,array2)

其中参数array1为第一组数值单元格区域，array2为第二组数值单元格区域。

典型案例

已知数据区域1和数据区域2，计算两个数据集的相关系数。基础数据如图16-123所示。

步骤1：打开例子工作簿“CORREL.xlsx”。

步骤2：在单元格A8中输入公式“=CORREL（A2：A6，B2：B6）”，用于计算两个数据集的相关系数。计算结果如图16-124所示。

图16-123　基础数据

图16-124　计算结果

使用指南

如果数组或引用参数包含文本、逻辑值或空白单元格，则这些值将被忽略，但包含零值的单元格将计算在内。如果array1和array2的数据点的个数不同，函数CORREL返回错误值“#N/A”；如果array1或array2为空，或者其数值的s（标准偏差）等于零，函数CORREL返回错误值“#DIV/0！”。相关系数的计算公式如下。

其中X和Y是样本平均值AVERAGE（array1）和AVERAGE（array2）。

Excel 应用FORECAST函数计算沿线性趋势的值

FORECAST函数用于根据已有的数值计算或预测未来值。此预测值为基于给定的x值推导出的y值。已知的数值为已有的x值和y值，再利用线性回归对新值进行预测。可以使用该函数对未来销售额、库存需求或消费趋势进行预测。FORECAST函数的语法如下。

FORECAST(x,known_y's,known_x's)

其中参数x为需要进行预测的数据点。known_y’s为因变量数组或数据区域。known_x’s为自变量数组或数据区域。

典型案例

已知一组给定的X和Y值，基于给定的X值25预测一个Y值。基础数据如图16-121所示。

步骤1：打开例子工作簿“FORECAST.xlsx”。

步骤2：在单元格A8中输入公式“=FORECAST（25，A2：A6，B2：B6）”，基于给定的X值25预测一个Y值。计算结果如图16-122所示。

图16-121　基础数据

图16-122　计算结果

使用指南

如果x为非数值型，函数FORECAST返回错误值“#VALUE！”；如果known_y’s和known_x’s为空或含有不同个数的数据点，函数FORECAST返回错误值“#N/A”；如果known_x’s的方差为零，函数FORECAST返回错误值“#DIV/0！”。函数FORECAST的计算公式为a+bx，式中：

且其中x和y是样本平均值AVERAGE（known_x’s）和AVERAGE（known_y’s）。

Excel 应用LINEST函数计算线性趋势的参数

LINEST函数用于使用最小二乘法对已知数据进行最佳直线拟合，然后返回描述此直线的数组。也可以将LINEST与其他函数结合以便计算未知参数中其他类型的线性模型的统计值，包括多项式、对数、指数和幂级数。因为此函数返回数值数组，所以必须以数组公式的形式输入。LINEST函数的语法如下。

LINEST(known_y's,known_x's,const,stats)

其中参数known_y’s是关系表达式y=mx+b中已知的y值集合。

· 如果数组known_y’s在单独一列中，则known_x’s的每一列被视为一个独立的变量。

· 如果数组known_y’s在单独一行中，则known_x’s的每一行被视为一个独立的变量。

known_x’s是关系表达式y=mx+b中已知的可选x值集合。

· 数组known_x’s可以包含一组或多组变量。如果仅使用一个变量，那么只要known_x’s和known_y’s具有相同的维数，则它们可以是任何形状的区域。如果用到多个变量，则known_y’s必须为向量（即必须为一行或一列）。

· 如果省略known_x’s，则假设该数组为{1，2，3，…}，其大小与known_y’s相同。

const为一逻辑值，用于指定是否将常量b强制设为0。

· 如果const为TRUE或省略，b将按正常计算。

· 如果const为FALSE，b将被设为0，并同时调整m值使y=mx。

stats为一逻辑值，指定是否返回附加回归统计值。

· 如果stats为TRUE，则LINEST函数返回附加回归统计值，这时返回的数组为{m_n，m_n-1，…，m₁，b；se_n，se_n-1，…，se₁，se_b；r₂，se_y；F，df；ssreg，ssresid}。

· 如果stats为FALSE或省略，LINEST函数只返回系数m和常量b。

【背景知识】直线的公式为：y=mx+b或y=m₁x₁+m₂x₂+…+b（如果有多个区域的x值）。

其中，因变量y是自变量x的函数值。m值是与每个x值相对应的系数，b为常量。注意y、x和m可以是向量。LINEST函数返回的数组为{m_n，m_n-1，…，m₁，b}。LINEST函数还可返回附加回归统计值。

附加回归统计值如表16-1所示。

表16-1　附加回归统计值

【典型案例】已知某公司1~6月份的产品销售额，估算第8个月的销售值。基础数据如图16-119所示。

步骤1：打开例子工作簿“LINEST.xlsx”。

步骤2：在单元格A9中输入公式“=SUM（LINEST（B2：B7，A2：A7）*{8，1}）”，用于估算第8个月的销售值。计算结果如图16-120所示。

【使用指南】

1）可以使用斜率和y轴截距描述任何直线：

· 斜率（m）：通常记为m，如果需要计算斜率，则选取直线上的两点，（x₁，y₁）和（x₂，y₂）；斜率等于（y₂-y₁）/（x₂-x₁）。

· y轴截距（b）：通常记为b，直线的y轴的截距为直线通过y轴时与y轴交点的数值。

直线的公式为y=mx+b。如果知道了m和b的值，将y或x的值代入公式就可计算出直线上的任意一点。另外还可以使用TREND函数来得到结果。

2）当只有一个自变量x时，可直接利用下面公式得到斜率和y轴截距值。

· 斜率公式如下。

=INDEX(LINEST(known_y's,known_x's),1)

图16-119　基础数据

图16-120　计算结果

· y轴截距公式如下。

=INDEX(LINEST(known_y's,known_x's),2)

3）数据的离散程度决定了LINEST函数计算的精确度。数据越接近线性，LINEST模型就越精确。LINEST函数使用最小二乘法来判定最适合数据的模型。当只有一个自变量x时，m和b是根据下面的公式计算出的：

其中x和y是样本平均值，例如x=AVERAGE（knownx’s）和y=AVERAGE（known_y’s）。

4）直线和曲线函数LINEST和LOGEST可用来计算与给定数据拟合程度最高的直线或指数曲线。但需要判断两者中哪一个更适合数据。可以用函数TREND（known_y’s，known_x’s）来计算直线，或用函数GROWTH（known_y’s，known_x’s）来计算指数曲线。这些不带参数new_x’s的函数可在实际数据点上根据直线或曲线来返回y的数组值，然后可以将预测值与实际值进行比较。另外还可以用图表方式来直观地比较二者。

5）回归分析时，Excel计算每一点的y的估计值和实际值的平方差。这些平方差之和称为残差平方和（ssresid）。然后Excel计算总平方和（sstotal）。当const=TRUE或被删除时，总平方和是y的实际值和平均值的平方差之和。当const=FALSE时，总平方和是y的实际值的平方和（不需要从每个y值中减去平均值）。回归平方和（ssreg）可通过公式“ssreg=sstotal-ssresid”计算出来。残差平方和与总平方和的比值越小，判定系数r2的值就越大。r2是表示回归分析公式的结果反映变量间关系的程度的标志，其值等于ssreg和sstotal的比值。

6）在某些情况下，一个或多个x列可能没有出现在其他x列中的预测值（假设y’s和x’s位于列中）。换句话说，删除一个或多个x列可能导致同样精度的y预测值。在这种情况下，这些多余的x列应该从回归模型中删除。这种现象被称为“共线”，因为任何多余的x列可表示为多个非多余x列的和。LINEST将检查是否存在共线，并在识别出来之后从回归模型中删除任何多余的x列。由于包含0系数以及0se’s，所以已删除的x列能在LINEST输出中被识别出来。如果一个或多个多余的列被删除，则将影响df，原因是df取决于被实际用于预测目的的x列的个数。如果由于删除多余的x列而更改了df，则也会影响sey和F的值。

实际上，出现共线的情况应该相对很少。但是，如果某些x列仅包含0’s和1’s作为一个实验中的对象是否属于某个组的指示器，则很可能引起共线。如果const=TRUE或被删除，则LINEST可有效地插入所有包含1’s的其他x列以便模型化截取。如果在一列中，1对应于每个男性对象，0对应于非男性对象；而在另一列中，1对应于每个女性对象，0对应于非女性对象，那么后一列就是多余的，因为其中的项可通过从所有包含1’s（由LINEST添加）的另一列中减去“男性指示器”列中的项来获得。

7）df的计算方法如下所示（没有x列由于共线而从模型中被删除）：如果存在known_x’s的k列和const=TRUE或被删除，那么df=n–k–1；如果const=FALSE，那么df=n-k。在这两种情况下，每次由于共线而删除一个x列都会使df加1。

8）对于返回结果为数组的公式，必须以数组公式的形式输入。

当输入一个数组常量（如known_x’s）作为参数时，以逗号作为同一行中各数值的分隔符，以分号作为不同行中各数值的分隔符。分隔符可能因“控制面板”的“区域和语言选项”中区域设置的不同而有所不同。

9）注意，如果y的回归分析预测值超出了用来计算公式的y值的范围，它们可能是无效的。

函数LINEST中使用的下层算法与函数SLOPE和INTERCEPT中使用的下层算法不同。当数据未定且共线时，这些算法之间的差异会导致不同的结果。例如，如果参数known_y’s的数据点为0，参数known_x’s的数据点为1：

·LINEST返回值0。LINEST算法用来返回共线数据的合理结果，在这种情况下至少可找到一个答案。

·SLOPE和INTERCEPT返回错误“#DIV/0！”。SLOPE和INTERCEPT算法用来查找一个且仅一个答案，在这种情况下可能有多个答案。

10）除了使用LOGEST计算其他回归分析类型的统计值外，还可以使用LINEST计算其他回归分析类型的范围，方法是将x和y变量的函数作为LINEST的x和y系列输入。例如，下面的公式。

=LINEST(yvalues,xvalues^COLUMN($A:$C))

将在使用y值的单个列和x值的单个列计算下面的方程式的近似立方（多项式次数为3）值时运行：

y=m1*x+m2*x^2+m3*x^3+b

可以调整此公式以计算其他类型的回归，但是在某些情况下，需要调整输出值和其他统计值。