时间阅读时间:9分钟

统计数据可能不是你最喜欢的学院,但它是高效产品设计和制造过程的关键部分。使用统计数据可以设计实验,运行测试,收集现实世界结果,并进行数据驱动的决策。这些实验可用于测试改变尺寸,材料或制造工艺步骤的效果。通常,您将想要改变其中一个变量,以提高您在内部所做的能力宽容或产品的整体性能。也许您的部件在可靠性测试期间继续打破,并且您想要测试是否改变材料减少这些失败。或者,您必须重新制作大量的零件,但您认为改变维度将使返工不必要并加快进程。这些是使用实验和统计数据的良好机会。

a scientific calculator sitting on top of an open statistics textbook
由于行话,统计可能是一个干燥的主体,但它对工程至关重要。

当我们使用统计数据来帮助我们的工程设计和制造过程,我们超越平均值,中位数和模式,以更高级的应用程序。最有用的统计概念之一是假设测试,它允许您在数学上比较多个样本的结果。这是您设计过程的重要组成部分,因为,而不是猜测并假设更改将使您的产品更好,而是可以测量该更改的效果,并制定更明智的设计决策。如果您仔细计划了您的测试并正确分析了数据,您将达到您可以信任的结论,即您可以改善您的流程,并因此提供您的产品。

What’s a hypothesis test?

假设测试是测试假设的方法,并确定结果是否有统计学意义。您测试的假设可以是一个大约一个人口,例如假设人口的平均值大于一定的价值。您还可以测试关于两个人群的假设。

For example, you can test the assumption that the mean of one population is greater than the mean of another population. In order to test these assumptions, you gather data about a population by testing a sample of that population. Hypothesis testing can also be used to test the variance of a population, by measuring standard deviation of a sample.

现在让我们来看看执行假设测试的步骤。随着这些步骤,我们还将考虑一个工程例子。假设我们的制造伙伴负责铰链的平均扭矩不大于30nm。然而,我们有理由相信一些铰链扭矩大于30nm,因此对于我们的应用来说太强大了。如果在笔记本电脑中使用这些铰链,则扭矩的强大可能使得难以打开,创造差的用户体验。所以,我们想看看这是一个真的问题。

微软曲面笔记本电脑与铰链
Hinges in consumer electronics often have very precise torque requirements.

Step 1: Choose your test

您使用的测试类型(以及相应的测试统计)将取决于您尝试学习的内容以及您可以收集的样本。对于我们的示例,假设我们能够测试20个铰链,所以我们将从T-Test开始,样本大小为20。

T-test

T检验或学生的T检验,当您具有较小的样本大小时非常有用。示例大小大于30允许您假设正常分布,但有时无法收集超过30个数据点。T检验假设T分布,其适用于较小的样本大小。在这种情况下,您可以估计从样本标准偏差估计人口方差。T检验可用于将样品的平均值与给定或已知值进行比较。您还可以执行两个样本T检验以比较两组的手段。

z测试

Z测试用于测试人口的平均值,或比较两个人群的手段。对于此测试,应通常分发群体(或者您需要超过30的示例大小)。使用超过30的样本尺寸,您可以假设样本通常分布,并且样本标准偏差等于人口方差。

F试验

The F-test is used to compare the standard deviations of two samples. This can be useful when you want to compare the variability of two designs to see which one has less variation. An F-test can also be used for sample sizes smaller than 30.

Chi-Square

到目前为止,所讨论的所有测试都需要定量数据,或持续数值结果。另一方面,Chi-Square测试比较了分类数据。分类数据的例子包括年龄组,教育水平或婚姻状况。Chi-Square测试需要更大的样品尺寸。实际数字取决于类别的数量,但良好的起点是50个或更多数据点。

第2步:说明你的假设

一旦您选择了您的测试,您就会想要说明您的假设(A好的任何实验中必要的第一步)。你总是有两个假设:零假设和替代假设。NULL假设通常是您想要反对的,并且通常指出没有变化或差异。替代假设是基于你所做的改变或其他改变因素的变化可能是真实的。框架的另一种方法:NULL假设状态没有效果,并且替代假设状态效果。

以下是我们臀部示例的假设:

null假设(h0): μ < μ0,其中μ.0= 30 Nm

替代假设(H1):μ>μ0

第3步:选择显着性水平(α)

This is the level at which you will determine the results are statistically significant. In the next step, you’ll calculate the p-value, which you compare to α. α = 0.05 is a very commonly used significance level because it will usually give you a small enough probability of getting a Type I error (discussed below) while also capturing small, but still significant, differences between the mean of the sample and the null hypothesis.高级统计概念can be used to determine the best significance level for the application, but for this example we will stick with the conventional value.

Step 4: Calculate the test statistic

该测试统计信息取决于您选择的假设测试。对于T检验,测试统计是使用下面的公式计算的变量T.在该公式中,X-Bar是样品的平均值,μ0是我们的零假设,s是样品的标准偏差,n是样品大小。

然后,您将使用此测试统计数据T来计算P值,或者如果NULL假设是真的,则通过随机机会获取特定测试统计值的概率。接下来,将此P值与显着性级别进行比较。

Let’s say we randomly selected 20 hinges to measure. Here are the measurements:

26.42 31.16 30.57 30.82 30.51
31.46 30.46 30.94 32.34 30.75
29.72 28.18 33.1 31.21 28.8
29.71 30.8 31.35 31.64 29.42
铰链,rque measurements

对于我们的示例,我们将使用我们收集的数据以及T-Test的公式:

formula for calculating the t-test statistic

X-Bar表示样品的平均值(30.7bm = nm)。μ.0是空假设,在这种情况下是30nm。S是样品的标准偏差(在这种情况下为1.1),n = 20是样品大小。填写这些值后,我们得到t = 2.6。要从我们的T统计信息中找到p值,可以使用表来查找p值,或Excel中的公式来计算它。在我们的示例中,我们获得0.0052的p值,比我们的α= 0.05显着性水平。因此,我们可以拒绝零假设并得出结论,相信铰链的平均扭矩大于30的速度为99.48%。

下图显示了我们计算的T统计数据落在分发上。阴影部分是随机机会实现这一结果的概率。同样,这种概率低于我们的重要性水平为0.05。

normal distribution curve graph
这显示了我们铰链样本的T分布。

第5步:解释结果

运行假设测试时,您有两种结果:您可以拒绝NULL假设或无法拒绝NULL假设。请注意,拒绝NULL假设并不意味着您能够接受替代假设;相反,您正在讨厌NULL假设。这似乎是复杂的,但统计需要非常特定的语言,以便清楚的结果。您收集的数据仅证明了空假设错误,而不是证明替代假设正确。

In order to reject the null hypothesis, the p-value needs to be smaller than alpha, the significance level. A smaller p-value tells us that the probability of the null hypothesis occurring by random chance is too small to be reasonable. Therefore, if p < α, you reject the null hypothesis. However, if the p-value is greater than or equal to α, you fail to reject the null hypothesis. In other words, there is not enough evidence to conclude that there is a difference between the null hypothesis and the measured mean of the sample.

Even with meticulously planned experiments, it’s possible to make mistakes. With hypothesis tests, the data comes from a sample rather than an entire population, and it’s possible for the sample to misrepresent the population. There are two types of errors that can be made with hypothesis testing: Type I and Type II errors.

Null hypothesis is true null假设是假的
P <α. Type I Error: False positive 正确的决定,效果存在
p>α. 正确的决定,没有效果 II型错误:假阴性

我们可以使用烟雾检测器的示例来表示这四种情况下的假设测试。当烟雾探测器正在工作时,当有烟雾时,它会在没有烟雾时熄灭。但是,如果烟雾探测器熄灭,但没有烟雾,你有一个I型错误,或者是假的误。换句话说,当没有什么没有时,测试正在检测到效果或差异。

In our example of the hinge, a Type I error would occur if, although we came to the conclusion that the average hinge torque is greater than 30 Nm, the average hinge torque was actually less than or equal to 30 Nm. So, we would have detected a significant difference even if there wasn’t one. This would cause us to believe we need to make some kind of change in the hinge to reduce the torque, which might result in hinges that are now too weak to support the opening and closing of a laptop.

另一方面,如果有烟雾并且烟雾探测器没有熄灭,则它是假阴性的,或者II型错误。在假设试验的情况下,当有一个时,测试没有检测到显着差异。

同样,在我们的铰链例中,如果我们错误地得出结论,我们的铰链平均铰接小于或等于30nm。这意味着我们会使用太强大的铰链,导致难以打开的笔记本电脑。

这些错误很难检测到它们何时发生,但有些方法可以设计假设测试以使这些错误不太可能。获得假阳性的概率与显着性水平相同α。因此,通过减少显着性级别,您可以减少遇到I型错误的可能性。

II型错误的概率更难以估计,因为小的样本尺寸或高数据变量可能导致错误的否定。II型错误更难减少,这就是为什么创建精心设计的测试并最大限度地减少您的错误机会是至关重要的。

结论

假设测试是如此强大,因为它使用您收集的统计数据和数据来帮助您了解有关您的设计和制造过程是否正在生产零件的内容的知识,数据驱动的决策。执行这些假设测试可以帮助您找到问题并确定您的更改是否导致改进。在我们的铰链的例子中,我们能够确定扭矩明显高于我们想要的。在真实的工程世界中,这将导致进一步的步骤制定改善这些铰链的改变,导致更好的产品。如果您遵循这些步骤,您就可以了解实验和分析,这将有助于提高您的设计并简化您的制造过程。

有更多有用的工程文章, sign up for Fictiv’s monthly newsletter below!