正文

吴恩达-第一课第二周8-10节-什么是置信区间，有什么作用

Tina姐  Tina姐  2022-12-15  451

关键词：

在这节课中，我们将了解评估医学模型的另一个非常重要的方面，即报告我们的评估中的可变性。

我们将研究如何使用置信区间来显示这种可变性。

假设一家医院有5万名病人，我们想知道我们的胸部x光模型对每个人的准确性。

如果我们能够运行这个模型并得到所有患者的ground truth，我们就能够得到模型在整个人群中的表现。

例如，假设我们以准确度为评估指标，当然也可能是任何其他指标。我们假设该模型在5万例患者中的准确度为0.78。这就是所谓的总体准确度。

BUT，我们根本不可能在所有人身上测试这个模型。因此，总体精度p是未知的。

问题是，我们能否通过使用一小部分患者样本来了解模型在人群中的表现如何？

假设我们从医院抽取了一百个病人。现在我们发现模型在100个病人上的精确度为0.8。我们能求出总体精度p的范围吗？

接下来通过置信区间求取这一范围

置信区间

置信区间允许我们说，使用我们的样本，我们有95%的信心，总体精确度p在区间[0.72，0.88]。0.72称为该区间的下限，0.88称为该区间的上限。

这些置信区间的计算超出了本课程的范围，但是理解它们的解释是很重要的。

当我们报告样本模型的精度时，我们报告的是平均值和置信区间。

这里的95%置信区间允许我们说，在95%置信区间，p在0.72，0.88之间。我们还没有看到95%的置信是什么。

95%的置信度并不是说有95%的概率p在区间内。它也没有说95%的样本精度在这个区间内。

对95%置信度的解释更为微妙，需要我们考虑重复取样。让我们深入研究一下。

假设我们能够多次从人群中抽取100名患者样本。每次我们得到不同的样本，因此样本的精确度也不同。

我们还可以计算与每个样本相关的置信区间。

我们可以在图上看这些样本。

图中圆点：表示每一个样本的精度，以及连接圆点的横线线表示样本置信区间的上下限。
中间黑色竖着的虚线（垂直线）：表示总体精度，对应的精度为0.78。

我们可以发现，大多数样本（横线）都包含总体精度。或者说，大部分横线都和中间的垂直线有交集。

具体地，7个样本中，有6个包含总体精度，一个不包含。95%的置信区间就是表示95%的样本将包含总体准确度。

百分之九十五是我们的信心水平。因此，95%置信度的解释是，在重复抽样中，这种方法产生的区间包括95%左右样本的总体准确度。

实际上，我们不计算许多样本集的置信区间。因为我们只有一个样本集。我们不可能去总体样本中抽好几个样本集。

对于我们的样本集，计算的置信区间可能包含也可能不包含 p 。但是，我们可以有95%的置信度。

影响置信区间宽度的因素之一是样本大小，置信区间的宽度由置信区间的上下限来表示。

假设我们从人群中提取了另一个样本，但这次是500个病人。这是我们上一个样本的5倍大。我们可以预期，我们使用大样本将更好的估计总体准确性。

我们可以看到，尽管模型在两个样本上的精确度都是0.8，但请注意，对于较大样本，置信区间更窄，而对于较小样本，置信区间更宽。因此，一个更大的样本给了我们一个更好的估计。

总而言之，置信区间是有用的。因为我们不能在整个人群中运行模型，我们至少可以使用样本的测试结果来表达我们非常确定总体准确性所在的范围。

祝贺您完成本周的模型评估。正如你所看到的，我们需要的不仅仅是准确性，才能正确地评估医学模型，因为我们关心的是准确地理解一个模型何时对患者有效，什么时候不起作用。

在本周的作业中，你将能够应用这些想法来更全面地评估你的胸部x光模型。

下周，我们将从医学图像分类跳到医学图像分割，在这一节中，您将从MRI数据构建一个脑肿瘤分割模型。到时候见。

文章持续更新，可以关注微信公众号【医学图像人工智能实战营】获取最新动态，一个关注于医学图像处理领域前沿科技的公众号。坚持已实践为主，手把手带你做项目，打比赛，写论文。凡原创文章皆提供理论讲解，实验代码，实验数据。只有实践才能成长的更快，关注我们，一起学习进步~

我是Tina, 我们下篇博客见~

白天工作晚上写文，呕心沥血

觉得写的不错的话最后，求点赞，评论，收藏。或者一键三连

吴恩达-医学图像人工智能专项课程-第一课第一周4-5节总结(代码片段)

4-5节主要是例举了三个深度学习医学诊断案例。本周，我们将直接进入建立一个深度学习模型的任务胸部x光分类。通过这个例子，您将学到的许多想法在许多医学成像测试中都有广泛的应用。本周，我们将从三个医... 查看详情

吴恩达-医学图像人工智能专项课程-第一课第一周19-20节(代码片段)

让我们回顾一下上一节提出的医学图像创建数据集的三个挑战第一个挑战涉及到我们如何使这些测试集独立第二个挑战涉及我们如何对它们进行采样第三个挑战涉及我们如何设置groundtruth让我们来讨论第二个挑战：集合抽样... 查看详情

吴恩达-医学图像人工智能专项课程-第一课第一周11节总结(代码片段)

回顾一下医学图像深度学习面临的三个挑战三个挑战我们将讨论医学图像训练算法的三个关键挑战：类不平衡挑战、多任务挑战和数据集大小挑战。对于每一个挑战，我们将介绍一到两种应对方法。类别不平衡：可以... 查看详情

吴恩达-医学图像人工智能专项课程-第一课第一周13-15节-迁移学习+数据增强

吴恩达-医学图像人工智能专项课程-第一课第一周1-3节总结(代码片段)

点此了解课程吴恩达新课医学图像AI（AIforMedicine）专项课程推荐欢迎来到医学人工智能专业。如果你已经完成了深度学习专业化或机器学习课程，并且你正在寻找更深入掌握人工智能的应用领域，这是一个很好的... 查看详情

吴恩达-医学图像人工智能专项课程-第一课第一周6-10节总结+作业解读(代码片段)

现在，您已经了解了深度学习在医学图像分类问题上的一些前沿应用。本文将介绍第一课第一周6-10节的内容。主要讲解构建一个分类模型去识别胸片的肿块。以及分类模型将面临的三个挑战：类不平衡挑战、多任务挑战... 查看详情

吴恩达-医学图像人工智能专项课程-第一课第一周1-3节(代码片段)

欢迎来到医学人工智能专业。如果你已经完成了深度学习专业化或机器学习课程，并且你正在寻找更深入掌握人工智能的应用领域，这是一个很好的专业化学习。要想成为真正优秀的机器学习，最重要的事情之一就是... 查看详情

吴恩达-医学图像人工智能专项课程-第一课第一周12-13节多任挑战总结(代码片段)

前面我们已经学习了如何处理类别不平衡。这节课我们来探讨第二个挑战-多任务挑战目前为止，我们已经研究了二分类，我们关心的是一个例子是否是有mass疾病。然而，在现实世界中，我们关心的是对许多此类... 查看详情

吴恩达-医学图像人工智能专项课程-第一课第一周16-18节-如何确保数据集病人不重叠+作业解说(代码片段)

模型测试既然你已经了解了如何训练医学诊断模型，那么让我们来谈谈如何测试这样的模型。接下来你会学习如何测试这样的一个模型。您将学习如何正确使用训练、验证和测试集。以及为了评估你的模型需要强大的groundtrut... 查看详情

吴恩达实验（神经网络和深度学习）第一课第三周，代码和数据集，亲测可运行

代码和数据集已上传到文件中应该可以直接下载吧（第一次上传文件，感觉是），解压后把文件夹拷贝到jupyter工作空间即可注：我对下载的代码的格式稍作了修改，原来定义函数与调用函数在两个单元格里，我直接运行他总给... 查看详情

斯坦福吴恩达教授机器学习公开课第二讲笔记——有/无监督学习+线性回归

查看详情

收藏第一课第二周作业-学会计算分类各种指标-超详细教程(代码片段)

本次作业文件：在第一课/第一课大作业/week2metric这节课不需要对模型进行预测，所有的预测结果已经在csv文件中给出。作为提醒，我们的数据集包含14种不同情况的X射线，可通过X射线诊断。我们将使用我们在这... 查看详情

第一课第三周大作业--mri脑肿瘤自动分割教程(代码片段)

...1骰子相似系数4.2softdiceloss5创建模型5.1训练6评估作业文件吴恩达-医学图像AI专项课程-作业/第一课/第一查看详情

第二课第一周大作业--构建和评估一个线性风险模型(代码片段)

之前教程：第二课第一周第1节-AI用于医学预后简介第二课第一周第2节-做医学预后，你需要掌握什么？第二课第一周第3-4节-什么是预后?第二课第一周第4-7节医学预后案例欣赏+作业解析第二课第一周第8节风险得分... 查看详情

第二课第一周大作业--构建和评估一个线性风险模型(代码片段)

第二课第一周3-4节-什么是预后？(代码片段)

什么是预后？我们首先要讨论什么是预后，以及为什么预后在医疗实践中很重要。预后是一个医学术语，指预测未来事件的风险。在这里，事件是一个通用术语，它描述了可能发生在个人身上的各种事情。事... 查看详情

第一课第三周7-10节-ai算法这么棒，为什么我们周围的医院没有使用这些系统？

既然您已经了解了医学成像的分类和分割模型，并且您已经在前面构建了您的胸部x射线分类模型，那么您可能会想知道为什么我们周围的医院或诊所没有使用这些系统。在本课中，您将了解一些挑战和机会，使这... 查看详情

吴恩达深度学习课程第一课—神经网络与深度学习—第一周练习

课程一-神经网络和深度学习第一周-深度学习简介第1题“人工智能是新电力”这个比喻指的是什么？A.人工智能为我们的家庭和办公室的个人设备供电，类似于电力。B.通过“智能电网”，人工智能正在传递... 查看详情