JDB (中国电子) 官方网站

关于JDB电子 资讯中心 企业要闻 媒体聚焦 科技新知 科研创新 业务领域 新能源产业 电除尘系列产品 工业废水处理 垃圾焚烧发电 生态修复及保护 售后服务 JDB (中国电子) 官方网站 加入我们 联系我们 jdb电子官网 客户案例 新能源产业 大气污染治理 水污染治理 固危废处置 生态修复及保护
EN
 

资讯中心

科技新知

JDB电子试玩平台深度学习中的噪声数|相田桃|据该如何处理?

发布时间:2026-05-26
文章来源:jdb电子官网环保

  JDB电子平台✿ღ✿,jdb大气污染治理✿ღ✿!JDB电子试玩平台✿ღ✿,环境监控✿ღ✿,生态修复及保护✿ღ✿。孔子云✿ღ✿:“性能不够✿ღ✿,数据来凑”✿ღ✿。可是如果数据中有噪声标签(Noisy Labels)怎么办?本文借鉴Google AI的最新工作[1]来回答这个问题✿ღ✿。

  深度神经网络的成功依赖于高质量标记的训练数据✿ღ✿。训练数据中存在标记错误(标记噪声✿ღ✿,即Noisy Labels)会大大降低[2]模型在干净测试数据上的准确性[3]✿ღ✿。不幸的是✿ღ✿,大型数据集几乎总是包含带有不正确或不准确的标签相田桃✿ღ✿。这导致了一个悖论✿ღ✿:一方面✿ღ✿,大型数据集对于深度网络的训练是非常必要的✿ღ✿,而另一方面✿ღ✿,深度网络往往会记住训练标签噪声✿ღ✿,从而在实践中导致较差的模型性能✿ღ✿。

  学界已经意识到这个问题的重要性✿ღ✿,一直在试图理解理解标签噪声✿ღ✿,和发明新的鲁棒学习方法来克服它们✿ღ✿。在这个过程中✿ღ✿,受控实验[4]扮演着至关重要的角色✿ღ✿。好比研发一种新的****物JDB电子试玩平台✿ღ✿,我们需要受控实验来对影响实验结果的无关因素加以控制✿ღ✿。在本问题里✿ღ✿,最重要的是研究不同的噪声水平(即数据集中带有错误标签的样本的百分比)对模型性能的影响相田桃✿ღ✿。但是✿ღ✿,当前的受控实验仅局限在人工合成噪声✿ღ✿,而不是真实的噪声✿ღ✿。与实际经验相比✿ღ✿,人工合成噪音会导致研究结果大相径庭✿ღ✿。来看一个例子✿ღ✿:“神经网络是否对于人工噪音数据敏感?”✿ღ✿,前人给出了截然相反的答案✿ღ✿:

  更重要的是✿ღ✿,我们发现✿ღ✿:在人工噪声上表现良好的方法✿ღ✿,在现实世界的噪声数据集上效果可能并不理想✿ღ✿。

  在ICML 2020上发布的“Beyond Synthetic Noise: Deep Learning on Controlled Noisy Labels”中✿ღ✿,我们做出了三点贡献✿ღ✿。首先✿ღ✿,我们建立了第一个受控的噪声数据集JDB电子试玩平台✿ღ✿,一个来自真实世界的标签噪声(即Web标签噪声)[2]✿ღ✿。其次✿ღ✿,我们提出了一种简单而有效的方法来克服真实和人工行合成的噪声标签✿ღ✿。最后✿ღ✿,我们进行了迄今为止最大的实验✿ღ✿,比较了人工和真实噪声在各种训练环境下的区别✿ღ✿。

  2✿ღ✿、其次✿ღ✿,人工标签噪声处于类级别(即同一类中的所有样本均同样嘈杂)✿ღ✿,而现实世界中的标签噪声处于实例级(与相关类无关✿ღ✿,某些图片会比其他图片更有可能被错误标注)✿ღ✿。例如✿ღ✿,“本田思域”和“本田雅阁”的侧面图片会比正面拍摄的图片更容易混淆✿ღ✿。

  3✿ღ✿、第三✿ღ✿,带有真实标签噪声的图像来自开放的词汇✿ღ✿,这些词汇可能不会与特定数据集的类词汇重叠相田桃✿ღ✿。例如✿ღ✿,“ ladybug”的噪声图像包括诸如“ fly”之类的图片✿ღ✿,然而”fly很可能是一个background class✿ღ✿,也就是并不是我们训练集合定义的class的一部分✿ღ✿。

  基于以上原因✿ღ✿,一个受控标签噪声的数据集将有助于更好地定量研究人工合成和实际标签噪声之间的差异✿ღ✿。

  人工合成标签噪音和Web标签噪音的比较✿ღ✿。从左到右的列是Mini-ImageNet或Stanford Cars数据集中的真实睁眼本✿ღ✿,带有人工合噪声的图像✿ღ✿,以及带有错误Web标签的图像(在本文中收集)✿ღ✿。

  为了区分✿ღ✿,我们用红色噪声来指代Web标签噪声✿ღ✿,而用蓝色噪声来指代人工合成标签噪声 (见黑客帝国中的红色和蓝色****丸)

  “如果选择蓝色****丸– 故事就此结束✿ღ✿,你在自己床上醒来✿ღ✿,继续相信你愿意相信的一切✿ღ✿。如果你吃下红色****丸– 你将留在奇境✿ღ✿,我会让你看看兔子洞究竟有多深JDB电子试玩平台✿ღ✿。” (黑客帝国 1999)

  我们提出的Web噪声数据集合建立在两个公共数据集上✿ღ✿:Mini-ImageNet(用于粗粒度图像分类)和Stanford Cars(用于细粒度图像分类)✿ღ✿。遵循人工合成数据集的构建方法✿ღ✿,我们逐渐将这些数据集中的干净图像替换为从网络上收集的标签错误的图像✿ღ✿。

  为此✿ღ✿,我们使用类名(例如“ ladybug”)作为关键字从网络上收集图像✿ღ✿,这是一种自动方法来收集Web上带有噪声标签的图像✿ღ✿,完全无需人工注释✿ღ✿。然后✿ღ✿,我们使用Google Cloud Labeling Service的标注人员检查每个检索到的图像✿ღ✿,这些标注人员将识别给定的Web标签是否正确✿ღ✿。我们使用带有错误标签的Web图像来替换原始Mini-ImageNet和Stanford Cars数据集中的一定比例的干净训练图像✿ღ✿。我们创建了10个不同的数据集✿ღ✿,它们的标签噪声逐渐升高(从0%的完全干净数据✿ღ✿,到80%的带有错误标签的数据)✿ღ✿。数据集已在我们的“ 受控噪声网络标签”网站上开源✿ღ✿。

  给定一个含有未知噪声的数据集✿ღ✿,我们的目标是训练一个鲁棒的模型✿ღ✿,该模型可以很好地推广到干净的测试数据上✿ღ✿。我们介绍了一种简单有效的方法来处理噪声标签✿ღ✿,称为MentorMix✿ღ✿,该方法是在本文提出的数据集上开发得到的✿ღ✿。

  MentorMix是一种基于MentorNet和Mixup两种现有技术的迭代方法✿ღ✿,包括四个步骤✿ღ✿:加权✿ღ✿,抽样✿ღ✿,混合和再加权✿ღ✿。第一步✿ღ✿,通过MentorNet网络在mini-batch中为每个样本计算权重✿ღ✿,并将权重normalize为分布JDB电子试玩平台✿ღ✿。在此处的示例中JDB电子试玩平台✿ღ✿,MentorNet使用StudentNet训练loss来确定分布中的权重✿ღ✿。

  接下来✿ღ✿,对于每个样本✿ღ✿,我们使用重要性采样根据分布在同一个mini-batch中选择另一个样本✿ღ✿。由于权重较高的样本往往带有正确的标签✿ღ✿,因此在采样过程中会受到青睐✿ღ✿。然后✿ღ✿,我们使用Mixup混合原始样本和采样得到的样本✿ღ✿,以便模型在两者之间进行插值✿ღ✿,并避免过度拟合噪声✿ღ✿。最后✿ღ✿,我们可以为混合的样本计算一个新的权重✿ღ✿,来计算最终的example loss✿ღ✿。对于高噪声水平✿ღ✿,上述二次加权的影响变得更加明显✿ღ✿。

  上面的动画演示了MentorMix中的四个关键步骤✿ღ✿,其中StudentNet是要在噪声标签数据上进行训练的模型✿ღ✿。正如Jiang等人所述✿ღ✿,我们采用了非常简单的MentorNet版本✿ღ✿,以计算每个样本的权重JDB电子试玩平台✿ღ✿。

  我们在五个数据集上验证了MentorMix的有效性✿ღ✿。其中WebVision 1.0是一个包含有现实噪声标签的220万张图像的大型数据集✿ღ✿。MentorMix在WebVision数据集上获得最佳的结果✿ღ✿,就ImageNet ILSVRC12验证集的top-1分类准确性而言✿ღ✿,将以前的最佳方法提高了约3%✿ღ✿。

  这项工作代表了迄今为止最大的研究✿ღ✿,目的是了解在噪声标签上训练的深度神经网络✿ღ✿。我们提出了三个有关Web标签噪声的新发现✿ღ✿:

  ·当神经网络在噪声数据上微调时✿ღ✿,更先进的ImageNet架构会在带有噪声的训练数据集上表现的更好JDB电子试玩平台✿ღ✿。

  1✿ღ✿、处理噪声标签的一种简单方法是fine-tune在干净的数据集(如ImageNet)上预训练的模型✿ღ✿。预训练的模型越好✿ღ✿,则可以更好地推广到下游含有噪声的训练任务上✿ღ✿。

  4✿ღ✿、Web标签噪声似乎危害较小✿ღ✿,但是对于我们当前的robust Learning的学习方法而言✿ღ✿,解决起来却更加困难✿ღ✿。这个发现鼓励更多的未来研究✿ღ✿。

  XMOS是全球半导体领域中值得信赖的领导性厂商✿ღ✿,其XCORE®芯片的累计出货量已超过3500万颗✿ღ✿。成千上万的客户信赖我们提供的高精度和低延迟处理器✿ღ✿,其上集成了控制单元✿ღ✿、接口(I/O)✿ღ✿、人工智能(AI)和数字信号处理(DS...

  据英国《金融时报》10月9日报道✿ღ✿,中国海关当局已对英伟达芯片出货发起全面打击✿ღ✿。报告称✿ღ✿,执法小组已部署在主要港口检查数据中心硬件✿ღ✿,特别关注英伟达的 H20 和 RTX 6000D——这些芯片旨在遵守美国出口管制✿ღ✿,但现在正受...

  哪位兄弟有uCLinux和vxworks的源码及其解释分析的话✿ღ✿,上传一个让大家共享以下啊 ✿ღ✿!谢谢啊✿ღ✿!

  英特尔周四表示✿ღ✿,该公司已开始批量生产其Core Ultra 3 系列“Panther Lake”处理器✿ღ✿。英特尔的 Panther Lake 是该公司的关键 CPU✿ღ✿,旨在展示英特尔开发具有竞争力的处理器并使用其...

  领先的Nordic Semiconductor无线SoC配合三星SmartThings Find支持设备追踪功能

  全球低功耗无线通信半导体解决方案领导者 Nordic Semiconductor(以下简称 “Nordic”) 的下一代 nRF54L15 和 nRF54L10 无线 SoC 以及广为业界采用的 nRF52840 和 n...

  This session will talk about the different types of motors used in the industry; DC, Brushless DC, Steppers, P...

  据彭博社报道✿ღ✿,软银正在安排一笔新的 50 亿美元保证金贷款✿ღ✿,以投资 OpenAI✿ღ✿,并使用其在 Arm Holdings 的股份作为抵押品✿ღ✿。此举将使该公司能够增加其在 OpenAI 的股份和/或投资该公司的基础设施✿ღ✿,同时使...

  This session will talk about the different types of motors used in the industry; DC, Brushless DC, Steppers, P...

  哪位兄弟有uCLinux和vxworks的源码及其解释分析的话✿ღ✿,上传一个让大家共享以下啊 ✿ღ✿!谢谢啊✿ღ✿!

  益莱储 (Electro Rent) 将与合作伙伴安立 (Anritsu) 共同参与2025年10月22-24日举行的第 51 届台北国际电子产业科技展暨台湾国际人工智能暨物联网展 (Taitronics x AIoT ...

  哪位兄弟有uCLinux和vxworks的源码及其解释分析的话✿ღ✿,上传一个让大家共享以下啊 ✿ღ✿!谢谢啊✿ღ✿!

  工业计算正在快速演进✿ღ✿,随之对平衡性能✿ღ✿、能效和长期可靠性的平台提出了新的要求✿ღ✿。AMD 正应对这一挑战✿ღ✿,推出专为工业 PC相田桃✿ღ✿、自动化系统和机器视觉应用打造的 Ryzen™(锐龙)嵌入式 9000 系列处理器✿ღ✿。这一全新系列能提供...

  哪位兄弟有uCLinux和vxworks的源码及其解释分析的话✿ღ✿,上传一个让大家共享以下啊 ✿ღ✿!谢谢啊✿ღ✿!

  Wolfspeed(WOLF)的命运发生了惊人的逆转相田桃✿ღ✿。截至 2025 年 10 月 9 日✿ღ✿,该股的交易价格约为每股 30.36 美元✿ღ✿,WOLF在2025 年 9 月 29 日盘中暴涨超过 1,000%✿ღ✿,并在9月30日继续...

  感觉就像就在昨天✿ღ✿,索尼硬件架构师马克·塞尔尼 (Mark Cerny)首次调侃索尼的“PS4 继任者”及其由新 AMD 芯片提供支持的“增强型光线追踪功能”✿ღ✿。现在我们进入PS5 时代已经将近五年了...

  全球功率系统和物联网领域的半导体领导者英飞凌科技股份公司为环隆科技股份有限公司(UMEC)提供CoolGaN™功率晶体管✿ღ✿,应用于其新型250 W网络以太网供电(PoE)适配器✿ღ✿。英飞凌CoolGaN™晶体管具备极高的可靠性...