热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

智源「高能对撞粒子分类挑战赛」开启,品鉴宇宙粒子的独特味道

2019年11月,北京智源人工智能研究院联合数据评测平台Biendata,共同发布了粒子碰撞数据集,其中包含数百万条高能对撞中所产生的喷注

2019 年11月,北京智源人工智能研究院联合数据评测平台 Biendata,共同发布了粒子碰撞数据集,其中包含数百万条高能对撞中所产生的喷注信息(质量、能量、方向等),以及相关的碰撞事件信息和喷注中粒子的信息。

与此同步地,我们开放了“高能对撞粒子分类挑战赛”(2019年11月-次年2月),总奖金为10万元。比赛和数据可于下方链接查看,或点击“阅读原文”。

比赛地址:

https://www.biendata.com/competition/jet/

下面就来了解一下这次比赛吧!

 

背景

宇宙中大多数物质由原子构成,原子又由原子核和电子组成。其中,电子是基本粒子,但原子核又可分为质子和中子,并可进一步分为夸克和胶子。这些夸克和胶子的相互作用非常强烈,以至于只有通过极高能量的质子对撞才能让它们摆脱束缚。在高能碰撞时可以产生包括夸克和中子在内的大量粒子,向某个方向射出,这些粒子团被称为喷注(jet)。


喷注可以分为:1)胶体喷注,2)轻夸克喷注,3)魅夸克喷注,4)美夸克喷注。由于它们的不同内在特性(如质量和色量子数),不同种类的喷射经历不同的衰变过程,其内部结构也在实验中显示出不同的观测值。


尽管在理论物理模拟中可以很容易地识别出喷注的味道,但目前在实验中没有可靠的方法可以对所测量的真实喷注进行分类。因此,开发一种稳健的算法来识别喷注味道,将让我们可以更直接地比较实验测量和基本粒子理论。 

 

 

比赛任务

本次比赛提供粒子碰撞数据集,其中包含对撞中产生的喷注信息(质量、能量、方向等),以及相关的碰撞事件信息和喷注中所包含的粒子信息,要求选手根据喷注的性质(如喷注所含的粒子数、喷注能量、喷注质量、喷注方向),以及喷注中所有粒子的特征(方向、质量、能量等)和对应的碰撞事件,把喷注分成四类中的一类。

本次比赛分为简单赛道和复杂赛道,依次进行。简单赛道只要求选手根据喷注属性的数据集进行分类;复杂赛道在此基础上,又加入喷注所含粒子的属性文件和碰撞事件文件,数据的体量和维度剧增,难度也相应加大。简单赛道和复杂赛道的测试集一样,只是提供的数据维度不同。

  • 简单赛道(11月30日至12月25日)

    选手根据喷注的性质(喷注所含的粒子数、喷注能量、喷注质量、喷注方向)进行分类。(简单赛道开放时间较短,建议提前报名参赛)

  • 复杂赛道(12月25日至次年2月15日)

    选手根据喷注的性质、喷注中所有粒子的特征、以及喷注所在的碰撞事件进行分类。

粒子碰撞数据集

本数据集共包含200多万条喷注信息,分为EVENT、JET、PARTICLE三类文件,三者为上下层级关系,一个碰撞事件(EVENT)会产生若干个喷注(JET),而一个喷注中会包含若干个粒子(PARTICLE)。EVENT文件是对碰撞事件的描述,JET文件详细说明了喷注的属性,PARTICLE文件进一步描述了喷注中所含各个粒子的属性。

这三类数据的结构可以通过以下方式直观理解:

-   Event 1: Event 1的属性

-   - Event1 中的喷注1(jet1)

-   -  - 喷注1中的粒子1数据

-   -  - 喷注1中的粒子2数据

-   -  - ……

-    - Event2中的喷注2(jet2, event1)

-   - ……

-   ……

具体而言,在EVENT文件中,“event_id”字段是碰撞事件的编号,“number_of_jet_in_this_event”字段表示碰撞事件中产生的喷注数量。

Event 文件样例

在JET文件中,“jet_id”字段是喷注的编号,“number_of_jet_in_this_event”字段表示碰撞事件中产生的喷注数量,“jet_px”、“jet_py”、“jet_pz”字段表示喷注的方向,“jet_energy”表示喷注的能量,“jet_mass”表示喷注的质量,“event_id”表示该喷注所在的碰撞事件,“label”表示喷注属于的类别。

Jet 文件样例

在PARTICLE文件中,“Particle_category”字段是粒子的标签号,“particle_px”、“particle_py”、“particle_pz”字段表示粒子的方向,“particle_energy”表示粒子的能量,“Particle_mass”表示粒子的质量,“jet_id”表示该粒子所在的喷注。

Particle 文件样例

同类研究

自2016年开始,物理学界开始尝试将深度学习引入喷注分类任务中。在此过程中可以发现,最新的机器学习技术创新可以相当显著地提升模型性能。

目前,已有多种机器学习技术已经在相关数据集上得到应用。2017年,麻省理工学院的研究团队将模拟喷注数据中粒子的密度转化为二维图片,并用卷积神经网络等计算机视觉技术对图片进行分类。同年,多个团队报道利用喷注衰变产生的树状演变结构,可以采用自然语言处理中的RNN及LSTM网络,显著提升分类的准确率。一篇2019年发表的论文表明,如果考虑一些物理学家设计的变量作为特征,最高能把胶子-夸克分类的ROC AUC数值提升超过10%左右,达到0.899。

相较于其它数据集,智源“粒子碰撞数据集”的喷注数达到200多万条,而且细分为四类,并包含具体粒子的详细信息,在数量和颗粒度上达到了较高的水准。

参考文献:

 

[1]P.T. Komiske, E.M. Metodiev and M.D. Schwartz, Deep learning in color: towardsautomated quark/gluon jet discrimination, JHEP 01 (2017) 110 [arXiv:1612.01551][INSPIRE].

 

[2]S. Egan, W. Fedorko, A. Lister, J. Pearkes and C. Gay, Long Short-Term Memory(LSTM) networks with jet constituents for boosted top tagging at the LHC,arXiv:1711.09059 [INSPIRE].

 

[3]Cheng, T. Recursive Neural Networks in Quark/Gluon Tagging, Comput. Softw. BigSci. 2 (2018), no. 1 3. arXiv preprint arXiv:1711.02633.

参赛方式

点击阅读原文链接或扫描下图中的二维码直达赛事页面,注册网站-下载数据,即可参赛。

友情提示:因涉及到数据下载,强烈建议大家登录 PC 页面报名参加。

智源人工智能系列竞赛

2019 年 9 月,智源人工智能算法大赛正式启动。本次比赛由北京智源人工智能研究院主办,清华大学、北京大学、中科院计算所、旷视、知乎等协办,总奖金超过 100 万元,旨在以全球领先的科研数据集与算法竞赛为平台,选拔培育人工智能创新人才。 

北京智源人工智能研究院院长、北京大学教授黄铁军介绍:智源的中心任务是在北京建成全球最优的人工智能创新生态,核心是选拔培育人工智能顶尖人才和发展潜力大的青年学术英才。研究院副院长刘江也表示:“我们希望不拘一格来支持人工智能真正的标志性突破,即使是本科生,如果真的是好苗子,我们也一定支持。”而人工智能大赛就是发现有潜力的年轻学者的重要途径。 

本次智源人工智能算法大赛有两个重要的目的,一是通过发布数据集和数据竞赛的方式,推动基础研究的进展。特别是可以让计算机领域的学者参与到其它学科的基础科学研究中。二是可以通过比赛筛选、锻炼相关领域的人才。截止到目前,智源人工智能系列大赛已开展 5 场,分别涵盖了神经生物学、自然语言处理、机器视觉等领域。在年底前,智源研究院还将陆续发布 5 道赛题,敬请大家期待! 

目前正在角逐的比赛: 

  • 智源-知乎2019看山杯专家算法发现大赛 

    https://www.biendata.com/competition/zhihu2019/

  • 智源-超高清晰电镜图像分割挑战赛 神经元识别大赛

    https://www.biendata.com/competition/urisc/

- 往期文章 -



推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • cs231n Lecture 3 线性分类笔记(一)
    内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注:中文翻译 ... [详细]
  • 深度学习与神经网络——邱锡鹏
    深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络:一种以(人工))神经元为基本单元的模型深度学习:一类机器学习问题,主要解决贡献度分配问题知识结构:路线图:顶 ... [详细]
  • 作为机器学习最重要的一个分支,近年来深度学习(DeepLearning)发展势头迅猛,借助庞大的数据 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 干货 | 携程AI推理性能的自动化优化实践
    作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品,其中性能优化组为AI模型提供全方位的优化方案,提升推理性能降低成本࿰ ... [详细]
  • 「爆干7天7夜」入门AI人工智能学习路线一条龙,真的不能再透彻了
    前言应广大粉丝要求,今天迪迦来和大家讲解一下如何去入门人工智能,也算是迪迦对自己学习人工智能这么多年的一个总结吧,本条学习路线并不会那么 ... [详细]
  • Word2vec,Fasttext,Glove,Elmo,Bert,Flairpre-trainWordEmbedding源码数据Github网址:词向量预训练实现Githubf ... [详细]
  • 论文阅读:《Bag of Tricks for LongTailed Visual Recognition with Deep Convolutional Neural Networks》
    基于深度卷积神经网络的长尾视觉识别技巧包摘要近年来,挑战性长尾分布上的视觉识别技术取得了很大的进展,主要基于各种复杂的范式(如元学习)。除了这些复杂 ... [详细]
  • 聊聊 中国人工智能科技产业 区域竞争力分析及趋势
    原文链接:聊聊中国人工智能科技产业区域竞争力分析及趋势最近看了一个关于国内AI的报告《中国新一代人工智能科技产业区域竞争力评价指数(2021ÿ ... [详细]
  • OpenMap教程4 – 图层概述
    本文介绍了OpenMap教程4中关于地图图层的内容,包括将ShapeLayer添加到MapBean中的方法,OpenMap支持的图层类型以及使用BufferedLayer创建图像的MapBean。此外,还介绍了Layer背景标志的作用和OMGraphicHandlerLayer的基础层类。 ... [详细]
author-avatar
别想着摆脱_525
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有