滴滴盖亚数据开放计划,携手学界共探科学边界
在以数据为驱动引擎的信息时代中,作为领先的一站式移动出行平台,滴滴平台上每日新增轨迹数据超过106TB,每日处理数据超过4875TB,每日路径规划请求超过400亿次,日均定位数据达到150亿次。盖亚数据开放计划,依托于滴滴领先的大数据和技术优势,面向学术界提供真实的脱敏数据资源,开放协作,旨在以产学研深度融合推进交通领域的基础性与前瞻性研究和成果转化,提速智慧交通领域的科研发展,助力海内外高校的人才培养,为社会发展创造更大价值。自2017年推出以来,该计划得到了学术界广泛认同,目前已有来自全球1900多人次申请,覆盖国内200多所高校和科研机构,以及海外28个国家地区140多所高校和科研机构。
一. 盖亚数据开放计划概况
盖亚作为古希腊神话的大地女神,万物之始,代表着创造力、生命力,是万物的守护者。2017年10月27日在中国计算机大会(CNCC 2017)期间,滴滴宣布启动盖亚数据开放计划,在保障数据安全和隐私的前提下,将部分真实的、高质量的出行数据审慎地开放给学界,全球高校和科研机构的专家学者可登入盖亚数据开放计划网站提交相关信息免费获取。相关数据仅支持科研工作者进行学术研究,不能用于任何商业目的。滴滴开放海量数据赋能AI,以满足AI技术发展对高质量数据集的需求,推动AI在科学研究和大众出行结合来解决真实世界的挑战,促进人工智能、智慧交通、数据挖掘、机器学习等领域的科研进步,并助力海内外高校的人才培养。
首期开放了2016年11月成都市二环局部区域内滴滴快专车平台的原始轨迹数据,轨迹点的采集间隔是2-4s。轨迹点经过了绑路的处理,保证了数据都能够对应到实际的道路信息。此外,所有开放的原始数据也不会涉及用户的个人信息。为保证用户信息安全,滴滴还采取了一系列技术手段和措施,对数据进行匿名化、加密、染色等处理,从而确保相关数据无法追溯到个人,无法还原。
2018年8月,滴滴进一步扩大盖亚数据开放计划,新增174GB的免费科研数据集,以开放协作支持全球科研工作者进行更广泛的学术研究。相较首期开放的2016年11月滴滴平台专车和快车在成都部分区域内的原始轨迹数据,此次二期数据集在时间和空间维度上均有扩大,不仅新增加了2016年10月成都市同一区域滴滴平台专车和快车的原始轨迹数据,还新开放了2016年10月和11月西安部分区域内专车和快车的原始轨迹数据,能更好地支持学者进行节假日、非节假日及多城市的比较分析。
我们在保护用户隐私、维护数据安全的前提下,秉承着“开放共享、协作共赢、创新发展”的理念,持续推进数据开放,希望携手学界共同探索、扩宽科学的边界,将尖端科技应用到改变世界的实践中,共同让城市更适应每一个人的发展,让出行更美好。
二. 合作基本模式与特点
有别于基地共建、项目订单式等传统校企科研合作模式,滴滴盖亚数据开放计划秉承着“开放共享、协作共赢、创新发展”的理念,通过盖亚数据开放计划平台与学界共享产业界真实数据资源,探索“开放协作”的创新型校企合作模式。
为保障个人隐私安全和国家安全,我们对盖亚数据开放平台的使用制定了严格的安全规范,具体体现在以下六个方面。
1. 数据来源
本计划的开放数据可能由滴滴自行收集或生产,也可能来源于与滴滴达成合作的第三方。
2. 数据处理
所有涉及个人信息的共享数据都经过了不可逆的去标识化处理。涉及在中华人民共和国境内采集的个人信息,保存在中国境内的服务器上,如确有出境必要的,跨境数据转移前将进行去标识化处理;如涉及采集自其它国家和地区的数据,也将遵照相关国家法律关于数据存储方面的规定。
3. 数据范围
数据范围包括但不限于出行场景下的多样化数据,实际的数据范围以网站展示的可获取的数据集描述为准。本开放计划可能根据申请人所在的地域设置不同的数据开放范围。滴滴可能不定期地更新或者调整数据集的范围,具体变动请关注我们的网站。
4. 开放对象
数据开放的对象为高校或其他科研机构(包括企业研究部门)的成员,申请人应当以个人名义申请,并提供相应证明材料,本计划可能针对不同地域范围的申请人设置不同的审核要求,具体要求以网站在线审核的规定为准。
5. 成果利用
申请人在通过资格审查后可以无偿使用向其开放的数据集进行科研活动,但申请人无权将从本计划获取的原始数据集的部分或全部自行公开、发表、复制或者进行信息网络传播等向申请人学术团队(需在申请时提交团队成员说明)以外的第三方提供。申请人无权以任何方式将等数据集或其任何衍生成果商业利用。
6. 成果致谢
如果申请人对数据进行的任何分析挖掘而产出的论文、行业报告等,需注明数据出处:https://gaia.didichuxing.com,并在致谢处署名:数据来自滴滴出行“盖亚”数据开放计划,英文(Data source: Didi Chuxing GAIA Initiative)。
盖亚数据开放平台网站(https://gaia.didichuxing.com)拥有中英文双语版面,由信息介绍、开放宣言、当前开放数据、申请流程、申请注册入口、意见反馈和FAQs等部分构成。开放数据的申请流程,如图1所示。
图1:盖亚开放数据的申请流程
在广泛支持全球学者进行多领域的学术研究的基础上,滴滴同时希望借助盖亚数据开放计划搭建起与高校、科研院所的合作之桥,不断推动与高校、科研院所更加深入的科研合作、协同育人和学术交流,并在总结经验的基础上不断完善合作机制,实现校企深度融合的目标。例如,在科研合作方面,滴滴还向优秀的科研团队提供更多脱敏数据、计算资源、资金支持,以鼓励全球的出行领域下计算机、经济学、交通学、社会学、心理学等多学科的研究与发展。携手中国计算机学会(CCF)推出了青年学者科研基金,鼓励青年学者开展前沿科研工作,促进高质量学术成果的产出,加速产学研落地。
三. 项目成效和创新点
滴滴盖亚数据开放计划自2017年10月推出以来,得到了学术界广泛认同,目前已有来自全球1900多人次申请,覆盖国内200多所高校和科研机构,以及海外28个国家地区140多所高校和科研机构。申请人所在高校和科研机构的全球分布情况如图2所示,颜色越深代表申请数量越大。可见,来自中国大陆高校和科研机构的申请者最多,美国、加拿大、英国、澳大利亚其次,另外申请人在港澳台、南美的墨西哥、巴西和秘鲁、以及非洲的埃及等地均有分布。
图2:盖亚开放数据申请人所在高校和科研机构全球分布图
因所有申请人在申请阶段都提供了对盖亚开放数据的使用计划和研究目标,我们得以对学者下载盖亚开放数据的用途进行了统计和分类。尽管公开数据集的初衷是面向人工智能、智慧交通、数据挖掘、机器学习等领域的科研人才,但我们惊喜地发现,盖亚开放数据所用于的学术研究领域和吸引人才范围远超出了预期。首先,大多数申请人来自计算机、软件、交通、地理、环境等传统理工科专业,致力于研究路径规划、智慧交通、能源效率、交通管理等;但还有超过20%的申请人来自经管乃至心理学、新闻学等文商科专业,他们也在尝试通过挖掘滴滴平台的轨迹订单数据、与不同领域的数据相结合,来解释经济、市场行为、资源分配、生活成本等等不同层次的问题。所有申请人具体的专业分布如图3所示。
图3 盖亚开放数据申请人的专业分布
其次,盖亚开放数据被80%的教师和学生用于科研工作,其中部分研究生和大四学生明确表示数据将用于他们的毕业设计。科研所涉课题非常广泛,如研究影响出租车市场行为的评价体系、实时轨迹数据的聚类算法、预测不同时段同地区的出行需求、结合原有车场信息进行停车位预测、驾驶员的驾驶行为分析等。除科研外,约10%的申请人将数据用于了不同类型的竞赛,如参与滴滴举办的Di-Tech算法大赛“智慧信号灯”挑战赛,TRB 2019的交通预测竞赛(TRANSFOR 19),全国大学生数学建模竞赛,2018全国城乡规划学科专业指导委员会举办的交通调查竞赛、城市设计竞赛等等。最后,还有部分高校教师积极响应教育部号召,报名参与了滴滴发起的产学合作协同育人教学内容和课程体系改革项目,探索如何将盖亚开放数据用于自己的教学中,建设基于“智能出行”及“智慧交通”场景下的人工智能、大数据、机器学习、深度学习、创新创业等方向的实践应用课程和教学改革方案。
目前,通过滴滴对申请人数据使用的后续跟踪调查和不完全统计得知,已有数十名来自海内外不同高校的学者已利用对盖亚开放数据的挖掘和分析发表了高质量的学术论文,论文发表于不同领域的顶级期刊和顶级会议上,如Journal of Business Analytics,IEEE Internet of Things Journal,44th International Conference on Very Large Data Bases (VLDB 2018), 2018 International Joint Conference on Neural Networks (IJCNN)等。
滴滴希望通过打造具有滴滴特色的科研数据集,携手学界共同探索、扩宽科学的边界,将尖端科技应用到改变世界的实践中。滴滴副总裁、AI Labs负责人叶杰平教授表示,滴滴一直在利用大数据、AI技术来改善城市的交通,也希望能和更多的科研工作者一起,激励更多科技创新,在智慧交通前沿做出更多的前瞻探索,共同解决世界级的交通、环保挑战,“我们非常愿意向高校、科研机构开放部分脱敏数据和计算基础设施,未来盖亚数据开放计划也将在保证安全的情况下不断扩大”。
四. 问题与思考
滴滴盖亚数据开放平台不仅仅是数据开放本身,更多是期待通过企业和学界的合作网络,探索通过数据整合、传播与协同来解决公共问题的途径。当前,人类正从数据时代走向智能时代,数据作为一种新的基础资源,将与网络、能源等物理设施一样重要。滴滴致力于推进数据开放,但是在实践的过程中,仍然遇到一些问题,引发一系列思考:
【1】应建立健全的盖亚数据开放计划生态体系。随着数据开放计划的影响力不断提升,将数据合法合理的应用于公共问题的解决需要多方协力,我们将组建开放智库,从数据安全、数据保护、科研价值等多角度多方面共同指导数据开放计划,并且通过对数据成果的追踪与管理,建立一个从开放到应用的良好学术生态。
【2】应加强盖亚数据开放计划的基础平台建设。目前,我国数据开放政策仍处于起步阶段,并且全球各个国家对于数据安全保护的法律法规具有一定差异性,作为数据开放起步较早的民营企业之一,我们需要更审慎更高标准地要求自己,也需要具有一定突破创新精神,如何加强平台建设,如何更好联动各方资源是下一步亟待解决的问题。
【3】应完善盖亚数据开放计划的管理机制。互联网信息具有多样化、传播快、监管难等特点,在推动数据开放计划时,一方面需进一步加强对数据的安全管理,另一方面,如何更好地与时俱进实现数据追踪是难点也是极富有挑战的方向。
(注:该案例由滴滴科技合作部于2018年11月报送)
评论前必须登录!
注册