百度开放海量数据集2018机器阅读理解技

2019-05-15 05:18:02 来源: 襄阳信息港

随着语言与智能领域的新发展,由中国中文信息学会(CIPS)、中国计算机学会(CCF)和百度公司联手举办的2018机器浏览理解技术竞赛将于2018年3月1日正式开启报名通道。报名地址及赛事详情请登录2018机器阅读理解技术竞赛官。获胜团队将分享总额10万人民币的奖金,并将在第三届语言与智能高峰论坛上进行技术交流和颁奖。

机器浏览理解的任务就是让机器阅读文本,回答和阅读内容相关的问题,其中涉及到语言理解、知识推理、摘要生成等复杂技术,极具挑战。在当今互联应用中,智能搜索、内容推荐、语音助手与智能客服等领域的发展,都大量依靠于机器阅读理解阅读真实问题、真实互联材料,给出完全答案的AI能力。从海量真实数据中训练AI,是自然语言处理和人工智能领域的重要前沿课题。

为此,本次竞赛中将提供面向真实运用场景的大规模中文浏览理解数据集。数据集包括来自百度搜索的30万个真实问题,每一个问题对应5个候选文档文本,以及人工撰写的优质答案。比赛任务是对于给定问题q及其对应的文本形式的候选文档集合D=d1, d2, ..., dn,要求参评浏览理解系统自动对问题及候选文档进行分析,输出能够满足问题的文本答案a。为了便于参赛选手快速了解比赛任务,比赛还提供了两个开源的阅读理解基线系统,并采用ROUGH-L和BLEU作为评价指标。

百度与CIPS、CCF联合举行2018机器浏览理解技术竞赛并开放数据集,旨在为研究者提供学术交流平台,进一步提升机器阅读理解技术的研究水平,并希望更多研究者能够利用数据集产出更好更优良的机器阅读理解模型,推动语言理解和人工智能领域技术研究和应用的发展。对此,百度自然语言处理首席科学家兼百度技术委员会主席吴华表示,我们希望能够与领域内的其他同行者一起,推进机器阅读理解技术和应用的研究,使 AI 能够理解人类的语言、用自然语言与人类交换,让 AI 更懂人类。

有数据显示,中国人工智能人才缺口超过500万,在自然语言处理技术成为人才竞争核心领域之一的今日,百度通过开展机器阅读理解技术竞赛、百度之星开发者大赛、PaddlePaddle AI大赛等多个人工智能行业竞赛并开放海量优良AI数据资源,正是希望携手并赋能AI行业的优质人材,进一步推动人工智能领域的技术交流和发展,为研究者提供强大的学习驱动力与创造力,培养与成就更多中国人工智能领域的精英技术人才,终究持续推进中国AI产业的发展,让愈来愈多的中国面孔亮相于人工智能领域的世界舞台。

在此,百度诚邀所有对AI数据集有兴趣的技术人才了解和关注百度浏览理解数据集。已公然的浏览理解数据集可以自由下载,并通过平台提交测试集结果进行系统效果测试。除了阅读理解数据集,百度AI公开数据集计划BROAD(Baidu Research Open-Access Dataset)还发布了视频和图像数据集,更多数据集参见:。

未来,百度将继续在AI人才培养中发挥重要作用,助力产学研各方展开研究,增强我国在机器阅读理解领域的影响力,让人材成为AI领域延续领跑的强力引擎。

常吃什么能预防经间期出血
经期痛经吃什么水果好
体寒痛经吃什么调理
本文标签: