A题:基于非侵入式负荷检测与分解的电力数据挖掘
出题单位——广州市能智电力技术有限公司
一、背景
区别于常规的连接在入户线上的电能表只能获得总能耗数据,电力分项计量可以对连接到入户线后的建筑物内各个用电设备所消耗的电能进行独立计量。电力分项计量对于电力公司准确预测电力负荷、科学制定电网调度方案、提高电力系统稳定性和可靠性有着重要意义;对用户而言可以帮助用户了解用电设备的使用情况、提高用户的节能意识、促进科学合理用电。另一方面,分项计量还可以针对能耗数据来实现设备老化、故障预警的功能,在我们的生产、生活中有非常实际的意义。同时,基于电力分项计量的一系列技术,是将电器识别作为物联网的一个重要研究方向,从物理层面去真正查看、操控物联网设备,达到绝对可信的要求,这是未来物联网的目标。
分项计量技术目前主要分为两种:一种在总负荷内部为每个用电设备配备带有数字通信功能的传感器,通过通讯网络采集各用电设备的用电信息,这种方式称为侵入式电力负荷监测(intrusive residential load monitoring,ILM);另一种如图1所示,仅在电网的用户入口处安装一个传感器,通过采集和分析用户用电总功率或总电流来监测每个或每类用电设备的用电功率和工作状态,从而了解用户家中每个或每类用电设备的耗电情况和用电规律,这种方式称作非侵入式电力负荷监测与分解(non-intrusive load monitoring and decomposition,NILMD)。基于NILMD技术的用电分析计量具有简单、经济、可靠和易于迅速推广应用等优势,更加适用于居民用户。
图1 非侵入式电力负荷监测与分解系统示意图
NILMD装置量测得到的是整个线路上的电压、电流数据,它们可以看作是各个用电设备的电压、电流数据的叠加。NILMD的核心,是如何从采集到的整条线路的电压、电流数据中“分解”出每个用电设备独立的用电数据。
就像人类的声纹、指纹等生物特征具有唯一性可以用来实现个体识别一样,不同种类和型号的用电设备在运行过程中产生的电压、电流以及谐波等时序数据中也有相对稳定的较为显著的特征,称之为用电设备的负荷印记(load signatures,LS)。而根据用电设备运行的过程,又可将数据分为暂态数据和稳态数据两大类,其中暂态数据主要指设备启动、设备停止、设备模式切换时的状态数据,稳态数据主要指设备稳定运行时的状态数据。
图2所示的电器启动暂态功率波形就是一种典型的LS。因工作原理不同,荧光灯和电动机的暂态行为明显不同。
图2 电器启动暂态功率波形是一种典型的LS
NILMD系统的目标是根据不同类型用电器独特的负荷印记从一个能源网关设备记录的数据中检测出接入该设备的电路中各种用电器的开关等操作,并对其用电量进行分项计量。
用电设备根据用户用电设备工作状态的不同,可分为以下3种类型:
(1) 启/停二状态设备(ON/OFF)。这类用电设备只有运行和停机两种用电状态,如白炽灯、电热水壶等。
(2) 有限多状态设备。这类用电设备通常具有有限多个分立的工作状态,与之相对应的用电功率间是离散的,不同的功率水平即标志着不同的工作状态,如洗衣机、微波炉、电磁炉等。
(3) 连续变状态设备。这类用电设备的稳态区段功率无恒定均值,而是在一个范围内连续变动,如变频空调、电动缝纫机等。
......
请仔细阅读以下对于A题的说明:
1、关于赛题数据
①部分数据:2018年3月1日公布部分数据。
②全部数据:2018年4月1日公布挑战赛使用的全部数据。
③测试数据:2018年4月15日上午8:00:00准时放出测试数据,并于2018年4月15日上午12:00:00前提交测试结果。
④以上数据请参赛者在相应时间点根据本页面提示下载。
2、提交作品
①挑战赛作品内请勿出现学校、学院、队员以及指导老师相关任何信息,否则该作品视为无效作品。
②请参赛队于2018年4月14日23:59:59之前在挑战赛系统中在线提交大小不超过50M的论文正文的PDF文件。同时,在系统中获取附件的MD5码【这里的附件为包括论文正文(doc式)、源数据(组委会提供的源数据外)、过程数据、程序及模型文件的压缩包】;请注意获取该压缩包对应的MD5码后,对文件进行的任何操作(如打开、编辑、另存等),都将改变压缩包对应的MD5码,造成无法上传,因此,请参赛队获取MD5码之后,不要再对参赛作品及附件进行任何操作,直到2018年4月15—18日(23:59:59之前)完成参赛作品附件(不超过200M)的上传。
3、公布测试数据,提交测试结果
2018年4月15日上午8:00:00准时放出测试数据,请在"结果测试"页面下载测试数据,并于2018年4月15日上午12:00:00前将测试结果上传至FTP指定路径(FTP路径将于2018年4月10日公布)。
4、提交附件
2018年4月15—18日(23:59:59之前)在系统中在线提交挑战赛作品附件,附件大小不得超过200M。
B题:电视产品的营销推荐
出题单位——广州泰迪智能科技有限公司
一、问题背景
伴随着互联网技术的快速发展和应用拓展,“三网融合”(因特网、电信网、广播电视网)为传统广播电视媒介带来了发展机遇,广播电视运营商可以与众多的家庭用户实现信息的实时交互,使得全方位、个性化的产品营销和有偿服务成为现实。
某广电网络运营公司现已建设大数据基础营销服务平台,附件1~附件3给出了部分用户的观看记录信息数据和运营公司的产品信息数据。该公司请你们深入分析附件1~附件3的信息数据,利用数据挖掘的方法解决下面的问题。
二、解决问题
1.产品的精准营销推荐
根据附件1所给出的用户观看记录信息数据,试分析用户的收视偏好,并给出附件2中产品的营销推荐方案。
2.相似偏好用户的产品打包推荐
为了更好地为用户服务,扩大营销范围,利用附件1~附件3的数据,试对相似偏好的用户进行分类(用户标签),对产品进行分类打包(产品标签),并给出营销推荐方案。
三、数据说明
附件1:用户收视信息数据,记录数:561288条;
附件2:电视产品信息数据,记录数:41876条;
附件3:用户基本信息数据,记录数:1329条。
请仔细阅读以下对于B题的说明:
1、关于赛题数据
①部分数据:2018年3月1日公布部分数据。
②全部数据:2018年4月1日公布挑战赛使用的全部数据。
③测试数据:2018年4月15日上午8:00:00准时放出测试数据,并于2018年4月15日上午12:00:00前提交测试结果。
④以上数据请参赛者在相应时间点根据本页面提示下载。
2、提交作品
①挑战赛作品内请勿出现学校、学院、队员以及指导老师相关任何信息,否则该作品视为无效作品。
②请参赛队于2018年4月14日23:59:59之前在挑战赛系统中在线提交大小不超过50M的论文正文的PDF文件。同时,在系统中获取附件的MD5码【这里的附件为包括论文正文(doc式)、源数据(组委会提供的源数据外)、过程数据、程序及模型文件的压缩包】;请注意获取该压缩包对应的MD5码后,对文件进行的任何操作(如打开、编辑、另存等),都将改变压缩包对应的MD5码,造成无法上传,因此,请参赛队获取MD5码之后,不要再对参赛作品及附件进行任何操作,直到2018年4月15—18日(23:59:59之前)完成参赛作品附件(不超过200M)的上传。
3、公布测试数据,提交测试结果
2018年4月15日上午8:00:00准时放出测试数据,请在"结果测试"页面下载测试数据,并于2018年4月15日上午12:00:00前将测试结果上传至FTP指定路径(FTP路径将于2018年4月10日公布)。
4、提交附件
2018年4月15—18日(23:59:59之前)在系统中在线提交挑战赛作品附件,附件大小不得超过200M。
C题:智能阅读模型的构建
出题企业——广州火焰信息科技有限公司
一、赛题背景
近年来,自然语言处理(NLP)作为人工智能的一个重要领域得到了飞速发展,并且相关技术及其应用的需求日益广泛。在国家政策的推动下,目前市面上有众多的创业公司,对NLP的人才需求相当大。
目前,作为人工智能中自然语言处理的代表产品之一,“智能交互技术”已经逐渐渗透到我们周围的很多产品中。但是很多所谓的智能产品,仅仅可以识别一些特定命令,例如,当输入为“打开QQ”,就能够启动QQ,但输入改为“看一下QQ”,就会毫无反应,更不用说一般的语言交流了。而对于普通大众来说,他们希望机器更加“智能”,能够通过自然语言就可以跟机器交流,让机器为我们服务,最大程度上减少额外学习负担,所以未来自然语言处理的一个发展方向就是如何让用户“更自然”、“更低成本”地实现人与机器的交流。
本赛题聚焦于智能交互在电子书阅读的应用。
日常生活中人们要阅读大量的txt文本,其内容可能是小说、教程、文集、词典等。很多情况下我们只是需要从文本中查找某一些片段来解决我们的问题。比如,通过查找法律文献中的一些段落来解决我们的法律疑惑,这时并不需要精读整个法律文献;对于小说,有时候我们也只是想知道其中一些特殊细节,并不想花时间去通读整个小说;因此我们希望智能阅读技术能够在这方面提供一些帮助。下面是两个典型的智能阅读的使用场景:
场景一:
TXT:汽车的说明书
问题:1、怎样打开远光灯? 2、后排要不要系安全带?
需求:定位到txt中能帮我们回答问题的所在行,或者给出明确的答案
场景二:
TXT:《射雕英雄传》小说全文
问题:1、“江南七怪”分别是谁? 2、九阴真经的作者是谁?
需求:定位到txt中能帮我们回答问题的所在行,或者给出明确的答案
本题希望能够构建一个智能的文本挖掘模型,针对自然语言输入的问题,能够根据txt内容给出需要的回答。
......
请仔细阅读以下对于C题的说明:
1、关于赛题数据
①部分数据:2018年3月1日公布部分数据。
②全部数据:2018年4月1日公布挑战赛使用的全部数据。
③测试数据:2018年4月14日上午12:00:00准时放出测试数据,并于2018年4月15日上午12:00:00前提交测试结果。
④以上数据请参赛者在相应时间点根据本页面提示下载。
2、提交作品
①挑战赛作品内请勿出现学校、学院、队员以及指导老师相关任何信息,否则该作品视为无效作品。
②请参赛队于2018年4月14日23:59:59之前在挑战赛系统中在线提交大小不超过50M的论文正文的PDF文件。同时,在系统中获取附件的MD5码【这里的附件为包括论文正文(doc式)、源数据(组委会提供的源数据外)、过程数据、程序及模型文件的压缩包】;请注意获取该压缩包对应的MD5码后,对文件进行的任何操作(如打开、编辑、另存等),都将改变压缩包对应的MD5码,造成无法上传,因此,请参赛队获取MD5码之后,不要再对参赛作品及附件进行任何操作,直到2018年4月15—18日(23:59:59之前)完成参赛作品附件(不超过200M)的上传。
3、公布测试数据,提交测试结果
2018年4月14日上午12:00:00准时放出测试数据,请在"结果测试"页面下载测试数据,并于2018年4月15日上午12:00:00前将测试结果上传至FTP指定路径(FTP路径将于2018年4月10日公布)。
4、提交附件
2018年4月15—18日(23:59:59之前)在系统中在线提交挑战赛作品附件,附件大小不得超过200M。