挑战赛 状态 主办方 竞赛开始日期 奖金 已报名队伍
第一届泰迪杯全国大学生数据挖掘竞赛 已结束 2013-02-20 ¥3000 54
竟赛结束

第一届太普华南杯数据挖掘竞赛


试题说明:1、参赛选手可从下述试题中任选一题作答,并在论文报告中标明
2、论文等级会综合考虑论文质量和难度系数


试题一 航空客运信息挖掘(难度系数:1.0)
很多人都听说过马来西亚的亚洲航空、美国的西南航空等公司的大名。这些公司成功的秘诀就是擅于提高上座率。为了争到客源,有些公司甚至提出了与长途巴士进行价格竞争的口号。如此看来,国内航空公司并不是把其它航空公司当作主要竞争对象,主要对手应当是火车或长途汽车。适当的低票价,将使航空资源得到充分利用,如果空座率居高不下,哪怕票价卖得很高,本身就已经出现了资源性亏损。
本例就是期望从航空公司感兴趣的主题,例如流失预测、客户细分和客户价值评估等方面,通过数据挖掘技术,实现提升航空客运的上座率目标。
附件数据集来自国内某航空公司的会员数据,共有62988个样本,每个样本有63个属性,各属性说明见“变量含义”Sheet页。除了每个客户的基本资料外,该数据集还包含了一个观测窗(2年)内8个季度的用户飞行数据,包括乘机次数、里程、积分等。参赛者可尽量使用任何的数据挖掘技术来发现尽可能多的知识,建议的数据挖掘主题包括但不限于建立客户流失模型、客户细分和客户价值评估。


试题一数据下载:试题一数据集


试题二 道路缺陷自动识别(难度系数:1.0)
城市道路是城市建设的主要项目之一,工程建设涉及面较广,工程条件较复杂,是由多项目、多工序彼此交错和相互制约所组成的线形工程,影响工程质量的因素较多,施工中不可避免地会出现不同程度的质量问题,表 1列出了主要的道路缺陷类型,如龟裂,裂痕,网裂,坑槽,剥落等,详细图像数据见附件。请采用图像处理技术,对不同缺陷类型进行特征提取,并采用数据挖掘技术进行模式识别,实现不同道路缺陷类型的自动识别。

表一.jpg


试题二数据下载:试题二道路缺陷图像


试题三 肝癌手术治疗效果评价(难度系数:0.7)
选取某医院10年来肝癌病例总共4860例,每个病例有病人近80个信息,其中包括患者病历号、性别、年龄、学历、职业、住址、基本病史、临床体征、恶性肿瘤分类、实验室检验指标、影像学检查等,经过数据预处理,选取其中20个有代表性的样本,选取对预后有影响的l0个指标如表2。

表二.jpg

各指标项说明见表3。

表三.jpg

请以预后影响作为评价标准,建立数据挖掘模型,对手术的治疗效果和方案的优劣进行预测,为病人规划最佳的手术和治疗方案。


试题三数据下载:试题三数据集

     本届大赛吸引了全国近二十所高等院校相关专业的学生参加,比赛于2013年3月9日正式开始,2013年4月21日参赛者提交作品,竞赛结束。大赛总共收到56份优秀数据挖掘论文,经过广州泰迪智能科技技术有限公司、华南师范大学历时半月的评审,最后决出特等奖作品一份、一等奖作品三份、二等奖作品三份、三等奖作品五份、优秀论文奖作品十六份、成功入围奖作品十九份。评奖结果考虑到了不同题目的难度系数。由于研究生队伍的论文质量普遍高于本科生队伍,特等奖及一、二、三等奖中,论文质量接近的,本科生队伍排名在前。

 
获奖者名单:

特等奖(一队)

林昂、骆其伦(华南师范大学)

一等奖(三队) 

余燕团(湖南师范大学)
陈建林、肖宇,吴晓声(华南师范大学)
陈豪、张雄机(华南师范大学)

二等奖(三队)

陈福明、孙文翔、云伟标(中山大学)
程裕、蔡少真、李伟东(华南理工大学)
王军晓、周雨来、丁铖(大连海事大学)

三等奖(五队)

郑梓豪、卓梓烨(华南师范大学)
李银城、李燕珊(华南师范大学)
彭晨枫、李立宇(汕头大学)
黄楚云、张洪璇、唐梓桓(华南师范大学)
郭骁、张会、李婷(西北大学)

优秀论文奖  16组

蔡健威、莫朗星、李德惠(华南师范大学)
陈昭(福建中医药大学)
冯昭凯、李玉婷、徐惠欣(华南师范大学)
公荣涛、王旭、陈明艳(华南理工大学)
黄莉莉、陈彦、郑泽鹏(华南师范大学)
李立宇、孟迪(汕头大学)
李茜、马俐、张棋(西北大学)
李智(厦门大学)
林惠洁、陆要桂、许童舟(华南师范大学)
林瑾怡、吴舒、马丽璇(广东技术师范学院)
沈鹏、蔡陈炯、邓松华(华南师范大学)
沈秀琴、杨舒舒、谢晓东(华南师范大学)
王枝宁、杨燕生、黄梓博(韩山师范学院)
纪东升、杨瑞阳、王小平(兰州大学)
张龙、周汉海、雷鹏(兰州大学)
郑贵生、翟振威、吴迪(华南师范大学)

成功入围奖  20组

程艺林、陈茜、王璞玉(西北大学)
范丹、高斯远、陈晓宇(西北大学)
符泽厚、刘佳、吴鹏(西北大学)
李强、赵培源(西北大学)
李少华、李丽熠、王梓(西北大学)
李学峰、董晶晶、刘文霞(西北大学)
林晓丽、姚春玲、黄晓灵(华南师范大学)
林振清、罗细兰、林春梅(广东技术师范学院)
刘茜、索航、文都静(西北大学)
刘阳、马敏、许鸿(兰州大学)
裴家欢、奚圆圆、张欢(大连海事大学)
魏晓玲、肖海群、李广涛(广东技术师范学院)
徐京、蒋胜、(安徽工程大学)
许文杰(佳都新太科技股份有限公司)
姚三朵、王瑶、鱼欣(西北大学)
易发宝(湖北民族学院)
尹彩霞(鲁东大学)
张婕、黄诚鹏 李逸群(西北大学)
朱芳(重庆大学)
王珂、李航、窦浩桢(郑州大学)
魏弘平(广东石油化工学院)

  • 2013-04-22 14:57:29,本站原创
    本文基于 Logistic Lasso 回归模型研究肝癌手术预后影响的主要因素及预测。通过对模型系数施以稀疏约束,研究了肝癌手术预后影响的主要因素并依重要性排序。选择前16组数据作为训练集,后4组数据作为测试集,结果显示:食道静脉曲张,Anti-HCV,肿瘤包膜,肿瘤旁的微小子灶为主要因素。训练集上拟合准确率为14/16=87.5%,预测集上准确率为3/4=75%。同时ROC曲线显示我们的分类器性能良好,且上述结果符合医学先验。我们的结果为新病人治疗提供了一种参考,从而为病人手术方案的设计和调整提供了参
  • 2013-04-22 14:55:56,本站原创
    本文主要研究了某医院10年来肝癌病例中的20个有代表性的样本,通过建立逻辑回归的数据挖掘模型对预后有影响的10个指标进行分析,实现对预后效果的预测以及寻找各个变量之间的重要程度,从而为病人规划最佳的手术治疗方案。在建模中,我们首先通过对样本数据进行基本的描述性统计分析,初步观测每个指标对预后影响是否显著。然后再利用逻辑回归模型对预后影响进行预测。进一步的,为了消除指标中的共线性性以及寻找对预后有显著影响的指标,我们在原方法的基础上采用了逐步回归的思想优化原有的逻辑回归模型,通过设置显著性水平的阈值来发现对
  • 2013-04-22 14:54:25,本站原创
    本文针对附件所提供的道路缺陷图像,运用MATLAB图形图像处理工具箱进行图形处理,包括图像的预处理,图像分割,图像特征提取,图像边缘检测等,并得到了预期效果。在分析比较传统方法对道路缺陷图像增强效果及不足之处的基础上,通过对实验分析,选用了梯度倒数加权平均滤波算法,它能有效地平滑图像背景、消除大部分噪声。在图像分割中,根据不同缺陷图像,分别进行了边缘检测和灰度阈值分割,提出了随机游动分割方法进行坑槽图像的分割,得到了较为满意的结果。
  • 2013-04-22 14:53:28,本站原创
    随着经济的的发展,交通在国民经济和生活中的重要性显著提高。城市道路是城市建设的主要项目之一,工程建设涉及面较广,工程条件较复杂,是由多项目、多工序彼此交错和相互制约所组成的线形工程,影响工程质量的因素较多,施工中不可避免地会出现不同程度的质量问题。为了提高公路使用寿命,公路养护工作也得到越来越多的重视。本文介绍了基于图像处理的路面检测及基于数据挖掘技术的道路缺陷类型自动识别的研究。
  • 2013-04-22 14:52:46,本站原创
    本文对原始图像采用灰度化、线性和分段增强对比度去噪、二值化、最后去除小区域的图像处理技术进行预处理,对预处理后的不同缺陷类型图像我们建立了两个识别模型:①通过提取条纹特征、形状特征,运用Apriori算法获取频繁集,建立了关联分析模型; ②进行LBP纹理特征提取,并采用支持向量机的方法建立识别模型,以准确率的比较作为反馈,选取最优的SVM参数,调节基于支持向量机的识别模型; 以上两种模型的建立都很好的解决了道路路面识别的问题,并在此基础上提出一种模型新构想,即用深度学习的机器算法DBN建立识别模型。
  • 2013-04-22 14:51:31,本站原创
    论文主要分为以下几部分:先对路面图像去噪,然后图像分割,在预处理过的图片上进行缺陷图像特征提取并作缺陷识别。在分析了路面裂缝的特征之后,本文选用了小波包阀值并辅以中值滤波的方法进行去噪,实验证明经过这样处理之后,图片的质量有了很大的改善,很好抑制了噪音的同时也尽可能地保留了原图片的相关细节。在图片分割的处理上,本文使用了基于分型特征的图像分割方法,这样处理后的道路缺陷图像的分形维数。在提取到路面缺陷图片的裂缝特征向量之后,本文使用了BP神经网络算法对道路缺陷进行了分类处理。
  • 2013-04-22 14:50:31,本站原创
    路面损坏检测是交通信息工程和模式识别领域的一项挑战性的工作。随着图像处理技术的发展,将这些技术应用到路面损坏检测,既可以排除人的主观因素的干扰,又能快速而准确地进行公路状况的评估。本文主要根据路面图像,给出一个基于整体与局部两阶段特征提取方法,可以对损坏程度和损坏类型分类,主要涉及两点:路面破损图像的特征提取及将路面损坏进行分类。通过对已有的路面图像进行实验,结果表明该方法可以有效对道路损坏进行分类,特别是对损坏程度严重的路面,特征提取和匹配的效果非常好。
  • 2013-04-22 14:46:46,本站原创
    提高航空客运的上座率既能使航空资源得到充分利用,更能显著的增加航空公司的效益。为了实现这一目标,我们从大量航空公司会员的会员数据出发,通过数据挖掘技术,分别建立用户细分、用户价值评估和流失预测模型,区分客户群,并提出相应的营销策略,从而达到提高上座率和效益的目标。
  • 2013-04-22 14:45:53,本站原创
    根据对客户保持的研究表明“顾客忠诚度提高5%,企业利润将增加25.125%”,建立新客户的难度是保持老客户的5-10倍,维系老客户的营销成本远远低于获取新客户的成本。本文基于国内某航空公司超过60000个会员数据,结合现有成熟的客户管理模型,在对数据样本集进行预处理后通过数理统计的方法对样本属性进行相关性分析,挑选出对构建行为忠诚度模型高影响的因子,构建客户的忠诚度价值模型。同时基于客户价值区分RFM分析法,建立基于均值的RFM模型、基于聚类的RFM模型和基于PCA处理后的RFM模型对客户价值水平分类,且
  • 2013-04-22 14:43:11,本站原创
    为了提高航空的上座率,对样本数据进行挖掘进行客户流失预测、客户细分及客户价值评估。基于logistic回归分析建立客户流失预测模型,得出每个客户的流失倾向概率。定义一阈值为0.5,若流失倾向概率大于0.5,则该客户的预测状态为流失;反之,则非流失。 建立RFM模型将客户划分为重要保持客户、重要发展客户、重要挽留客户、忠诚型一般客户、低价值客户五个类别。最后,综合分析客户的类型和流失状态,分析不同客户的特征。
  • 2013-04-22 14:42:40,本站原创
    近年来,客户关系管理(CRM)在金融、电信、电子商务等许多行业内受到了越来越高的重视。而对 CRM中任何领域的研究必需条件就是对客户进行分类,从而对不同类型的客户分别采用不同的管理策略。当前的客户关系管理主要基于RFM(Recency Frequency Monetary)模型用数据挖掘技术中的聚类方法对客户细分,但是,第一方面,该方法只选择客户属性中的R(最近一次消费)、F(消费频率) 、M(消费金额)这3个属性对客户进行分类,而客户的消费行为的影响因素是多样的,所以该方法只能对客户进行价值分类,并不能
  • 2013-04-18 17:52:42,本站原创
    为了在高校中推广数据挖掘的教学和实践,在企业中推广数据挖掘的创新和应用,加强校企交流互动和信息共享,提升高校的教学质量和企业的竞争能力,华南师范大学数学科学学院联合广州泰迪智能科技有限公司发起了第一届泰迪华南杯数据挖掘竞赛,为相关专业学生提供一个将理论知识与数据挖掘实践相结合的研究探索平台,为中国数据挖掘人才培养献出自己的一份力量。
  • 2013-03-06 10:02:26,本站原创
    1、网上报名的资料是否允许修改?2、是否允许以个人名义参赛?3、论文如何提交?此常见问题列表会持续更新,如有未提及问题,可通过QQ群 295026770 咨询老师。
  • 2013-02-25 20:35:54,本站原创
    报名时间:2013年2月20日------2013年3月8日;比赛指导:2013年3月9日------2013年3月22日;比赛时间:2013年3月9日------2013年4月21日;网评时间:2013年4月21日------2013年4月28日;终审时间:2013年4月29日------2013年5月5日
公众号
返回
顶部
请关注“官方公众号”
Copyright © 2013-2016   广州泰迪智能科技有限公司   技术支持   粤ICP备14098620号