• 2016-12-27 15:20:56,本站原创
    笔者对数据分析、计算机等方面很感兴趣,近日兴致来了,想做一下自己的专业和数据挖掘相结合的研究,所以就爬取了ARXIV上面近几年(2010年到2014年)的数学论文(包含的数据有:标题、分类、年份、月份),想对这几年来数学的“行情”做一下简单的分析。笔者认为,ARVIX作为目前全球最大的论文预印本的电子数据库,对它的数据进行分析,所得到的结论是能够具有一定的代表性的。 当然,本文只是用来练手爬虫和基本数据分析的文章,并没有挖掘出特别有价值的信息。原文中有笔者爬取到的数据,供有兴趣的读者进一步分析研究。
  • 2016-12-27 15:05:46,本站原创
    Python基本是笔者目前工作、计算、数据挖掘的唯一编程语言(除了符号计算用Mathematica外)。当然,基本的Python功能并不是很强大,但它胜在有巨量的第三方扩展库。在选用Python的第三方库时,笔者都会经过仔细考虑,希望能挑选出最简单的、最直观的一个。 tqdm和retry库是两个可以渗透到日常写代码的库,它实现了我们平时很多时候都需要的功能,但是不用增加什么代码,绝对让人眼前一亮。
  • 2016-12-27 14:09:02,本站原创
    dplyr包将原本plyr包中的 ddply等函数进一步分离强化,专注接受dataframe对象,大幅提高了速度,并且提供了更稳健的与其它数据库对象间的接口。下面将介绍强大的dplyr包,其可以非常灵活、快速的实现数据的预处理。
  • 2016-12-27 11:50:44,本站原创
    数据质量分析是数据挖掘中的重要一环,错误的假设和糟糕的数据问题都是导致数据挖掘结果产生偏差的重要原因。数据挖掘从业者常常会说“垃圾进,垃圾出”,装入的数据是垃圾,计算出来的结果也是垃圾。很多的时候我们过度重视重视算法,而忽略数据本身,算法固然重要,但是优质完整的数据却是要优于好的算法,假设如数据质量一样,数据特征选择合理,就算法的本身而言是不会有特别大的差异的。 那么,基于以上的认识,在做数据挖掘建模之前,往往先要做相关的数据准备,本文重点介绍一下数据质量分析。
  • 2016-12-27 11:44:07,本站原创
    上一篇文章文章很粗糙,但还是得到了不少读者的反响,让笔者颇为意外。然而,那篇文章中在实现上有些不清楚的地方,这篇文章完成一些之前没有完成的测试。 为什么要用深度学习模型?除了它更高精度等原因之外,还有一个重要原因,那就是它是目前唯一的能够实现“端到端”的模型。所谓“端到端”,就是能够直接将原始数据和标签输入,然后让模型自己完成一切过程——包括特征的提取、模型的学习。
  • 2016-12-27 11:28:50,本站原创
    在上一篇文章中,笔者简单介绍了进行文本情感分类的传统思路。传统的思路简单易懂,而且稳定性也比较强,然而存在着两个难以克服的局限性:一、精度问题;二、背景知识问题。 庆幸的是,深度学习解决了这个问题(至少很大程度上解决了),它允许我们在几乎“零背景”的前提下,为某个领域的实际问题建立模型。本文延续上一篇文章所谈及的文本情感分类为例,简单讲解深度学习模型。其中上一篇文章已经详细讨论过的部分,本文不再详细展开。
  • 2016-12-27 11:21:19,本站原创
    作者在去参加了两个数据挖掘相关的竞赛,分别是物电学院举办的“亮剑杯”,以及第三届 “泰迪杯”全国大学生数据挖掘竞赛。很碰巧的是,两个比赛中,都有一题主要涉及到中文情感分类工作。经过这两次的竞赛,我已经基本了解深度学习的思想,并且用深度学习的算法实现了文本情感分类模型。因此,我打算将两个不同的模型分享给大家,供读者参考。刚入门的读者,可以从中比较两者的不同,并且了解相关思路。高手请一笑置之。
  • 2016-12-27 10:57:24,本站原创
    笔者爱好数据挖掘和烹饪,当数据挖掘跟厨房这两个爱好相遇了,会有什么有趣的结果吗? 于是,笔者做了这样一个事情:从美食中国的家常菜目录下面,写了个简单的爬虫,抓取了一批菜谱数据下来,进行简单的数据分析(在此对美食中国表示衷心感谢。选择美食中国的原因是它的数据比较规范)。
  • 2016-12-27 10:34:41,本站原创
    上一次介绍了Pandas包中的DataFrame数据结构,以及一些常用的增删改查语句。其中在介绍loc,iloc函数时提到了多重索引。本文主要举例子来说明如何通过多重索引对DataFrame进行切片。
  • 2016-12-27 10:02:07,本站原创
    尽管在测试环境下模型工作良好,但是实践是检验真理的唯一标准。在本节中,我们通过自己的模型,与京东的测试数据进行比较验证。
公众号
返回
顶部
请关注“官方公众号”
Copyright © 2013-2016   广州泰迪智能科技有限公司   技术支持   粤ICP备14098620号