统计数字问题

前言

这学期学校开设了算法课,我们的教材是王晓东编著的《计算机算法设计与分析(第四版)》,在第一章绪论的课后编程练习题里看到了这个题目,除了最朴素的解法,自己并没有想到复杂度更低的办法,上网看了很多博客文章,或多或少都有讲的不清楚的地方,在绞尽脑汁想明白了一些地方后,觉得有必要自己来写一篇文章,算是为后人铺铺路吧。

南京之行

为期将近一年的第一届全国高校云计算创新大赛终于在昨天落下了帷幕,算是我们小组前段时间工作的结束吧。期间也断断续续,举办方不断拖延,也是经历了好多。从刚开始组建我们cloud组,到大赛报名,到提交初赛题目,到进入决赛,到提交决赛题目,到现场答辩,期间也“顺手”做了些了苏州公交数据分析,也算是对hadoop等工具的使用训练。奖项也在意料之中,一等奖不曾考虑过,二等奖最有可能,今天颁奖典礼果真如此,还算不错,虽然答辩时不如其他组讲的生动,ppt也丑(我逃……

Text Analytic in R

文本分析是一件很有意思的事情。比如说通过分析一封邮件里的文本,来判断其是不是垃圾邮件等。还记得上学期翘了下午的马克思去听了一个在谷歌工作的学长关于大数据的讲座,当时他也有讲到Gmail来过滤垃圾邮件,采用的是逻辑回归的办法。当时我也不懂什么是逻辑回归,感觉很不可思议。学了这章之后,发现逻辑回归模型用于判断是否为垃圾邮件似乎不可行,因为当每个单词都成为一个单独的变量的时候,变量个数是非常多的,变量个数多带来的后果自然是逻辑回归模型的过拟合,不知谷歌到底怎么做的……

分类回归树与随机森林(R语言)

前言

写这篇文章前,突然想到一个问题,就是文章的读者定位。发现自己之前写文章的时候还没有考虑到这个问题,有的文章是以科普的形式来写,面向没有任何基础的读者,而有的文章介绍的知识则比较专业,需要读者有一些该方面的积累。所以我觉得这篇文章应该属于个人学习总结,主要是自己对于课程学习的一些记录与积累,适用人群应该比较少。和我一起上此课的同学应该有比较多的体会吧。

Logistic Regression in R

一开始让我写这篇小结,其实我是拒绝的……原因有以下几点:

  • 在学习edx里的这一单元知识之前,我对逻辑回归一无所知,学了之后也不见得精通多少;
  • 我了解的有关于逻辑回归的知识还停留在英语的层次,就是说我不知道怎样用通俗的中文去把自己知道的东西讲出来,很多专业的名词,看见英语单词可能我知道什么意思,但要说成中文让人明白还是捉襟见肘;
  • 基于以上两点,自己学得真的不咋滴……

但是想想还是写点东西,一来是为了回顾一下学到的东西,虽然精华夹杂着糟粕,总比几日之后全部抛在脑后要好;二来等自己以后有兴趣深入这方面的学习,也可以回来补充完善一下自己的见解。

春风花草香

昨天刚刚立春,在经过一周的连绵阴雨之后,双休日天气格外的好,校园里到处是摆弄手机和相机的游客,我也无心坐在电脑前,骑车随处逛了逛校园,感受一下春天的气息。

Linear Regression In R

趁着闲暇的双休日,把edx上面的“The Analytic Edge”课程Unit2看完了,学习了一下用R来分析数据,建立线性回归模型分析数据。由于之前也没有了解过有关线性回归方面的东西,看的课程都是英文,所以文章中有写的不到位的地方还请读者们多加指导。

快速乘法与快速幂

最近辅导员通知我们去报考CCF认证,具体也不是很清楚,就说考试形式和ACM差不多。虽然大一搞过ACM,但实际上也都是水过去的,两个实验室两头跑,这也是当初没做好抉择,失败的一个地方。顺便闲扯一下最近对ACM的看法吧,如今我已经大二下学期,时间不是很多,感觉全部投入去搞ACM应该不是一个合适的选择,实验室还有其他项目要做。个人认为与ACM有关的一些基础算法是有必要掌握的,如今也在慢慢弥补,开始注重理解。ACM如今于我,可能就止于闲暇时去oj上刷两题,或者周末去bestcoder、codeforces洒洒水之类吧,想再去拿牌子是不期望了。以前的机会没抓住,也就没了。现在还有一大波新鲜的学弟在如火如荼地搞着,他们充满了热情,也需要更多的机会。总之摆正心态,注重自身的学习与积累才是真的。

R语言基础学习

前言

之前在做实验室的苏州公交数据分析的时候,曾做了一些反映数据情况的图表,当时是用学长介绍的R语言,参考资料是学长提供的一本资料《R语言实战》,当时主要了解了几个画图的函数,对R的了解还甚是肤浅。R的强大不仅在于画图,更重要的在于数据分析和处理,上个礼拜学长又向我推荐了一门网上的公开课——The Analytics Edge,主要内容是用R来进行数据分析,包括一些算法的学习,比如“线性回归”、“逻辑回归”等。这几天抽空把第一单元R语言基础介绍学习了一下,了解了更丰富的R的用法,写篇小结来巩固一下。

|