Reviewing And Scheduling Of Horrible Tasks

这周处理的事情主要还是集中在IT技术上。

第一件事情就是Yahoo Answer的自动化数据爬取,现在已经全部迁移到了MongoDB上了,从Yahoo获取的数据格式就是json,然后没有做任何的处理直接存入MongoDB,等以后数据爬取结束后再慢慢处理吧。目前来看Python的爬取代码算是比较健壮了,现在唯一让人心碎的是学校的网速,可以用龟速来形容而一点都不显得过。今天半天时间整个数据量还没有从三万跳到4万,等看看明天的结果,就可以估算下需要多少时间了。

第二件事情就是关于SVM了,前一段时间是在看SVM的理论,但是理论实在是看的比较枯燥了,于是就想是否可以实践下,就花了半天的时间看看libSVM,大约的使用步骤算是比较清晰了,实验室中有一些公交的数据,于是我就想是否可以先使用libSVM来牛刀小试下,当然前期数据的转换还是必须要的,想来数据格式的转化应当不是什么难题。具体什么时候来试一下还是需要等时间。

第三件事情就是Activiti的研究了,由于以前曾经专门研究过Activiti的引擎,所以现在来说上手还是比较快得。但是了解引擎的运行机制并不等于了解Activiti在应用种的使用方法和技巧,所以当需要给一些应用开发人员讲解这个东西时,我需要的是怎样从引擎内核中跳出来,然后使用具体的实例来讲解这个东西是如何促进我们的应用开发的。现在看来,当初学习Activiti时确实只是钻进去了,但是对于其周边产品的组合应用还没有了解,所以现在要用它来做一个Demo,确实让我费力不少。

关于LDA的论文,我还继续在晃荡阶段,本周就是只把Gibbs抽样看了几页,还没有看到关键部分,要抓紧时间了,论文的事情拖的有些太久了。而眼看着学期末的到来,各门课程也到了复习阶段,现在做一下下周的工作计划:

任务安排 完成程度 备注
多元统计 主成分分析(PCA)推导过程及R技术  
多元统计 因子分析(FA)推导及R技术  
LDA Gibbs抽样基本看完  
PM课程 论文阅读及Presentation  
新都化工 相关数据处理  
ActivitiDemos 完成基本的ActivitiDemo演示及使用  

这周虽然没有按时去新校打羽毛球,但是在新校踢了几个小时的足球,然后全身都有了运动后遗症,接着第二天又在老校打了几个小时的羽毛球,现在敲键盘都觉着手疼了。看来下周又不能做神马运动了。

Jeff Lee /
Published under (CC) BY-NC-SA in categories it  tagged with 生活  Mining  Activiti