第一学期第12周

现在已经到了开始期末复习的时间点了,所以这周有花一些时间在看书。根据上周制定的计划,完成了主成分分析,因子分析的推导过程,ActivitiDemos的演示也已经完成,新都化工的数据处理交给了同门来做,剩下的关于LDA的Gibbs抽样没有看,PM课程的论文也没有看。现在看英文还是有些发憷的感觉。不过这周把《Data Analysis with Open Source Tools》看了不少,现在把这周具体完成的事情罗列下.

首先是WebProtege,一个关于知识地图的web工具,本周研究了下该工具的查询及存储实现,但是发现和导师的项目需求还是有很大的差距,有差距就意味着有改进的地方。WebProtege使用的是文件系统存储,而原来以为其使用的是Mongodb,但是Mongodb知识在存储一些实时讨论信息时才会使用,也就是说在整个的Protege中,对数据库的利用极其有限,这是我们可以扩展的地方之一;其二,其搜索功能的实现是基于正则表达式的,当内部的项目文档比较多时,搜索需要跨项目时,是具有严重的性能瓶颈的(但是现在没有,是因为其搜索功能的实现是针对选定的特定的项目的),这也是可以改进的地方。但整个的WebProtege是基于GWT开发的,所以其技术栈的学习成本比较高,但仍然在可以接受的范围之内。

其次是关于ActivitiDemos的演示,本次演示实现了人工节点的流程演示功能,掌握了Activiti Explorer的具体应用。针对Activiti的表单有了基本的了解,但是觉得其表单系统仍然需要很大的改进(也可能是我自己还没有搞清楚其表单的更复杂用法),比较重要的是表单的传递,比如说某人提交的一个表单,我如何可以传递到下一个审批节点,并且可以增加新的表单数据或者减少原有的表单数据。对于Activiti的内置权限系统,如果需要重新开发,该如何进行。毕竟Activiti的内置权限还是比较简单的,在企业应用中,企业的权限系统肯定是更为复杂多变,而且企业也不想把权限系统交由Activiti来管理,所以需要在企业权限和Activiti权限之间做适配,如何适配是应用开发者需要仔细掂量的事情。Activiti Modeler还是比较不好的,和以前在公司做的BPM Web Editor相比,有一些比较明显的差距。 不过最后觉得Activiti Explorer使用的web开发框架还是比较有意思的,其基本思路与GWT有异曲同工之妙,如果有需要可以了解一下。

关于《Data Analysis with Open Source Tools》,我觉得书是很不错的书,而且在每一章节后面的一些主题相关的推荐书目,比较让人喜欢。这比那些把参考书目写到整本书的最后面要好的多,最起码通过在每章节后面列出推荐书目,让那些想深入学些相关主题的人可以继续探寻下去。在这本虽然不是专门讲数据绘图的书,但是其中涉及的一些图的解释,让我在之前使用R时对一些图的模糊概念有了一些很清晰的认识。而且我也有该书的电子英文版,感觉英文版也是写的通俗易懂,可以拿来直接读。我打算近期把这本书迅速看完,然后在从其推荐书目中找出几本比较感兴趣的,好好的读一下。

关于近一个月来的Yahoo爬数据的事情,现在总算有了新的进展,以前写的爬虫代码,总是一段时间后就需要重新启动执行,现在经过修改后,在网络正常情况下可以自动执行,不需要人的干预了,其主要原因在于,我之前的代码是面向过程的,所以在方法中是无法修改全局变量的,于是只需要把爬虫程序对象化就ok了,现在我把整个程序放在了一个类中,执行起来就没问题了,但有时候程序仍会异常跳出,其主要原因还是网络状况不够好。

这周的学习计划如下:

编号 内容 备注
1 PM论文阅读及PPT总结  
2 Gibbs论文阅读  
3 Data Analysis with Open Source Tools 结束  
4 构思Multivariate Statistical Analysis 结课Paper  
5 Data Mining 结课Case构思  
6 新都项目任务(作业量无法估计)  
Jeff Lee /
Published under (CC) BY-NC-SA in categories 生活  tagged with 生活  学习  作业  计划