[分享]渥太华各大小学/高中信息的抓取程序

苦逼热狗

路边通讯社社长
VIP
注册
2002-10-12
消息
47,111
荣誉分数
2,376
声望点数
393
鉴于渥太华百科也是开源的程序和内容,我觉得我这个小脚本也应该放出来。
没有版权制约,也不提供任何服务与支持。

素材来源于小傻的帖子
http://bbs.comefromchina.com/6553440-post136.html
http://bbs.comefromchina.com/6553558-post152.html

代码是用java写的,只是做了简单的代码regular expression parse.
需要第三方的PDFBox library(也可以不用那个,代码里头也附带了用sun自带的pdfview)

结构如下
/org.comefromchina.misc/
ElementarySchools.java
FraserInstitute.java
SchoolBoundary.java
SecondarySchools.java

/org.comefromchina.util/
HtmlParser.java
WebGrabber.java
PDFToImage.java

/org.comefromchina.wiki/
FraserInstituteRanking.java
School.java

希望大家继续延用开源社会的和谐心理,众人拾柴火焰高,本着公平公正的态度完善我们渥太华百科。

-------------------------
所有小学词条独立打包下载链接:http://www.mediafire.com/?uyb44ky725lz0n9
80MB

所有高中词条独立打包下载链接:http://www.mediafire.com/?xd863k0z6hx809b
15MB
 

附件

后退
顶部