R语言爬虫
虽然相对于python来说,R语言爬虫并不是那么流行,但是对于比较小的数据爬取量,使用R还是很方便的。R的数据爬取比较流行的是利用XML和RCurl包进行爬取,在这篇博客里面,我就利用XML和RCurl包进行KEGG和HMDB的数据爬取。
爬取KEGG通路信息
因为我需要的信息是KEGG的通路信息,比较简单,也就是每个通路包含哪些代谢物,只要人的metaboloic pathway,因此,我需要先将KEGG中的通路的网页链接拿到。
|
|
下面对爬取到的代谢通路进行筛选。
|
|
将爬取到的信息保存输出。
|
|
爬取HMDB通路信息
首先爬取HMDB的通路信息。
|
|
对爬取到的代谢通路进行筛选。
|
|
爬取HMDB代谢物信息
首先,获得所有代谢物的页面链接。
|
|
下面开始进行代谢物信息爬取。
|
|
因为代谢物信息比较大,可能需要一晚上,因此想到了没爬取100个,就给自己发一封邮件,来对程序进行监控。
写的比较粗糙,有时间再好好修改一下。