上一篇文章《社会化海量数据采集框架搭建》提到如何搭建一个社会化采集系统架构,讲架构一般都比较虚,这一篇讲一下如何实战用低成本服务器做到日流水千万级数据的分布式采集系统。
有这样一个采集系统的需求,达成指标: 需要采集30万关键词的数据 微博必须在一个小时采集到
覆盖四大微博(新浪微博、腾讯微博、网易微博、搜狐微博) 为了节约客户成本,硬件为普通服务器:E5200 双核 2.5G cpu,
4 G DDR3 1333内存,硬盘 500G SATA 7200转硬盘。
【分布式】 【架构】 【服务器】 …
May
02
2017
May
02
2017
May
02
2017
May
02
2017
May
02
2017
May
02
2017
May
02
2017
May
02
2017
May
02
2017
May
02
2017