人类的发展,经过了猿到人的发展。工业发展经历了石器时代、工业时代、智能工业的发展。
采集也经历了从单点到多点,再到分布式的发展。采集源也从10个、100、1000个,再到1W、5万、10万的发展。那么这么多网站,我们怎么能保证它们一直有效(网站能够正常打开)呢?
时代在进步,公司在不断发展壮大,网站的内容也在不断的丰富,每年、每月都会有新的栏目上架,有旧栏目下架。我们又如何保证我们采集的栏目时刻有效呢?
今天,我就结合我这几年做采集的经验,来给大家分享一下我的处理过程。
第一:构建信源系统
由于我们是做舆情监测服务的,所以我们采集的覆盖度还是比较广的,包括我们业务所在行业的所有网站(尽量全),以及国家发布的一二级主要媒体,各类党媒、纸媒、app等,以及微博、微信、论坛等社交类网站。
网站、栏目管理
现在我们采集覆盖的网站大约有6W家左右,每天都还在不断的增加,这么大量的网站量,我们该如何来管理呢?这就是信源系统的价值所在!
我们把需要采集的网站,以及这些网站下需要采集的频道或栏目都在信源系统中统一管理。同时,一些网站的媒体分类、行业分类、网站类型等,均在系统中统一管理。
同时,为了提高网站、栏目等配置效率,我们支持