找软件用软件,到华军软件园!
您的位置:华军软件园>下载分类>系统软件>文本编辑>

火车采集器

火车采集器

火车采集器 9.5

  • 版  本:9.5
  • 软件授权:免费软件
  • 软件大小:22.8 M
  • 软件语言:简体
  • 应用平台:WinAll
  • 更新时间:2023-05-08
基本简介
火车采集器

      火车采集器,一款专业的互联网数据抓取、处理、分析,挖掘软件,可以灵活迅速地抓取网页上散乱分布的数据信息,并通过一系列的分析处理,准确挖掘出所需数据。火车采集器历经十年的升级更新,积累了大量用户和良好口碑,是目前最受欢迎的网页数据采集软件。

火车采集器(LocoySpider)是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序。使用火车采集器,你可以瞬间建立一个拥有庞大内容的网站。火车采集器系统支持远程图片下载,图片批量水印,Flash下载,下载文件地址探测,自制作发表的cms模块参数,自定义发表的内容等有关采集器。火车采集器对于数据的采集其可以分为两部分,一是采集数据,二是发布数据。


火车采集器功能:

火车采集器(LocoySpider)是一款功能强大且易于上手的专业采集软件,强大的内容采集和数据导入功能能将您采集的任何网页数据发布到远程服务器,自定义用户cms系统模块,不管你的网站是什么系统,都有可能使用上火车采集器,系统自带的模块文件支持:风讯文章,动易文章,动网论坛,PHPWIND论坛,Discuz论坛,phpcms文章,phparticle文章,LeadBBS论坛,魔力论坛,Dedecms文章,Xydw文章,惊云文章等的模块文件。更多cms模块请自己参照制作修改,也可到官方网站与大家交流制作。 同时您也可以使用系统的数据导出功能,利用系统内置标签,将采集到的数据对应表的字段导出到本地任何一款Access,MySql,MS SqlServer内。

LocoySpider采用Visual C编写,可独立在Windows2008下运行(windows2003 自带.net1.1框架。最新版的火车采集器是2008版,需要升级到.net2.0框架才能使用),如您在Windows2000、Xp等环境下使用,请先到微软官方下载一个.net framework2.0或更高环境组件。火车采集器V2009 SP2 04月29日

数据抓取原理

火车采集器如何去抓取数据,取决于您的规则。您要获取一个栏目的网页里的所有内容,需要先将这个网页的网址采下来,这就是采网址。程序按您的规则抓取列表页面,从中分析出网址,然后再去抓取获得网址的网页里的内容。再根据您的采集规则,对下载到的网页分析,将标题内容等信息分离开来并保存下来。如果您选择了下载图片等网络资源,程序会对采集到的数据进行分析,找出图片,资源等的下载地址并下载到本地。

数据发布原理

在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以下几种方式对数据进行处理。

1、不做任何处理。因为数据本身是保存在数据库的(access、db3、mysql、sqlserver),您如果只是查看数据,直接用相关软件打开查看即可。

2、Web发布到网站。程序会模仿浏览器向您的网站发送数据,可以实现您手工发布的效果。

3、直接入数据库。您只需写几个SQL语句,程序会将数据按您的SQL语句导入到数据库中。

4、保存为本地文件。程序会读取数据库里的数据,按一定格式保存为本地sql或是文本文件。

工作流程

火车采集器采集数据是分成两个步骤的,一是采集数据,二是发布数据。这两个过程是可以分开的。

1、采集数据,这个包括采集网址,采集内容。这个过程是获得数据的过程。我们做规则,在采的过程中也算是对内容做了处理。

2、发布内容就是将数据发布到自己的论坛,CMS的过程,也是实现数据为已有的过程。可以用WEB在线发布,数据库入库或存为本地文件。

具体的使用其实是很灵活的,可以根据实际来决定。比如我可以采集时先采集不发布,有时间了再发布,或是同时采集发布,或是先做发布配置,也可以在采集完了再添加发布配置。总之,具体过程由您而定,火车采集器的强大功能之一也就是体现在灵活中。

火车采集器(LocoySpider)更新日志

1、调整列表页排重的方式,现在仅会在同级列表页之间进行排重。

2、增加对于任务运行完毕之后的运行统计的预警功能(Email邮件预警)【旗舰版功能】

3、新增支持对于一些请求返回码不为200时,仍然进行采集的配置。

4、新增支持将下载地址保存为html文件的功能。

5、二次代理服务,增加导入的时候配置代理类型,同时修复对于用户名密码的显示错误问题。

6、发布配置页面,默认仅显示当前选择配置,加快任务加载时间。

7、修复命令行控制,closeapp参数无法自动关闭程序的问题。

8、修复在未选择图片水印时,无法进行图片剪裁的问题。

9、优化开始界面加载方式,解决初始化界面卡顿的问题。

10、修复在配置多行连接符包含“|”导致的无法探测图片下载的问题。

11、修复Excel导出数据时,列的顺序与字段顺序不一致的问题。

12、修复Excel导出数据时,一些包含数字的字段的导出数据错误问题。

13、修复任务批量编辑时,Json采集表达式未能复制的问题。


软件截图
  • 火车采集器
  • 火车采集器
火车采集器

火车采集器





火车采集器

火车采集器