易搜网页数据采集器是一款非常好用的网页数据采集软件,为用户提供非常方便的数据采集方法,而且操作方法简单方便,就算用户没有任何的专业知识,也可以轻松上手进行操作,快速采集网页数据。易搜网页数据采集器免费版更是不需要输入任何的代码,只需要输入网址地址,就能帮助用户自动采集网页数据。
易搜网页数据采集器官方版更是拥有非常强大的系统兼容性,支持在各个版本的操作系统运行,有需求的用户快来本站下载这款软件吧。
软件特色
简单好用
简单易学,通过可视化界面、鼠标点击即可采集数据、向导模式,用户无需任何技术基础,输入网址,一键提取数据。代码小白的福音。
海量采集模板
内置大量网站采集模板,覆盖多个行业,点击模板,即可加载数据,只需简单配置,就可快速准确获取数据,满足各种采集需求.。
自研智能算法
通过自研的智能识别算法,可以自动识别列表数据识别分页,准确率达到95%,可以深入采集多级页面,快速准确的获取数据。
自动导出数据
数据可以自动导出发布,支持多种格式导出,TXT、CSV、Excel、Access、MySQL、SQLServer、SQLite以及发布到网站接口(Api)等。
软件亮点
智能采集
智能分析并抽取列表/表格数据,并且能自动识别分页。 免配置一键采集各种网站,包括分页、滚动加载、登录采集、AJAX等等。
多平台支持
易搜网页数据采集软件支持各版本windows操作系统,且可在服务器上稳定运行。 不管是个人采集,还是团队/企业使用,都能满足您的各种需求。
多种数据导出
一键导出采集的所有数据。支持CSV, EXCEL和HTML等,同时也支持导出数据到数据库,并且可以发布到DedeCMS,Discuz,Wordpress,phpcms网站。
数据本地化保存
采集任务自动保存到本地电脑,不用担心任务丢失。登陆软件,可随时随地创建和修改采集任务等。
易搜网页数据采集器使用教程
第一步、选择起始网址
当你想要采集一个网站数据时,首先需要找到一个展示数据列表的地址。 这一步,至关重要,起始网址决定了你采集的数据数量和类型。
以新浪新闻为例,我们想要抓取当前城市的各地新闻类的新闻标题,发布时间,及详情页信息。
通过浏览网站,我们找到所有新闻信息列表地址
然后在易搜网页数据采集器中 新建任务 -> 第一步 -> 输入网页地址
然后点击下一步。
第二步、抓取数据
进入到第二步后,蓝鲸可视化采集软件会智能分析网页,并且从中提取出列表数据。 如下图:
这时,我们对已经分析出的数据进行整理修改, 比如删掉无用的字段。
点击列的下拉按钮,选择 删除字段 。
当然还是其他操作,比如修改名称,数据处理等等。
在整理修改字段后,我们来采集处理分页。
选择分页设置->自动识别分页,程序将会自动定位下一页 元素。
下一步,我们进入列表页进行数据采集,点击链接字段--点击进入列表页采集数据,如下图:
第三步、高级设置
这里包括对浏览器的配置,比如禁用图片、禁用JS、禁用Flash、拦截广告等等操作。可以通过这些配置提高浏览器的加载速度。
计划任务的配置,通过计划任务,可以设置任务定时自动运行。
点击完成,保存任务。
完成,运行任务
任务创建完成之后, 我们选择刚刚新建的任务,点击任务栏 开始。
易搜网页数据采集器怎么导出数据
导出方式有2种:
手动导出,通过右击任务-> 导出任务,或者是在查看数据中导出。
自动导出,在编辑任务的第三步中设置导出。
在数据导出后,会被标记为已导出,在下次导出时,不会再导出。 如果想要导出全部数据,而不区分已导出,可以在查看数据中选择导出全部。
导出到Excel、CSV、TXT
可以将数据导出到Excel、CSV、TXT文件中,每次导出将会生成新的文件。 软件支持对导出的文件名设置变量,目前有2种格式变量,按照任务名和日期格式。
导出到网站接口(API)
支持主流CMS网站系统,比如Discuz、帝国CMS、Wordpress、DEDE CMS、PHP CMS,官方可以提供接口文件(API)。
对于开发人员,可以自己定义网站API,易搜网页数据采集器通过HTTP POST请求将数据发送指定的API,设置对应的POST参数、编码类型即可
导出到数据库
目前易搜网页数据采集器支持导出到MySQL、SQLServer、SQLite、Access四种数据库,设置好数据库的连接配置,指定导出的目标表名称。
同时,可以设置本地的任务字段与目标数据库字段之间的映射关系(对应关系)
易搜网页数据采集器取值属性设置方法
首先,字段通过 XPath 定位查找到 Html 元素,然后我们就需要通过取值属性 来确定 Html 元素的哪个部分来作为字段值。
一般情况下,采集器默认使用 InnerText 属性(当前节点以及其子节点的文本)
除了 InnerText,还有其他几个内置属性:
Text ,表示当前节点的文本
InnerHtml,表示当前节点内部的 HTML 语句(不包括当前节点)
OuterHtml,表示当前节点的 HTML 语句
除了内置属性外,用户可以手动填写 HTML 属性。 常见的 HTML 属性比如 A标签的href,IMG标签的src。表示数据的data-*。
特别提示
这里是可以手动输入属性名称,即使下拉选项中没有。比如常见的onclick、value、class。
精品软件
京东天猫商品监控软件 v1.2 免费版
300KB ︱ 简体中文
下载网络剪刀手中文版 v2.1.4 最新版
2M ︱ 简体中文
下载台式机万能网卡驱动下载免费版 v1.0 win7版
187.1M ︱ 简体中文
下载speedtest网络测速软件下载 v1.4.53 官方
46.8M ︱ 简体中文
下载wireshark中文版下载 v3.2.2 官方版
51.9M ︱ 简体中文
下载中国电信宽带测速器 v2.4.11.1 官方版
988KB ︱ 简体中文
下载360流量监控器下载 v2.2 电脑版
2.8M ︱ 简体中文
下载onedrive下载 v19.192.0926.0012
31M ︱ 简体中文
下载TweetDuck 免费版
39M ︱ 多国语言[中文]
下载
- Unlocker(最好的顽固软件删除工具) 32Bit 中文绿色版v1.9.2
- 火绒剑单文件版绿色下载 独立版v5.0.47
- QVE视频压缩软件电脑版 免费版v1.0.25
- padlock密码管理软件最新下载 官方版v3.1.1
- KoolMoves(制作动画GIF制作文字特效增加帧动作等) 汉化绿色增强特别版v8.10
- BetterJPEG(裁剪缩放JPG压缩图片)汉化绿色特别版v2.0.0.9
- 超级巡警之U盘病毒免疫器 绿色版V1.5
- 抠图工具 TeoreX PhotoScissors 绿色汉化注册版v4.1
- MP3 Sound Cutter(小巧的MP3/WAV任意截取工具)汉化绿色特别版V1.41
- 谷歌拼音输入法 绿色版(互联网上流行词汇一网打尽) 中文免费版v2.7.21.114
- AusLogics Registry Defrag(分析整理注册表碎片)汉化绿色版V4.0.4.47
- NetInfo(功能完善的网络工具箱) Build 715汉化绿色特别版V6.2
- 搜狗拼音智慧版 去广告优化版v3.0
- 波尔远程控制(远程监控管理) 简体绿色版v9.1
- 照片制作成令人惊讶的卡通效果(Cartoon Maker Recorder 5.95)汉化绿色特别版v1.0.0.1
- Recuva Business Edition 多国语言绿色版v1.53
用户评论
最新评论
- 置顶 广东湛江电信 网友 等一个晴天
好软件这么多,大部分都不太会用
- 置顶 福建龙岩移动 网友 佛系人生
先收藏,具体情况使用再评价
- 置顶 河北邯郸移动 网友 柒汐
尝试一下新版本
- 置顶 黑龙江绥化移动 网友 回忆的手放哪
收藏备用,谢谢分享
- 置顶 陕西安康电信 网友 半字浅眉-
小东西实用
最新专题
更多>最新更新
更多>热门标签
软件排行榜
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10