博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
基于Xpath采集和讯网经济人物Java实现
阅读量:4111 次
发布时间:2019-05-25

本文共 835 字,大约阅读时间需要 2 分钟。

背景需求:

采集和讯网的财经人物,url为:http://renwu.hexun.com/,采集人物名称然后保存。

思路:

基于dom4j采集,根据url规则遍历获取,直到没有人物数据,基于xpath解析出最终的人物名称。

实现:

private static void getRWData(Set
set) throws Exception { String xpath = "/*[name()='HTML']/*[name()='BODY']/*[name()='DIV']/*[name()='DIV']/*[name()='DIV']/*[name()='DIV']/*[name()='DIV']/*[name()='DIV']/*[name()='UL']/*[name()='LI']/*[name()='A']"; DOMParser parser = new DOMParser(); for (int i = 1; i < 10000; i++) { parser.parse("http://renwu.hexun.com/search.aspx?z=All&Filter=All&page="+i); DOMReader domReader = new DOMReader(); Document document = domReader.read(parser.getDocument()); Element root = document.getRootElement(); List
nodes = root.selectNodes(xpath); if(nodes.isEmpty()){ return; } for (Node node : nodes) { set.add(node.getText()); } } }

保存在Set中供后期使用 

 

 

 

转载地址:http://xiqsi.baihongyu.com/

你可能感兴趣的文章
openlayers安装引用
查看>>
js报错显示subString/subStr is not a function
查看>>
高德地图js API实现鼠标悬浮于点标记时弹出信息窗体显示详情,点击点标记放大地图操作
查看>>
初始化VUE项目报错
查看>>
vue项目使用安装sass
查看>>
HTTP和HttpServletRequest 要点
查看>>
在osg场景中使用GLSL语言——一个例子
查看>>
关于无线PCB中 中50欧姆的特性阻抗的注意事项
查看>>
Spring的单例模式源码小窥
查看>>
后台服务的变慢排查思路(轻量级应用服务器中测试)
查看>>
MySQL中InnoDB事务的默认隔离级别测试
查看>>
微服务的注册与发现
查看>>
bash: service: command not found
查看>>
linux Crontab 使用 --定时任务
查看>>
shell编程----目录操作(文件夹)
查看>>
机器学习-----K近邻算法
查看>>
HBASE安装和简单测试
查看>>
关于程序员的59条搞笑但却真实无比的编程语录
查看>>
tomcat 使用心得(问题)-eclipse 启动tomcat 后 浏览器访问404 --eclipse复制工程显示原来的工程名
查看>>
搞笑--一篇有趣的文章编译自一篇西班牙博客。有一位美丽的公主,被关押在一个城堡中最高的塔上,一条凶恶的巨龙看守着她,需要有一位勇士营救她…
查看>>