Java中用爬虫进行解析的实例方法

网友投稿 226 2023-02-12

Java中用爬虫进行解析的实例方法

我们都知道可以用爬虫来找寻一些想要的数据,除了可以使用python进行操作,我们最近学习的java同样也支持爬虫的运行,本篇就教大家用java爬虫来进行网页的解析,具体内容请往下看:

1、springboot项目,引入jsoup

org.jsoup

jsoup

1.10.2

2、准备解析对象

Content.java

package com.asia.pojo;

import lombok.AllArgsConstructor;

import lombok.Data;

import lombok.NoArgsConstructor;

@Data

@NoArgsConstructor

@AllArgsConstructor

public class Content {

private String title;

private String img;

private String price;

}

3、爬虫工具类

HtmlParseUtil.java

package com.asia.utils;

import java.net.URL;

import java.net.URLDecoder;

import java.util.ArrayList;

import java.util.List;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import com.asia.pojo.Content;

public class HtmlParseUtil {

public static void main(String[] args) throws Exception {

new HtmlParseUtil().parseJD("西瓜").forEach(System.out::println);

}

public List parseJD(String keywords) throws Exception {

String url = "https://search.jd.com/Search?keyword=" + URLDecoder.decode(keywords, "GBK");

// 解析网页.(Jsoup返回Document就是浏览器的Document对象)

Document document = Jsoup.parse((new URL(url)), 30000);

Element element = document.getElementById("J_goodsList");

Elements elements = element.getElementsByTag("li");

List list = new ArrayList();

for (Element el : elements) {

String src = el.getElementsByTag("img").eq(0).attr("data-lazy-img");

String price = el.getElementsByClass("p-price").eq(0).text();

String name = el.getElementsByClass("p-name").eq(0).text();

list.add(new Content(name, src, price));

}

return list;

}

}

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:聚合数据分析(聚合报告分析)
下一篇:Spring Cloud 2020.0.0正式发布再见了Netflix
相关文章

 发表评论

暂时没有评论,来抢沙发吧~