202012-02 Java爬虫(Jsoup与WebDriver)的使用 一、Jsoup爬虫jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。以博客园首页为例1、idea新建maven工程pom.xml导入jsoup依赖<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.12.1</version></dependency>jsoup代码packagecom.blb;importorg.jsoup.Jsoup;importorg.js... 继续阅读 >
202010-09 java获取文件编码,jsoup获取html纯文本操作 maven引入获取编码的jar<dependency><groupId>com.ibm.icu</groupId><artifactId>icu4j</artifactId><version>67.1</version></dependency>获取文件编码packagecom.lovnx.note.util;importcom.ibm.icu.text.CharsetDetector;importcom.ibm.icu.text.CharsetMatch;importorg.jsoup.Jsoup;importorg.jsoup.nodes.Document;importorg.jsoup.select.Elements;importjava.io.IOException;importjava.net.URL;importja... 继续阅读 >
202009-27 springboot2.x使用Jsoup防XSS攻击的实现 后端应用经常接收各种信息参数,例如评论,回复等文本内容。除了一些场景下面,可以特定接受的富文本标签和属性之外(如:b,ul,li,h1,h2,h3...),需要过滤掉危险的字符和标签,防止xss攻击。一、什么是XSS?看完这个,应该有一个大致的概念。XSS攻击常识及常见的XSS攻击脚本汇总XSS过滤速查表二、准则永远不要相信用户的输入和请求的参数(包括文字、上传等一切内容)参考第1条三、实现做法结合具体业务场景,对相应内容进行过... 继续阅读 >