Python爬虫之xpath使用

Python爬虫之xpath使用

xpath获取文本比较方便但是获取带html标签的内容,比如,获取某个文章内容,里面有大量的html标签的时候,就需要选进行字符串转化,然后再对字符串解密获取内容。content = selector.xpath('//*[@id="article_content"]')[0] content2 = etree.tostring(content, encoding='ut...

搬砖 2019-09-16 PM 309次 0条
Python生成windows系统可以执行的exe程序

Python生成windows系统可以执行的exe程序

为了实现编辑部门自动下载产品的需求,通过Python写了一个爬虫,但是不能每个人给他们安装Python环境吧,这样太麻烦,就在想怎么样才能轻量化使用,唯有可执行的EXE程序可以达到这个要求,于是百度了一下,Python还真的可以生成exe可执行程序,经过测试,解决问题,编辑部的小姐姐们高兴坏了。下面把实现的过程记录下,也方便以后实现更多的自动化。1、首先安装pyinstaller,他就是Py...

Python 2019-08-16 PM 399次 0条
Anyproxy的使用介绍

Anyproxy的使用介绍

最近在研究爬取微信公众号的方法,接触了一下抓包工具,如:Fiddler,Wireshark等,今天看到一款Nodejs版的Anyproxy,感觉挺有意思,就研究了下。配置测试环境PC Win10 64位;手机Iphone 6P首先要安装支持Anyproxy的node环境,这么安装node环境就不多说了,百度一下就知道了,很简单,主要说下Anyproxy的安装和使用。1、安装Anyproxy执...

搬砖 2019-08-13 PM 814次 0条
Python爬虫利器selenium

Python爬虫利器selenium

selenium,被成为web自动化的神器。1、什么是seleniumSelenium是基于WEB应用的验收测试工具集合,直接运行在浏览器中,通过一系列命令来模拟用户操作,Selenium可以将这些命令转化成实际的HTTP请求在浏览器中运行 。2、如何使用selenium先按照selenium包pip3 install selenium驱动下载地址https://sites.google.c...

Python 2019-08-12 PM 445次 0条
Python爬虫,爬取糗事百科

Python爬虫,爬取糗事百科

如今大数据时代,爬虫的需求越来越大,Python在大数据分析,爬虫上面优势明显,如今Python的用户使用者也是逐渐增多,Python也是一度霸榜最佳语言第一名。作为一名程序员,当然要与时俱进,不能停止学习的步伐,花了2天时间,写了一个爬取糗事百科的爬虫,刚开始接触,一边百度一边写,终于在今晚11点调试成功。爬的过程中遇到的问题记录下,避免以后发生类似错误和方便查找解决问题。❧❧闺蜜每天都会...

Python 2019-08-10 PM 450次 0条
mysql按天,按周,按月,按年统计订单数

mysql按天,按周,按月,按年统计订单数

1、按天统计订单数据SELECT COUNT(1) AS total, FROM_UNIXTIME(order_date,'%Y-%m-%d') AS days FROM order_list GROUP BY days DESC;2、按周统计订单数据SELECT COUNT(1) AS total, WEEK(FROM_UNIXTIME(order_date)) AS weeks FROM...

搬砖 2019-08-08 AM 626次 0条
Linux分析apache日志常用命令

Linux分析apache日志常用命令

1、查看日志中访问次数最多的前10个IPcat access.log |cut -d ' ' -f 1 |sort |uniq -c | sort -nr | awk '{print $0 }' | head -n 10 2、查看日志中出现100次以上的IPcat access_log |cut -d ' ' -f 1 |sort |uniq -c | awk '{if ($1 > 1...

搬砖 2019-08-05 AM 416次 0条
Ubuntu系统UFW防火墙简单设置

Ubuntu系统UFW防火墙简单设置

Ubuntu使用iptables设置禁止某个IP访问,重启防火墙生效一直报下面的错误iptables: unrecognized service 百度了下说Ubuntu不支持iptablses,可以使用简单的UFW防火墙来禁止ip访问启用ufwsudo ufw enable 如果没有安装,可以先安装sudo apt-get install ufw 关闭防火墙sudo ufw disable ...

搬砖 2019-08-02 PM 579次 0条
linux下实用iptables封ip段的一些常见命令

linux下实用iptables封ip段的一些常见命令

查看Aapche日志,发现有很多ip短时间很多请求,肯定是爬虫采集或者蜘蛛,攻击废话不多说,直接封ip封单个IP的命令是:iptables -I INPUT -s 211.1.0.0 -j DROP 封IP段的命令是:iptables -I INPUT -s 211.1.0.0/16 -j DROP iptables -I INPUT -s 211.2.0.0/16 -j DROP ipta...

搬砖 2019-07-31 PM 667次 0条
解决Apache访问日志出现"internal dummy connection"的方法

解决Apache访问日志出现"internal dummy connection"的方法

今天查看访问日志,发现很多“internal dummy connection”,以为被攻击了。百度了下,是apache对自身进程的监听所产生的日志,为了方便我们查看有效的访问日志,可以将这些屏蔽掉。打开httpd.conf找到 CustomLog logs/access.log combined 这一行在这行的前面加入SetEnvIf User-Agent "(internal ...

搬砖 2019-07-30 PM 494次 0条