Python爬虫之xpath使用

Python爬虫之xpath使用

xpath获取文本比较方便但是获取带html标签的内容,比如,获取某个文章内容,里面有大量的html标签的时候,就需要选进行字符串转化,然后再对字符串解密获取内容。content = selector.xpath('//*[@id="article_content"]')[0] content2 = etree.tostring(content, encoding='utf-8',pretty_print=True) res = content2.decode('utf-8') content是获取内容,content2是对获取的内容进行utf-8编码转换成字符串,r...

搬砖 2019-09-16 PM 158℃ 0条
鬼谷子内捷篇之感悟一

鬼谷子内捷篇之感悟一

君臣上下之事,有远而亲,近而疏,就之不用,去之反求。日进前而不御,遥闻声而相思。事皆有内揵,素结本始。或结以道德,或结以党友,或结以财货,或结以采色。用其意,欲入则入,欲出则出;欲亲则亲,欲疏则疏;欲就则就,欲去则去;欲求则求,欲思则思。若蚨母之从子也,出无间,入无朕,独往独来,莫之能止。鬼谷子 内捷篇译文:君臣上下之间的关系,有的距离远却很亲密,有的距离近却很疏远。有的在身边却不被任用,有的离任后反而被征召。每天在君主身边的却不被重用,相距遥远者却铭记于心。所有这些,都受制于内心的情感,以及平时的交往。有的人依靠德行结交君主,有的人依靠志趣相投成为朋友。有的依靠财物,有的采用美色。运用...

学习 2019-08-19 PM 253℃ 0条
Python生成windows系统可以执行的exe程序

Python生成windows系统可以执行的exe程序

为了实现编辑部门自动下载产品的需求,通过Python写了一个爬虫,但是不能每个人给他们安装Python环境吧,这样太麻烦,就在想怎么样才能轻量化使用,唯有可执行的EXE程序可以达到这个要求,于是百度了一下,Python还真的可以生成exe可执行程序,经过测试,解决问题,编辑部的小姐姐们高兴坏了。下面把实现的过程记录下,也方便以后实现更多的自动化。1、首先安装pyinstaller,他就是Python内置的打包工具 我的环境是Python3.6,直接执行命令安装pip3 install pyinstaller 2、检查是否安装成功,运行下面的命令,如何返回版本号,说明安装成功pyinsta...

Python 2019-08-16 PM 194℃ 0条
鬼谷子,真有其人?

鬼谷子,真有其人?

古之大化者,乃与无形俱生。反以观往,覆以验来;反以知古,覆以知今;反以知彼,覆以知己。动静虚实之理,不合来今,反古而求之。事有反而得覆者,圣人之意也,不可不察。最近在看鬼谷子,感觉古人的思想,感悟真的是高深,分析的透彻。上面的那段引用的是鬼谷子-反应篇里面的一段。这段话的含义是古时圣人,以大道教化万物,与道同生共长。因此,他们回首以往,便能验证将来;考察历史,就会了解现在;观察对方,返照自身真实。对于动静虚实的真相,如果和当今的情况不符,就要回到过去探求前人的经验。对事情的考察,经历由此及彼,由彼及此,由古到今,由今到古的反复探求,才能得到答案,这是圣人的思维方式,不可不仔细考察。鬼谷子...

学习 2019-08-16 AM 241℃ 0条
Anyproxy的使用介绍

Anyproxy的使用介绍

最近在研究爬取微信公众号的方法,接触了一下抓包工具,如:Fiddler,Wireshark等,今天看到一款Nodejs版的Anyproxy,感觉挺有意思,就研究了下。配置测试环境PC Win10 64位;手机Iphone 6P首先要安装支持Anyproxy的node环境,这么安装node环境就不多说了,百度一下就知道了,很简单,主要说下Anyproxy的安装和使用。1、安装Anyproxy执行下面的命令npm install anyproxy -g 2、安装证书,如果不安装证书,只能代理http协议,遇到https协议的无法访问,现在网络安全很重视,大部分网站都是使用https协议any...

搬砖 2019-08-13 PM 513℃ 0条
Python爬虫利器selenium

Python爬虫利器selenium

selenium,被成为web自动化的神器。1、什么是seleniumSelenium是基于WEB应用的验收测试工具集合,直接运行在浏览器中,通过一系列命令来模拟用户操作,Selenium可以将这些命令转化成实际的HTTP请求在浏览器中运行 。2、如何使用selenium先按照selenium包pip3 install selenium驱动下载地址https://sites.google.com/a/chromium.org/chromedriver/downloads下载后把驱动文件加入环境变量。或者直接把驱动文件和Python脚本(执行的py文件)放到同一文件夹下面3、编写selen...

Python 2019-08-12 PM 245℃ 0条
Python爬虫,爬取糗事百科

Python爬虫,爬取糗事百科

如今大数据时代,爬虫的需求越来越大,Python在大数据分析,爬虫上面优势明显,如今Python的用户使用者也是逐渐增多,Python也是一度霸榜最佳语言第一名。作为一名程序员,当然要与时俱进,不能停止学习的步伐,花了2天时间,写了一个爬取糗事百科的爬虫,刚开始接触,一边百度一边写,终于在今晚11点调试成功。爬的过程中遇到的问题记录下,避免以后发生类似错误和方便查找解决问题。❧❧闺蜜每天都会做早操,她可以把腿劈叉,可以劈叉10分钟不动。。。那天公司16周年庆,她代表部门上去领奖,领到手,她很开心,也喝了几杯,我起哄,劈一个,她为了显示她腿功,直接来个完美的朝天蹬。。。如果不是嗤的一声,牛...

Python 2019-08-10 PM 235℃ 0条
此内容被密码保护

此内容被密码保护

请输入密码访问

网赚 2019-08-09 PM 316℃ 0条
mysql按天,按周,按月,按年统计订单数

mysql按天,按周,按月,按年统计订单数

1、按天统计订单数据SELECT COUNT(1) AS total, FROM_UNIXTIME(order_date,'%Y-%m-%d') AS days FROM order_list GROUP BY days DESC;2、按周统计订单数据SELECT COUNT(1) AS total, WEEK(FROM_UNIXTIME(order_date)) AS weeks FROM order_list GROUP BY weeks DESC; 3、按月统计订单数据SELECT COUNT(1) AS total, MONTH(FROM_UNIXTIME(order_date)...

搬砖 2019-08-08 AM 370℃ 0条
摄影作品如何申请版权?

摄影作品如何申请版权?

随着国家的进一步开放,自媒体的发展,知识产权越来越受到法律的保护。例如:图片、商标、品牌这些国家相应的网络法律法规越来越健全,为了避免经济损失,我们要在保护自己相关知识产权的同时,避免落入别人版权的陷进。图片版权属于作品著作权的范畴,根据图片内容的不同来划分不同的类型官费也会不同。一、材料要求: 申请作品著作权登记应当提交的材料及要求:(1)按要求填写完整的作品著作权登记申请表;(2)申请人的身份证明;(3)权利归属证明;(4)作品的样本(可以提交纸介质或者电子介质作品样本);(5)作品说明书(请从创作意图、创作过程、原创性三方面写,并作者签字);(6)委托他人代为申请时,代理人应提交申...

知识产权 2019-08-07 PM 195℃ 0条
如何写作?

如何写作?

逻辑性要强,论证要精彩人偏爱有序,讨厌无序,有序就是逻辑,无序就是混乱。新手写文章,不注重逻辑,谋篇布局和语言组织都很随意,因此读者读的时候就会一头雾水,心里会想:这个作者到底想表达什么?新手写文章,提出一个观点并不难,写一个案例故事也不难,难的是两者的匹配,这里其实就是你论证是否精彩。提出一个好的观点,没有一个好的案例去论证,会让本来挺好的观点显得立不住脚,如果有一个好的案例,即便读者看到观点第一眼并不是那么认同,最终也可能被你征服。讲的人都不能自圆其说,听的人怎么会心服口服呢?

套路 2019-08-06 PM 208℃ 0条
零基础,零投入,带你轻松玩转网赚!

零基础,零投入,带你轻松玩转网赚!

寻找了很久,如何简单,零投入获得网赚。之前存在很多,大多都是需要交押金,投入一定的成本,风险较大,又不安全,还不持续。今年终于出现一个简单,零投入的网赚平台。她就是,芝麻鲸选芝麻鲸选是近10亿网民都能用的“综合性导购优惠返佣和社区团购功能的社交电商导购创业平台” ,有了它,不管是淘宝、天猫、京东、拼多多、飞猪还是在其知名电商平台吃、喝、玩、乐、购,您的身份不再是一个单纯的消费者。让你实现自购省钱,分享赚钱,轻松创业。如何加入芝麻鲸选,通过下面的地址下载,填写邀请码即可邀请您加入芝麻鲸选,自动搜索淘宝|天猫|拼多多|京东优惠券!先领券,再购物,更划算!下载链接:http://t.cn/Ai...

网赚 2019-08-05 PM 218℃ 0条
Linux分析apache日志常用命令

Linux分析apache日志常用命令

1、查看日志中访问次数最多的前10个IPcat access.log |cut -d ' ' -f 1 |sort |uniq -c | sort -nr | awk '{print $0 }' | head -n 10 2、查看日志中出现100次以上的IPcat access_log |cut -d ' ' -f 1 |sort |uniq -c | awk '{if ($1 > 100) print $0}'|sort -nr 3、当前WEB服务器中联接次数最多的20条ip地址netstat -ntu |awk '{print $5}' |sort | uniq -c| sor...

搬砖 2019-08-05 AM 242℃ 0条
Ubuntu系统UFW防火墙简单设置

Ubuntu系统UFW防火墙简单设置

Ubuntu使用iptables设置禁止某个IP访问,重启防火墙生效一直报下面的错误iptables: unrecognized service 百度了下说Ubuntu不支持iptablses,可以使用简单的UFW防火墙来禁止ip访问启用ufwsudo ufw enable 如果没有安装,可以先安装sudo apt-get install ufw 关闭防火墙sudo ufw disable 一、拦截特定IP地址语法:sudo ufw deny from {ip-address-here} to any 为拦截或拒绝来自192.168.1.5的所有数据包,可以输入:sudo ufw den...

搬砖 2019-08-02 PM 313℃ 0条
linux下实用iptables封ip段的一些常见命令

linux下实用iptables封ip段的一些常见命令

查看Aapche日志,发现有很多ip短时间很多请求,肯定是爬虫采集或者蜘蛛,攻击废话不多说,直接封ip封单个IP的命令是:iptables -I INPUT -s 211.1.0.0 -j DROP 封IP段的命令是:iptables -I INPUT -s 211.1.0.0/16 -j DROP iptables -I INPUT -s 211.2.0.0/16 -j DROP iptables -I INPUT -s 211.3.0.0/16 -j DROP 封整个段的命令是:iptables -I INPUT -s 211.0.0.0/8 -j DROP 封几个段的命令是:ipt...

搬砖 2019-07-31 PM 427℃ 0条
小程序流量裂变的秘诀是什么

小程序流量裂变的秘诀是什么

这波小程序创业热潮,做产品的方法,特别是裂变的方法,是跟做APP年代有很大差异性的,甚至到了难以理解的阶段。拼多多的模式,被多少人骂,到现在上市了以为会好些,结果骂的人更多了,依然看不懂。而且产品裂变的方式,真的很low,属于网页时代的牛皮癣。拼多多的火爆,引来了一批快步入场的学习者,微选、唯品仓、好物满仓、好衣库、有好东西等等。社交电商主要为两派,一种是以拼多多为首的2C平台模式,一种是以云集为首的S2B2C分销模式,其中以分销模式玩家最多。先说S2B2C模式的裂变,分销电商没有火起来之前,传统渠道都是层层批发,层层代理,从总代省代一直到乡镇代理。每个环节都要盈利,所以每个环节都要提升...

自媒体 2019-07-31 AM 180℃ 0条
解决Apache访问日志出现"internal dummy connection"的方法

解决Apache访问日志出现"internal dummy connection"的方法

今天查看访问日志,发现很多“internal dummy connection”,以为被攻击了。百度了下,是apache对自身进程的监听所产生的日志,为了方便我们查看有效的访问日志,可以将这些屏蔽掉。打开httpd.conf找到 CustomLog logs/access.log combined 这一行在这行的前面加入SetEnvIf User-Agent "(internal dummy connection)" dontlog 然后在CustomLog logs 这一行后面加上 env=!dontlogCustomLog /var/log/apache/acce...

搬砖 2019-07-30 PM 283℃ 0条