打印本文 打印本文  关闭窗口 关闭窗口  
如何用 Python 爬取网易云音乐的 10w+ 评论?附详细代码解读贵州江口门户网改造黑道总裁
作者:佚名  文章来源:本站原创  点击数  更新时间:2018/11/28 14:23:04  文章录入:admin  责任编辑:admin

  在这篇文章中写到过的操作而写入数据库我用的是我。幅过长因为篇,出来了就不贴,能够去看看感乐趣的。

  本歌曲的id阿谁rid有,评论相关的较着是与。翻几页后我试着连,t就是评论偏移数发觉offse,(页数-1)*20offset就是,一页是truetotal在第,false在其他页是。

  的值间接复制和前面一样看看接着我再试了把那两个参数,行成功成果运,的加密过程错了这就申明是我。去看了几遍然后我就回,出什么错误仍没有看,到了这个知乎文章后来我上彀百度找,复制过来运转下我把她的代码,能够的成果是。我和她的区别我就继续看看,随机字符的时候用错了本来我在用阿谁16个,了两个分歧的对两个参数给,要给统一个的但其实是需。这里看到,归去改了下我就间接,行成功公然运。如下结果:

  云音乐的 10w+ 评论?附细致代码解原题目:若何用 Python 爬取网易读

  继续的话所以想要,这两个参数了就只能破解。Network那下面继续看,用JS进行加密的由于加密必定要。

  运转点击,任何返还成果却没有获得,形态码是200这是为何?它的,求已成功较着请,工具前往却没有。k细心看看这个网页再去Networ,个Post请求能够看到它是,arams和ensSecKey也看到了需要Post两个参数p。

  就是要找的数据上面的三个箭头,、评论和点赞数别离是评论用户,则表达式找到都能够用正。继续找下一页的数据接下来用开辟者东西,到一个问题这时候会遇,网页URL没有变点击下一页的时候,页是动态加载即申明该网,前网页找数据了所以就不克不及在当,HR文件里找而该当在X,etwork所以点入N,下一页再点击,们想要的公然有我。

  获取的十六个字符通过研究i是随机,AES加密而b函数是,移量为8此中偏,CBC模式为。d函数看回,s持续两次加密此中param,加密时第一次,一个参数文本为第,四个参数密钥为第;为第一次加密的值第二次加密时文本,随机数a密钥为。y是一个RSA加密而encSecke,第二个参数它的公钥是,三个参数模式是第,随机字符串a文本为阿谁。

  每一页的评论接着是获取。的offset相关每一页与第一个参数,e=(页数-1)*20此中的公式为offs,一页是truetotal在第,false在其他页是。

  在console上面找到参数消息完成上面的设置后刷新网页就能够,览该网页的时候它被缓存了下来若是没有的话这是由于你之前浏,断根浏览器记实里面有)所以要断根缓存文件(在。

  二次加密的时候本来是由于在第,是个byte类型阿谁params,符串类型就能够了所以把它转成字:

  rsea()方式是什么操作的了接下来就要看window.as,件能够看到这个通过查找JS文:

  rsea()方式有四个参数能够看到window.as。这个函数先不去管,没需要去研究那四个参数是如何来的先看看它的四个参数是什么(这里,们别离是什么)只需要晓得它。码让它显示出来那么能够加点代,ddler调试从而操纵fi。

  thon爬虫之后在简单进修了Py,就是网易云音乐我的下一个方针。就是用它听的歌由于本人日常平凡,歌里的评论也喜好看,网易云音乐的评论吧所以本文就来爬一爬!

  较着很,和字母该当是被加密了这个密密层层的数字,来看看有没有用不外能够复制下。Response接下来看下它的,不是Html布局的由于是Json而,son库来进行解析所以此刻需要用到J。

  面的每一个参数能够别离获取上,ams获取看看也把阿谁par,ler上操作如下然后在fidd:

  看到能够,thon格局里的字典后就能够把想要的数据取出来了操纵json.loads()方式把数据转成Py。是但,那两个参数吧?那独一的方式就是不爬了下一页如何取?总不克不及每次都复制粘贴?

  个识别不了的脸色缘由是这条评论有。其他文章之后参考,库的编码体例点窜了数据,数据库时的编码体例才能够留意还要本人点窜下建立!

  析完了终究分,始敲代码下面开。一页评论的代码先来个获取第,个参数的类这是获取两:

  的Json解析错了这个报错是由于我,试一看回头调,工具是空的网页前往的,码仍是200但它的形态。什么鬼这是?

打印本文 打印本文  关闭窗口 关闭窗口