1、选取正则表达式的方式不对。2、你爬取的内容是动态的,返回的html里没有相应的信息,例如京东的价格,评论,这样就不能用正则表达式来匹配,你需要从接口里爬取。3、以上两种可能都没有的话,就只有可能你爬的网址有十...
1.**signature参数错误**:在搭建爬虫环境时,需要先获取signature参数,如果获取的参数有误或者过期,就会出现返回数据为空的情况。解决方案是重新获取signature参数。2.**请求头信息错误**:在发送请求时,需要设置正确的...
python爬取小说content为空原因是:1、反爬虫机制:很多网站都设有反爬虫机制,以防止自动化工具获取其内容。这些网站会检测到你的爬虫请求,然后返回空的内容或者直接拒绝你的请求。2、动态加载数据:有些网站的内容是通过Java...
你输出html看看,根本不是网页。这网站好像有反爬。你用基于浏览器的爬虫试试。例如chrome的WebScraper。
这表明你的findall没有找到东西,返回空列表,因此索引会出错。既然是爬虫,你就要用beautifulSoup或者selenium等工具去获取标签,而不是用re。前者更简单;re容易出错,有时内容稍有变化就挂了。
正好我也在做这题。如果把%22替换为""的话,就会出现errno:1的情况,也就是没有novel数据,只需要url=原来的链接就能得到正确的答案了由于我是新手,感觉挺怪的不知道其原理...
代码看起来写的还不错,只是对爬虫方面而言,太年轻了。代码如果是你自己写的话,怎么空白却不知道原因,难以理解。爬虫最基本的意识还不具备。君不见大灰狼要去抓小白兔的时候,不伪装一下怎么抓得到呢?
第1种可能情况:list[index]index超出范围,也就是常说的数组越界。第2种可能情况:list是一个空的,没有一个元素,进行list[0]就会出现该错误,这在爬虫问题中很常见,比如有个列表爬去下来为空,统一处理就会报错。如...
Python爬虫程序本身没有问题,但是却爬取不了数据主要原因如下:1.对方有反爬程序几乎所网站为了防止一些恶意抓取,会设置反爬程序,你会发现明明很多数据显示在浏览器上,但是却抓取不出来。2.伪装方式没有绕过目标网站反爬...
第一种可能情况:list[index],index超出范围,也就是常说的数组越界。第二种可能情况:list是一个空的,没有一个元素,进行list[0]就会出现该错误,在爬虫问题中很常见,比如有个列表爬去下来为空,统一处理就会报错。