A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

EvanXue

初级黑马

  • 黑马币:34

  • 帖子:7

  • 精华:0

代码:
# -*- coding:utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from movieheaven.items import MovieheavenItem

class MySpider(CrawlSpider):
    name = 'movie'
    allowed_domains = ['dytt8.net']
    start_urls = ['http://www.dytt8.net/html/gndy/dyzz/index.html']

    page_lx = LinkExtractor(allow=('list_23_\d+\.html'))
    rules = [
        Rule(page_lx, callback='myparse', follow=True)
    ]

    def myparse(self, response):
        pass

问题:
判断问题点在于,爬取该网站时,返回的 response 的编码是 'gb18030',从而会导致UnicodeDeodeError错误,在scrapy shell测试时,使用response=response.replace(encoding='utf-8')处理之后,问题解决,那么,在项目中这个问题该怎么解决呢?

1 个回复

倒序浏览
waiting..waiting..
回复 使用道具 举报
您需要登录后才可以回帖 登录 | 加入黑马