织梦CMS - 轻松建站从此开始!

沙龙国际_沙龙国际娱乐城_沙龙国际娱乐官网

当前位置: 主页 > 沙龙国际娱乐城 >

(沙龙国际娱乐城) BeautifulSoup 采集后写入CSV 乱码

时间:2017-07-18 03:59来源:未知 作者:admin 点击:
增补:python3.x 1.用BS采集页面内容 2.写入CSV 3.运行的时候发现能够写入,但是写入内容如下图,全英文的OK,有中文的乱码 代码如下: import ioimport sysimport reimport csvfrom urllib.request impor

增补:python3.x

1.用BS采集页面内容
2.写入CSV
3.运行的时候发现能够写入,但是写入内容如下图,全英文的OK,有中文的乱码

代码如下:

import io
import sys
import re
import csv
from urllib.request import Request
from urllib.request import urlopen
from bs4 import BeautifulSoup
from bs4 import UnicodeDammit
from datetime import datetime

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')

page = 2
url = 'http://www.qiushibaike.com/hot/page/'   str(page)
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = {'User-Agent':user_agent}
request = Request(url,headers=headers)
response = urlopen(request)
doc = response.read()
soup = BeautifulSoup(doc)
needdivs = soup.findAll("div",{"class":"article block untagged mb15"})

csvFile = open("test.csv",'w ')
try:
    writer = csv.writer(csvFile)
    writer.writerow(('author','content','datetime'))
    for div in needdivs:
        author = div.findAll("h2")[0].get_text().encode('utf-8')
        contentDiv = div.find("div",{"class":"content"})
        content = contentDiv.get_text().encode('utf-8')
        m = re.findall(r'
      
      (责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
栏目列表
推荐内容