python html 抓取和解析


import urllib2

content = urllib2.urlopen(‘http://www.bagualu.net/wordpress’).read()

print content
from bs4 import BeautifulSoup

html = ‘
aaaa222222
‘

soup = BeautifulSoup(html)

test = []

obj = soup.find(‘div’,’test’).find_all_next(“span”)

for result in obj:

   test.append(result.text)

print test

关于bs4的安装:sudo apt-get install python-bs4
可以用sudo apt-cache seach bs4 来搜索相关的包。

另外为了能够让python识别程序中的汉字,可以在程序中指定代码的编码:
参考: https://www.python.org/dev/peps/pep-0263/

基本原则是在程序的第一行或者第二行添加一行注释来说明本代码的编码方法,如果是用utf-8编码,则在程序的最头上加上下面的注释即可:(注意,只可以在第一行或者第二行)
# coding: utf-8



本文地址: http://www.bagualu.net/wordpress/archives/4385 转载请注明




发表评论

电子邮件地址不会被公开。 必填项已用*标注