文章会有【原创】或者【转载】标示,部分来自Google Baidu的学习结果 {Java/PHP/Python/Ruby/Go}

python 抓取部分操作(原创,转载请注明)  


urllib模块提供的上层接口,使我们可以像读取本地文件一样读取www和ftp上的数据。
一:
简单抓取
import urllib
print urllib.urlopen("http://www.imop.us").read()

二:
urllib.urlopen(url[, data[, proxies]]) :
       创建一个表示远程url的类文件对象,然后像本地文件一样操作这个类文件对象来获取远程数据。参数url表示远程数据的路径,一般是网址;参数data表示以post方式提交到url的数据(玩过web的人应该知道提交数据的两种方式:post与get。如果你不清楚,也不必太在意,一般情况下很少用到这个参数);参数proxies用于设置代理(这里不详细讲怎么使用代理,感兴趣的看客可以去翻阅Python手册urllib模块)。urlopen返回 一个类文件对象,他提供了如下方法:
      read() , readline() , readlines() , fileno() , close() :这些方法的使用方式与文件对象完全一样;
      info():返回一个httplib.HTTPMessage 对象,表示远程服务器返回的头信息;
      getcode():返回Http状态码。如果是http请求,200表示请求成功完成;404表示网址未找到;
      geturl():返回请求的url;

import urllib
imop = urllib.urlopen('http://www.imop.us')
print 'http header:\n', imop.info()
print 'http status:', imop.getcode()
print 'url:', imop.geturl()
for line in imop:
     print line,
imop.close()

三:
urlretrieve方法直接将远程数据下载到本地。参数filename指定了保存到本地的路径(如果未指定该参数,urllib会生成一个临时文件来保存数据);参数reporthook是一个回调函数,当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。我们可以利用这个回调函 数来显示当前的下载进度,下面的例子会展示。参数data指post到服务器的数据。该方法返回一个包含两个元素的元组(filename, headers),filename表示保存到本地的路径,header表示服务器的响应头。下面通过例子来演示一下这个方法的使用,这个例子将新浪首页的html抓取到本地,保存在/var/www/python文件中,同时显示下载的进度。

import urllib
def jd(a,b,c):
    per = 100.0 * a * b / c
    if per > 100:
        per = 100
    print '%.2f%%' % per

url = 'http://www.imop.us'
local = '/var/www/python/imop.us.html'
urllib.urlretrieve(url,local,jd)


回生成一个文件 叫imop.us.html 注意程序可写。

urllib中还提供了一些辅助方法,用于对url进行编码、解码。url中是不能出现一些特殊的符号的,有些符号有特殊的用途。我们知道以get 方式提交数据的时候,会在url中添加key=value这样的字符串,所以在value中是不允许有'=',因此要对其进行编码;与此同时服务器接收到这些参数的时候,要进行解码,还原成原始的数据。这个时候,这些辅助方法会很有用:
urllib.quote(string[, safe]):对字符串进行编码。参数safe指定了不需要编码的字符;
urllib.unquote(string) :对字符串进行解码;
urllib.quote_plus(string [ , safe ] ) :与urllib.quote类似,但这个方法用'+'来替换' ',而quote用'%20'来代替' '
urllib.unquote_plus(string ) :对字符串进行解码;
urllib.urlencode(query[, doseq]):将dict或者包含两个元素的元组列表转换成url参数。例如 字典{'name': 'dark-bull', 'age': 200}将被转换为"name=dark-bull&age=200"
urllib.pathname2url(path):将本地路径转换成url路径;
urllib.url2pathname(path):将url路径转换成本地路径;

其实和PHP一样urllib在python中是一个函数库。在使用的时候需要载入一下。PHP将常用的库都加载到PHP解释器中了所以不用声明使用那个类库了。

 

ubuntu :

apt-get install python-mysqldb

centos

yum install MySQL-python