如何用Python获取成都租房信息-创新互联

这篇文章将为大家详细讲解有关如何用Python获取成都租房信息，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。

【网站建设公司】公司-专业网站定制、快速模板网站建设、高性价比梨树网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式梨树网站制作公司更省心,省钱,快速模板网站建设找我们，业务覆盖梨树地区。费用合理售后完善，十多年实体公司更值得信赖。

信息数据的获取，这里首先收集赶集网和自如网的信息。

1. 赶集网信息获取

I. 获取当页内容

这里的规则比较明显，获取网页内容用xpath解析即可，各个板块的信息都很容易获取，最后用列表保存并返回即可，首先循环出每个ps块，对里面的每个版块内容逐个获取

defget_this_page_gj(url,tmp):html=etree.HTML(requests.get(url).text)ps=html.xpath('//p[@]')forpinps:title=p.xpath('./dl/dd[@]/a/text()')[0]house_url=p.xpath('./dl/dd[@]/a/@href')[0]size="、".join(p.xpath('./dl/dd[@]/span/text()'))address='-'.join([data.strip()fordatainps[0].xpath('./dl/dd[@][1]//a//text()')ifdata.strip()!=''])agent_string=p.xpath('./dl/dd[@][2]/span/span/text()')[0]agent=re.sub('','',agent_string)price=p.xpath('./dl/dd[@]/p[@]/span[@]/text()')[0]tmp.append([title,size,price,address,agent,house_url])returntmp

II. URL构造

访问首页链接，获取总页数，按照url的访问规则构造url，调用获取当页数据的方法即可，这里的url都是以http://cd.ganji.com/zufang/pn开头的，后面跟上网页的页码

defhouse_gj(headers):index_url='http://cd.ganji.com/zufang/'html=etree.HTML(get_html(index_url,headers))total=html.xpath('//p[@]/a[position()=last()-1]/span/text()')[0]result=[]fornuminrange(1,int(total)+1):result+=get_this_page_gj('http://cd.ganji.com/zufang/pn{}'.format(num),[])print('完成读取第{}页/赶集网'.format(num))returnresult

2 .

这里和赶集网类似，结构也相似，同样的获取方式，我们也抓取基础信息加url链接，区别在于这里的价格可能不太好获取，并不是直接显示，而是以图片+偏移量的形式展示

1. 价格获取

每个数字对应一张图片，图片中的数字会根据style中设置的偏移去原图中获取，每页的原图也不尽相同，所以处理起来比较麻烦

这里我们仔细留心的会发现其实每个数字间的间距是一样的，可以自己在页面上更改数值查看规律，每个数字间的距离是21.4px，从原图的左边开始做偏移，根据偏移确定对应的数字，返回的数字下标 = |偏移量/21.4|,当然这里根据页面图片、内容等元素会有微小的误差，但都是极小的误差了，最后取个整去原图的数字列表中取得对应下标的值即可，这里我们用到tesseract来对图片进行解析

............price_strings=p.xpath('./p[@]/p[@]/span[@]/@style')offset_list=[]fordatainprice_strings:offset_list.append(re.findall('position:(.*?)px',data)[0])style_string=html.xpath('//p[@]/p[@]/span[@]/@style')[0]pic="http:"+re.findall(r'background-image:url\((.*?)\);.*?',style_string)[0]price=get_price_zr(pic,offset_list)defget_price_zr(pic_url,offset_list):'''这里的index保存所有数字的下标值，等待图片解析完成获取对应下标的价格数字'''index,price=[],[]withopen('pic.png','wb')asf:f.write(requests.get(pic_url).content)code_list=list(pytesseract.image_to_string(Image.open('pic.png')))fordatainoffset_list:index.append(int(math.fabs(ｅｖａｌ(data)/21.4)))fordatainindex:price.append(code_list[data])return"".join(price)

pic_url是每页的原图地址，将之下载下来后用pytesseract解析，最后返回每个下标对应的数字所组成的新的数字字符串(价格),offset_list是获取的每个数字的偏移值组成的列表

2. 自如网数据获取

这里和赶集网类似，结构也相似，同样的获取方式，我们也抓取基础信息加url链接，区别在于这里的价格可能不太好获取，并不是直接显示，而是以图片+偏移量的形式展示

I. 价格获取

每个数字对应一张图片，图片中的数字会根据style中设置的偏移去原图中获取，每页的原图也不尽相同，所以处理起来比较麻烦

这里我们仔细留心的会发现其实每个数字间的间距是一样的，可以自己在页面上更改数值查看规律，每个数字间的距离是21.4px，从原图的左边开始做偏移，根据偏移确定对应的数字，返回的数字下标 = |偏移量/21.4|,当然这里根据页面图片、内容等元素会有微小的误差，但都是极小的误差了，最后取个整去原图的数字列表中取得对应下标的值即可，这里我们用到tesseract来对图片进行解析

............price_strings=p.xpath('./p[@]/p[@]/span[@]/@style')offset_list=[]fordatainprice_strings:offset_list.append(re.findall('position:(.*?)px',data)[0])style_string=html.xpath('//p[@]/p[@]/span[@]/@style')[0]pic="http:"+re.findall(r'background-image:url\((.*?)\);.*?',style_string)[0]price=get_price_zr(pic,offset_list)defget_price_zr(pic_url,offset_list):'''这里的index保存所有数字的下标值，等待图片解析完成获取对应下标的价格数字'''index,price=[],[]withopen('pic.png','wb')asf:f.write(requests.get(pic_url).content)code_list=list(pytesseract.image_to_string(Image.open('pic.png')))fordatainoffset_list:index.append(int(math.fabs(ｅｖａｌ(data)/21.4)))fordatainindex:price.append(code_list[data])return"".join(price)

II. 获取当页数据

这里和赶集网类似，我们构造获取每页数据的函数，之后调用函数传入每页的url即可，这里可以关注一下xpath的扩展用法(contains函数)和正则获取原图链接

defget_this_page_zr(url,tmp):html=etree.HTML(requests.get(url).text)ps=html.xpath('//p[@]')forpinps:ifp.xpath('./p[@]/h6/a/text()'):title=p.xpath('./p[@]/h6/a/text()')[0]else:continuelink='http:'+p.xpath('./p[@]/h6/a/@href')[0]location=p.xpath('./p[@]/p[@]/p[@]/text()')[0]area=p.xpath('./p[@]/p[@]/p[contains(text(),"㎡")]/text()')[0]price_strings=p.xpath('./p[@]/p[@]/span[@]/@style')offset_list=[]fordatainprice_strings:offset_list.append(re.findall('position:(.*?)px',data)[0])style_string=html.xpath('//p[@]/p[@]/span[@]/@style')[0]pic="http:"+re.findall(r'background-image:url\((.*?)\);.*?',style_string)[0]price=get_price_zr(pic,offset_list)tag='、'.join(p.xpath('./p[@]//p[@]/span/text()'))tmp.append([title,tag,price,area,location,link])returntmp

III. url构造

原理同赶集网的一样，主要关注一下xpath的扩展用法position()=last()

defhouse_zr(headers):index_url='http://cd.ziroom.com/z/'html=etree.HTML(get_html(index_url,headers))total=html.xpath('//p[@]/a[position()=last()-1]/text()')[0]result=[]fornuminrange(1,int(total)+1):result+=get_this_page_zr('http://cd.ziroom.com/z/p{}/'.format(num),[])print('完成读取第{}页/自如网'.format(num))returnresult

关于如何用Python获取成都租房信息就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

TAG：赶集网成都租房

上一篇: 设置如意淘，猎豹浏览器怎么设置成商品对比下一篇: 网络留言板java代码 javaweb留言板代码

免责声明：本站内容（文字信息+图片素材）来源于互联网公开数据整理或转载，仅用于学习参考，如有侵权问题，请及时联系本站删除，我们将在5个工作日内处理。联系邮箱：chuangshanghai#qq.com（把#换成@）

我们已经准备好了,你呢？

如何用Python获取成都租房信息-创新互联

我们已经准备好了,你呢？

联系方式

二维码