Python最新版是一门跨平台的脚本语言,Python最新版规定了一个Python语法规则,实现了Python语法的解释程序就成为了Python的解释器,我们用的比较多的是C版本的Python最新版,也就是使用c语言实现的Python解释器。除此之外还有使用Java实现的Jython和使用,NET实现的IronPython,这些实现可以使Python最新版用户充分利用己有的Java及.NET资源。
自然的表达程序代码
完整的模块化设计,支持分层包
基于异常的错误处理
非常高的水平动态数据类型
几乎每一个任务的广泛的标准库和第三方模块
扩展和模块很容易写在C,C + +(或Java的Jython或NET语言IronPython的)
嵌入在应用程序中作为脚本接口
1、在本站下载Python压缩包并解压,在电脑本地得到一个.exe文件,双击.exe文件进入软件安装界面,您可以点击【Install Now】软件会默认安装,或者您可以点击【customize Installation】自定义安装。然后您可以勾选【Add Python to PATH】添加环境变量。
2、选择Python安装程序和安装位置,您可以点击【Install】,软件会默认安装,或者您可以自行够选安装程序,点击【Browse】在打开的窗口中,您可以自行选择软件安装位置,选择完成后点击【Install】。
3、Python正在安装中,您需要耐心等待软件安装完成就可以了。
4、Python安装完成,点击【close】退出软件安装。
用Python写简单爬虫:
Python提供了许多Module,通过这些Module,可以很简单的做一些工作。比如,要获得cloga这个词在百度搜索结果页中的排名结果(排名结果+URL),这就是一个很简单的爬虫需求。
1、首先,要通过urllib2这个Module获得对应的HTML源码。(PS:在python3.3之后urllib2已经不能再用,代之以urllib)
通过上面这三句就可以将URL的源码存在content变量中,其类型为字符型。
2、接下来是要从这堆HTML源码中提取我们需要的内容。用Chrome查看一下对应的内容的代码(也可以用Firefox的Firebug)。
3、可以看到url的信息存储在span标签中,要获取其中的信息可以用正则式。
import re
urls_pat=re.compile(r'(。*?)')
siteUrls=re.findall(results_pat,content)
4、用正则式获得内容还需要进一步处理,因为其中包含html标签。类似,hi.baidu.com/cloga 2010-8-29或者 hi.baidu.com/cloga 2010-8-29 ,同样可以用正则式的sub方法替换掉这些标签。
strip_tag_pat=re.compile(r'<.*?>')
file=open('results000.csv','w')
for i in results:
i0=re.sub(strip_tag_pat,'',i)
i0=i0.strip()
i1=i0.split(' ')
date=i1[-1]
siteUrl=''.join(i1[:-1])
rank+=1
file.write(date+','+siteUrl+','+str(rank)+'n')
file.close()
5、再来就是把对应的结果输出到文件中,比如,排名、URL、收入日期这样的形式。OK,这样就用Python实现了一个简单的爬虫需求。
同类推荐
2022-07-19
立即下载2022-07-19
立即下载2022-07-16
立即下载2022-07-23
立即下载2022-07-19
立即下载2022-07-26
立即下载相关文章
Vscode怎么安装python第三方模块?
2022-12-18Anaconda导入Python模块库图文教程
2022-12-18Sublime Text 3如何运行python?
2022-12-18EditPlus如何执行python代码?
2022-12-04Webstorm设置中文的技巧
2022-11-26EditPlus如何打开空白字符?EditPlus打开空白字符的技巧
2022-11-26Scratch如何创建铅笔角色?Scratch创建铅笔角色的技巧
2022-11-26Scratch如何制作雪人画圆环动画效果?
2022-11-26Webstorm设置字体大小的技巧
2022-11-26Scratch设计闪烁动态图形的技巧
2022-11-26