南开20秋学期 《网络爬虫与信息提取》在线作业(一).docx
- 文档编号:365369
- 上传时间:2023-04-29
- 格式:DOCX
- 页数:12
- 大小:17.77KB
南开20秋学期 《网络爬虫与信息提取》在线作业(一).docx
《南开20秋学期 《网络爬虫与信息提取》在线作业(一).docx》由会员分享,可在线阅读,更多相关《南开20秋学期 《网络爬虫与信息提取》在线作业(一).docx(12页珍藏版)》请在冰点文库上搜索。
20秋学期(1709、1803、1809、1903、1909、2003、2009)
《网络爬虫与信息提取》在线作业
(一)
共50道题总共100分
一、单选题
共20题,40分
1.Redis若要进入交互环境,需要打开终端输入()Aredis-cdiv
Bredis
Credis-cmdDredis-start
2.使用UIAutomatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令()
AswipeBmoveCscrollDfly
3.Python中Object={'obj_1':
'1','obj_2':
'2'},则Objcet.get('boj_3','3')
是()
A1
B2
C3
D无输出
4.Python中若定义object="12345",则print(object[:
:
-1])输出()A1
B5
C54321
D程序报错
5.在Scrapy的目录下,哪个文件负责定义需要爬取的数据?
()Aspiders文件夹
Bitem.py
Cpipedivne.pyDsettings.py
6.Python中Object=(1,2,3,4,5),则Objcet是()A列表
B元组C字典D集合
7.如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击
AXSSBDOS
CDDOS
D跨域
8.当爬虫创建好了之后,可以使用"scrapy()<爬虫名>"命令运行爬虫。
AstartupBstarwarCdrawlDcrawl
9.Redis是()数据库
A关系数据库B键值数据库C列存数据库D图数据库
10.Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式
生成
A列表B元组C字典D集合
11.使用UIAutomator打开微信的操作是获取相应图标后使用命令()Atouch
BcdivckCpushDhover
12.使用xpath方法的返回类型是()A列表
B元组C字典D集合
13.Python并导入uiautomator来操作设备的语句是fromuiautomatorimport()
ADeviceBDevicesCJobs
DJob
14.使用UIAutomatorr点亮屏幕的操作是得到相应控件后使用命令()Awakeup
BdivghtCbrightDsleep
15.PyMongo中逻辑查询表示不等于的符号是()
A$gtB$ltC$eqD$ne
16.Python中若定义object=(1,2,3,4,5),则print(object[:
3])输出()
A345
B34
C45
D123
17.Python中列表可以用()方法在末尾添加元素
Aadd
BappendCplus
D+
18.Python读CSV文件需要哪个方法()ACSVReader
BCsvReader
CDictReaderDFileReader
19.服务器端记录信息确定用户身份的数据是
AsessionBcookies
Cmoonpies
Dlocalstorage
20.Python中退出循环应用关键字()Abreak
Bcontinue
Cexit
Dreturn
二、多选题
共10题,20分
1.以下哪些方法属于Python写CSV文件的方法()Awriteheaders
Bwriteheader
CwriterrowsDwriterow
2.PyMongo更新操作有()Aupdate
Bupdate_all
Cupdate_oneDupdate_many
3.如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成()
A非法侵入计算机系统罪
B非法获取计算机信息系统数据罪
C非法获取计算机数据罪
D非法获取系统罪
4.网络爬虫的用途有()
A收集数据B尽职调查C提高流量
D攻击服务器
5.HTTP常用状态码表明表明客户端是发生错误的原因所在的有()A403
B404
C500
D503
6.Python中一个函数没有返回值则可以写()A没有return
Breturn
CreturnNoneDreturnNULL
7.下列说法错误的是()
Amitmproxy的强大之处在于它还自带一个mitmdump命令。
这个命令可以用来运行符合一定规则的Python脚本,并在Python脚本里面直接操作HTTP和HTTPS的请求,以及返回的数据包。
B命令行中执行mitmdump-sparse_request.py即可运行
python脚本
C使用python可以自定义返回的数据包,如
response.headers,就是返回的头部信息
D如果返回的是JSON类型的字符串,python无法进行解析。
8.以下HTTP状态码表示服务器本身发生错误的是
A400
B503
C302
D500
9.Python中有哪些实现多线程方法()Amultiprocess.dummy
Bthreading.ThreadCprocess
DPyMongoDB
10.Python中通过Key来从字典object中读取对应的Value的方法有
()
Aobject[key]
Bobject.get(key)Cobject.pop(key)Dobject.pop()
三、判断题
共20题,40分
1.使用UIAutomator使屏幕向上滚动一屏的操作是得到相应控件后使用命令scroll.vert.forward()
A对
B错
2.爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行
A对
B错
3.Python正则表达式中“.*?
”是非贪婪模式,获取最短的能满足条件的字符串。
A对
B错
4.Python中使用下面代码打开文件也需要对文件进行close关闭操作
withopen('文件路径','文件操作方式',encoding='utf-8')asfA对
B错
5.mitmproxy的强大之处在于它还自带一个mitmdump命令。
这个命令可以用来运行符合一定规则的Python脚本
A对
B错
6.Python正则表达式中“.*”是贪婪模式,获取最长的满足条件的字符串。
A对
B错
7.如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好。
于是将数据或者分析结果出售给某基金公司,从而获得销售收入。
这是合法的。
A对
B错
8.robots.txt是一种规范,在法律范畴内
A对
B错
9.Charles是一个收费软件,如果没有注册,安装以后的前30天可以正常使用。
30天以后,虽然功能不会缩水,但每过30分钟Charles会自动关闭一次
A对
B错
10.设置了这个中间件以后,仍然需要输入账号密码可以成功得到登录以后才能看到的HTML
A对
B错
11.Python中直接对浮点数进行计算有print(0.1+0.2),则结果为0.3A对
B错
12.一般来说在页面都通过GET将用户登录信息传递到服务器端。
A对
B错
13.在Windows中下若要运行Redis可以运行redis-server
/usr/local/etc/redis.confA对
B错
14.在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的
A对
B错
15.引用中间件时后面的数字代表的是中间件的执行顺序,例如'AdvanceSpider.middlewares.ProxyMiddleware':
543 中的543
A对
B错
16.Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据;
A对
B错
17.使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码
A对
B错
18.Redis中使用lrange读取数据后数据也会删除
A对
B错
19.Python中相比于findall方法,search方法对于从超级大的文本里面只找第1个数据特别有用,可以大大提高程序的运行效率。
A对
B错
20.虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。
A对
B错
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络爬虫与信息提取 南开20秋学期 网络爬虫与信息提取在线作业一 南开 20 学期 网络 爬虫 信息 提取 在线 作业