999kao.com
马上消费金融股份有限公司8月招聘面试题127道202088

当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapygenspider的第二个参数直接输入" 163.com"就可以了()

此题为判断题(对,错)。


正确答案:错


在Scrapy工程的settings.py文件中,哪个配置项,如果设置为True,那么Scrapy就会自动跳过网站不允许爬取的内容()

A.ROBOTSTXT_OBEY

B.ROBOTSTXT_JUDGE

C.ROBOTSTXT

D.ROBOTSTXT_IF


正确答案:A


Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。()

此题为判断题(对,错)。


参考答案:对


按照()爬取的网页内容根据目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行,当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。

A、深度优先策略

B、广度优先策略

C、PageRank优先策略

D、随机爬行策略


参考答案:B


()是Hadoop的前身,是一种分布式爬虫工具,更适合集群爬取。

A、Crawler

B、Jsoup

C、Hertrix

D、Nutch


参考答案:D


马上消费金融股份有限公司8月招聘面试题面试题面试官常问到的一些题目整理如下:问题 Q1:什么是PYTHONPATH?可用的回答 :它是导入模块时使用的环境变量。每当导入模块时,也会查找PYTHONPATH以检查各个目录中是否存在导入的模块。解释器使用它来确定要加载的模块。问题 Q2:遇到反爬机制怎么处理?可用的回答 : 反爬机制: headers方向 判断User-Agent、判断Referer、判断Cookie。 将浏览器的headers信息全部添加进去 注意:Accept-Encoding;gzip,deflate需要注释掉 问题 Q3:如果让你来防范网站爬虫,你应该怎么来提高爬取的难度?可用的回答 : 1. 判断headers的User-Agent; 2. 检测同一个IP的访问频率; 3. 数据通过Ajax获取; 4. 爬取行为是对页面的源文件爬取,如果要爬取静态网页的html代码,可以使用jquery去模仿写html。 问题 Q4:.什么是关联查询,有哪些?可用的回答 :将多个表联合起来进行查询,主要有内连接、左连接、右连接、全连接(外连接)问题 Q5:什么是_init_?可用的回答 :_init_是Python中的方法或者结构。在创建类的新对象/实例时,将自动调用此方法来分配内存。所有类都有_init_方法。问题 Q6:创建一个简单tcp服务器需要的流程?可用的回答 : 1.socket创建一个套接字 2.bind绑定ip和port 3.listen使套接字变为可以被动链接 4.accept等待客户端的链接 5.recv/send接收发送数据 问题 Q7:scrapy和requests的使用情况?可用的回答 : requests 是 polling 方式的,会被网络阻塞,不适合爬取大量数据 scapy 底层是异步框架 twisted ,并发是最大优势 问题 Q8:生成器?可用的回答 :生成器的本质就是一个逐个返回元素的函数,即“本质函数”最大的好处在于它是“延迟加载”,即对于处理长序列问题,更加的节省存储空间。即生成器每次在内存中只存储一个值问题 Q9:Python中的生成器是什么?可用的回答 :实现迭代器的方法称为生成器。这是一个正常的函数,除了它在函数中产生表达式。问题 Q10:用Python匹配HTML tag的时候,和有什么区别?可用的回答 :术语叫贪婪匹配( )和非贪婪匹配( )算法题面试官常问到的一些算法题目整理如下(大概率会机考):算题题 A1:水果分到篮子里题目描述如下:In a row of trees, the i-th tree produces fruit with type treei.You start at any tree of your choice, then repeatedly perform the following steps:1. Add one piece of fruit from this tree to your baskets. If you cannot, stop.2. Move to the next tree to the right of the current tree. If there is no tree to the right, stop.Note that you do not have any choice after the initial choice of starting tree: you must perform step 1, then step 2, then back to step 1, then step 2, and so on until you stop.You have two baskets, and each basket can carry any quantity of fruit, but you want each basket to only carry one type of fruit each.What is the total amount of fruit you can collect with this procedure? Example 1:Input: 1,2,1Output: 3Explanation: We can collect 1,2,1.Example 2:Input: 0,1,2,2Output: 3Explanation: We can collect 1,2,2.If we started at the first tree, we would only collect 0, 1.Example 3:Input: 1,2,3,2,2Output: 4Explanation: We can collect 2,3,2,2.If we started at the first tree, we would only collect 1, 2.Example 4:Input: 3,3,3,1,2,1,1,2,3,3,4Output: 5Explanation: We can collect 1,2,1,1,2.If we started at the first tree or the eighth tree, we would only collect 4 fruits.对于每一个 i,都会产生 treei 类型的水果。有两个篮子,每个篮子只能放一种类型,但同类型的不限次数。问最多能摘的水果数量。思路:1. 一开始用的回溯法:用两个变量表示篮子,都有水果时就追加。第三种类型的出现时就进行回溯,回到上一个水果的点再次进行判断。效率上最差就算 O(n) 吧。反正没passed就是了,90个里过了80个. 1.2. 有个要注意的点:回溯的点选择: 1,0,6,6,4,6在 tree2 (6) 这个点,出现了 1,0,6 三种类型,开始回溯,回溯的点是 0, 6 (1, 2) 。在 tree4 (4) 这个点,出现了 0,6,4 三种类型,开始回溯,回溯的点需要是 6, 4 (2, 4) 这个6是相邻的第一次出现的点。-2. O(n) 的进阶:对于每一个点来说可以存储一些属性来取消回溯: 1,0,6,6,4,6count: 这个点可采集到的两种类型的水果数量。repeat_count: 相邻的同类型水果数量。capacity: 篮子里的水果类型。self-value: 这个点可以采集的水果类型。那么对于下一个点,只需要判断:1. 是不是同类型: 同类型 repeat_count 和 count 都 + 1. 不是看2.2. 是不是在篮子里: 是则只把 count + 1 ,同时 repeat_count 和 self-value 更新为1与此点的类型。 不是看3.。 2.1 篮子没满,没满就 count + 1 重置 self-value repeat_count 并在 capacity 加上 这

网站一般在()文件中描述被爬取的规则。

A、License.txt

B、robots.txt

C、ReadMe.txt

D、hentrix.txt


参考答案:B


使用Hertrix爬取网页时建议使用()模式。

A、Mirror

B、KW3

C、ARC

D、TXT


参考答案:A


配置了Hertrix爬取设置后,在()模块可以新建任务并运行。

A、Logs

B、Jobs

C、Reports

D、Setup


参考答案:B


配置Hertrix的爬取设置是在()模块。

A、Logs

B、Help

C、Profiles

D、Reports


参考答案:C


整站采集的步骤一般是()。

A、匹配href连接地址;与原本地址拼接;读取网页中的A标签;找到关联网页并爬取

B、读取网页中的A标签;匹配href连接地址;与原本地址拼接;找到关联网页并爬取

C、找到关联网页并爬取;读取网页中的A标签;与原本地址拼接;匹配href连接地址

D、找到关联网页并爬取;与原本地址拼接;匹配href连接地址;读取网页中的A标签


参考答案:B

更多 “马上消费金融股份有限公司8月招聘面试题127道202088” 相关考题
考题 爬波是指表面下纵波,爬波检测的深度范围与频率和晶片尺寸有关。正确答案:正确

考题 判断题“如果你来负责,你将怎么办”,该问题属于确认式提问。A 对B 错正确答案:错解析:暂无解析

考题 网站链接的作用是整合网页的路径,在方便用户浏览网页的同时,为搜索引擎提供爬取网页的通道。()此题为判断题(对,错)。参考答案:正确

考题 判断题防止轨道爬行的设备有防爬器和防爬撑。A 对B 错正确答案:对解析:暂无解析

考题 判断题用浏览器访问某个网站的页面时,可通过查看源文件的方式,修改网页的源代码。A 对B 错正确答案:对解析:暂无解析

考题 判断题轨道防爬的方法是加强钢轨与轨枕间的扣压力和道床阻力,另一方面就是设置防爬器与防爬撑。A 对B 错正确答案:对解析:暂无解析

考题 判断题“追车爬”的游戏目标是练习向移动的目标爬去,加强爬行动作的协调性。A 对B 错正确答案:错解析:暂无解析

考题 判断题为了确保Cookie的安全,网站服务器应该为关键Cookie设置HttpOnly属性。通过设置HttpOnly属性,浏览器将禁止页面的JavaScript访问带有HttpOnly属性的Cookie。A 对B 错正确答案:对解析:暂无解析

考题 对于在塔上作业正确的答案是哪一个?()A、你可以单独爬塔,无需旁站提醒B、在使用安全设施前,需要提前检查,在爬塔的时候确保穿着安全装备C、把仅有的一个绳索固定在一个点上D、如果你是认证的塔工,在下雨和刮风的时候也可以爬塔正确答案:B

考题 判断题爬波是指表面下纵波,爬波检测的深度范围与频率和晶片尺寸有关。A 对B 错正确答案:错解析:暂无解析