"IT有得聊”是机械工业出版社旗下IT专业资讯和服务平台,致力于帮助读者在广义的IT领域里,掌握更专业、实用的知识与技能,快速提升职场竞争力。
1如何巧妙地回答面试官的问题?
在程序员面试中,求职者不可避免地需要回答面试官各种刁钻、犀利的问题,这时不能简单地回答“是”或者“不是”,而应该具体分析“是”或者“不是”的理由。
那么,面对面试官提出的各类问题,如何才能条理清晰地回答呢?如何才能让自己的回答令面试官满意呢?
谈话是一种艺术,回答问题也是一种艺术。同样的问题,不同的回答方式,往往会产生不同的效果,甚至是截然不同的效果。在此,编者提出以下几点建议,供读者参考。
首先,回答问题务必谦虚谨慎。既不能让面试官觉得自己很自卑,唯唯诺诺,也不能让面试官觉得自己清高自负,而应该通过问题的回答表现出自己自信从容、不卑不亢的一面。例如,当面试官提出“你在项目中起到了什么作用”的问题时,如果求职者回答:我完成了团队中最难的工作,此时就会给面试官一种居功自傲的感觉,而如果回答:我完成了文件系统的构建工作,这个工作被认为是整个项目中最具有挑战性的一部分内容,因为它几乎无法重用以前的框架,需要重新设计。这种回答不仅不傲慢,反而有理有据,更能打动面试官。
其次,回答面试官的问题时,不要什么都说,要适当地留有悬念。人一般都有猎奇的心理,面试官自然也不例外,而且,人们往往对好奇的事情更有兴趣、更加偏爱,也更加记忆深刻。所以,在回答面试官问题时,切记说关键点而非细节,说重点而非和盘托出,通过关键点,吸引面试官的注意力,等待他们继续“刨根问底”。例如,当面试官对你的简历中一个算法问题有兴趣,希望了解时,可以作如下回答:我设计的这种查找算法,对于80%以上的情况,都可以将时间复杂度从O(n)降低到O(logn),如果您有兴趣,我可以详细给您分析具体的细节。
最后,回答问题要条理清晰、简单明了,最好使用“三段式”方式。所谓“三段式”,有点类似于中学作文中的写作风格,包括“场景/任务”“行动”和“结果”三部分内容。以面试官提的问题“你在团队建设中,遇到的最大挑战是什么”为例,第一步,分析场景/任务:在我参与的一个ERP项目中,我们团队一共四个人,除了我以外的其他三个人中,两个人能力很给力,人也比较好相处,但有一个人却不太好相处,每次我们小组讨论问题的时候,他都不太爱说话,也很少发言,分配给他的任务也很难完成。第二步,分析行动:为了提高团队的综合实力,我决定找个时间和他好好单独谈一谈。于是我利用周末时间,约他一起吃饭,吃饭的时候,顺便讨论了一下我们的项目,我询问了一些项目中他遇到的问题,通过他的回答,我发现他并不懒,也不糊涂,只是对项目不太了解,缺乏经验,缺乏自信而已,所以越来越孤立,越来越不愿意讨论问题。为了解决这个问题,我尝试着把问题细化到他可以完成的程度,从而建立起他的自信心。第三步,分析结果:他是小组中水平最弱的人,但是,慢慢地,他的技术变得越来越厉害了,也能够按时完成安排给他的工作了,人也越来越自信了,也越来越喜欢参与我们的讨论,并发表自己的看法,我们也都愿意与他一起合作了。“三段式”回答的一个最明显的好处就是条理清晰,既有描述,也有结果,有根有据,让面试官一目了然。
回答问题的技巧,是一门大的学问。求职者完全可以在平时的生活中加以练习,提高自己与人沟通的技能,等到面试时,自然就得心应手了。
2如何回答技术性的问题?
程序员面试中,面试官会经常询问一些技术性的问题,有的问题可能比较简单,都是历年的笔试面试真题,求职者在平时的复习中会经常遇到,应对自然不在话下。但有的题目可能比较难,来源于Google、Microsoft等大企业的题库或是企业自己为了招聘需要设计的题库,求职者可能从来没见过或者从来都不能完整地、独立地想到解决方案,而这些题目往往又是企业比较关注的。
如何能够回答好这些技术性的问题呢?编者建议:会做的一定要拿满分,不会做的一定要拿部分分。即对于简单的题目,求职者要努力做到完全正确,毕竟这些题目,只要复习得当,完全回答正确一点问题都没有(编者认识的一个朋友据说把《编程之美》、《编程珠玑》、《程序员面试笔试宝典》上面的技术性题目与答案全都背得滚瓜烂熟了,后来找工作简直成了“offer杀器”,完全无解了);对于难度比较大的题目,不要惊慌,也不要害怕,即使无法完全做出来,也要努力思考问题,哪怕是半成品也要写出来,至少要把自己的思路表达给面试官,让面试官知道你的想法,而不是完全回答不会或者放弃,因为面试官很多时候除了关注你的独立思考问题的能力以外,还会关注你技术能力的可塑性,观察求职者是否能够在别人的引导下去正确地解决问题,所以,对于你不会的问题,他们很有可能会循序渐进地启发你去思考,通过这个过程,让他们更加了解你。
一般而言,在回答技术性问题时,求职者大可不必胆战心惊,除非是没学过的新知识,否则,一般都可以采用以下六个步骤来分析解决。
(1)勇于提问
面试官提出的问题,有时候可能过于抽象,让求职者不知所措,或者无从下手,所以,对于面试中的疑惑,求职者要勇敢地提出来,多向面试官提问,把不明确或二义性的情况都问清楚。不用担心你的问题会让面试官烦恼,影响你的面试成绩,相反还对面试结果产生积极影响:一方面,提问可以让面试官知道你在思考,也可以给面试官一个心思缜密的好印象;另一方面,方便后续自己对问题的解答。
例如,面试官提出一个问题:设计一个高效的排序算法。求职者可能丈二和尚摸不到头脑,排序对象是链表还是数组?数据类型是整型、浮点型、字符型还是结构体类型?数据基本有序还是杂乱无序?数据量有多大,1000以内还是百万以上个数?此时,求职者大可以将自己的疑问提出来,问题清楚了,解决方案也自然就出来了。
(2)高效设计
对于技术性问题,如何才能打动面试官?完成基本功能是必须的,仅此而已吗?显然不是,完成基本功能顶多只能算及格水平,要想达到优秀水平,至少还应该考虑更多的内容,以排序算法为例:时间是否高效?空间是否高效?数据量不大时也许没有问题,如果是海量数据呢?是否考虑了相关环节,例如数据的“增删改查”?是否考虑了代码的可扩展性、安全性、完整性以及鲁棒性?如果是网站设计,是否考虑了大规模数据访问的情况?是否需要考虑分布式系统架构?是否考虑了开源框架的使用?
(3)伪代码先行
有时候实际代码会比较复杂,上手就写很有可能会漏洞百出、条理混乱,所以,求职者可以首先征求面试官的同意,在编写实际代码前,写一个伪代码或者画好流程图,这样做往往会让思路更加清晰明了。
切记在写伪代码前要告诉面试官,他们很有可能对你产生误解,认为你只会纸上谈兵,实际编码能力却不行。只有征得了他们的允许,方可先写伪代码。
(4)控制节奏
如果是算法设计题,面试官都会给求职者一个时间限制用以完成设计,一般为20分钟左右。完成得太慢,会给面试官留下能力不行的印象,但完成得太快,如果不能保证百分百正确,也会给面试官留下毛手毛脚的印象,速度快当然是好事情,但只有速度,没有质量,速度快根本不会给面试加分。所以,编者建议,回答问题的节奏最好不要太慢,也不要太快,如果实在是完成得比较快,也不要急于提交给面试官,最好能够利用剩余的时间,认真仔细地检查一些边界情况、异常情况及极性情况等,看是否均能满足要求。
(5)规范编码
回答技术性问题时,多数都是纸上写代码,离开了编译器的帮助,求职者要想让面试官对自己的代码一看即懂,除了字迹要工整,不能眉飞色舞以外,最好是能够严格遵循编码规范:函数变量命名、换行缩进、语句嵌套和代码布局等,同时,代码设计应该具有完整性,保证代码能够完成基本功能、输入边界值能够得到正确地输出、对各种不合规范的非法输入能够做出合理的错误处理,否则,写出的代码即使无比高效,面试官也不一定看得懂或者看起来非常费劲,这些对面试成功都是非常不利的。
(6)精心测试
在软件界,有一句真理:任何软件都有bug。但不能因为如此就纵容自己的代码,允许错误百出。尤其是在面试过程中,实现功能也许并不十分困难,困难的是在有限的时间内设计出的算法,各种异常是否都得到了有效的处理,各种边界值是否都在算法设计的范围内。
测试代码是让代码变得完备的高效方式之一,也是一名优秀程序员必备的素质之一。所以,在编写代码前,求职者最好能够了解一些基本的测试知识,做一些基本的单元测试、功能测试、边界测试以及异常测试。
在回答技术性问题时,注意在思考问题的时候,千万别一句话都不说,面试官面试的时间是有限的,他们希望在有限的时间内尽可能地去了解求职者,如果求职者坐在那里一句话不说,不仅会让面试官觉得求职者技术水平不行,而且会认为求职者思考问题能力以及沟通能力可能都存在问题。
其实,在面试时,求职者往往会存在一种思想误区,把技术性面试的结果看得太重要了。面试过程中的技术性问题,结果固然重要,但也并非最重要的内容,因为面试官看重的不仅仅是最终的结果,还包括求职者在解决问题的过程中体现出来的逻辑思维能力以及分析问题的能力。所以,求职者在与面试官的博弈中,要适当地提问,通过提问获取面试官的反馈信息,并抓住这些有用的信息进行辅助思考,从而博得面试官的认可,进而提高面试的成功率。
3如何回答非技术性问题?
评价一个人的能力,除了专业能力,还有一些非专业能力,如智力、沟通能力和反应能力等,所以在IT企业招聘过程的笔试面试环节中,并非所有的笔试内容都是C/C++、数据结构与算法及操作系统等专业知识,也包括其他一些非技术类的知识,如智力题、推理题和作文题等。技术水平测试可以考查一个求职者的专业素养,而非技术类测试则更加强调求职者的综合素质,包括数学分析能力、反应能力、临场应变能力、思维灵活性、文字表达能力和性格特征等内容。考查的形式多种多样,但与公务员考查相似,主要包括行测(占大多数)、性格测试(大部分都有)、应用文和开放问题等内容。
每个人都有自己的答题技巧,答题方式也各不相同,以下是一些相对比较好的答题技巧(以行测 为例):
1)合理有效的时间管理。由于题目的难易不同,所以不要对所有题目都“绝对的公平”、都“一刀切”,要有轻重缓急,最好的做法是不按顺序回答。行测中有各种题型,如数量关系、图形推理、应用题、资料分析和文字逻辑等,而不同的人擅长的题型是不一样的,因此应该首先回答自己最擅长的问题。例如,如果对数字比较敏感,那么就先答数量关系。
2)注意时间的把握。由于题量一般都比较大,可以先按照总时间/题数来计算每道题的平均答题时间,如10s,如果看到某一道题5s后还没思路,则马上放弃。在做行测题目的时候,以在最短的时间内拿到最多分为目标。
3)平时多关注图表类题目,培养迅速抓住图表中各个数字要素间相互逻辑关系的能力。
4)做题要集中精力,只有集中精力、全神贯注,才能将自己的水平最大限度地发挥出来。
5)学会关键字查找,通过关键字查找,能够提高做题效率。
6)提高估算能力,有很多时候,估算能够极大地提高做题速度,同时保证正确率。
除了行测以外,一些企业非常相信个人性格对职位匹配的影响,所以都会引入相关的性格测试题用于测试求职者的性格特性,看其是否适合所投递的职位。大多数情况下,只要按照自己的真实想法选择就行了,不要弄巧成拙,因为测试是为了得出正确的结果,所以大多测试题前后都有相互验证的题目。如果求职者自作聪明,选择该职位可能要求的性格选项,则很可能导致测试前后不符,这样很容易让企业发现你是个不诚实的人,从而首先予以筛除。
4如何回答系统设计题?
应届生在面试的时候,偶尔也会遇到一些系统设计题,而这些题目往往只是测试一下求职者的知识面,或者测试求职者对系统架构方面的了解,一般不会涉及具体的编码工作。虽然如此,对于此类问题,很多人还是感觉难以应对,也不知道从何说起。
如何应对此类题目呢?在正式介绍基础知识之前,首先罗列几个常见的系统设计相关的面试笔试题,如下所示:
1)设计一个DNS的Cache结构,要求能够满足每秒5000次以上的查询,满足IP数据的快速插入,查询的速度要快(题目还给出了一系列的数据,比如站点数总共为5000万、IP地址有1000万等)。
2)有N台机器,M个文件,文件可以以任意方式存放到任意机器上,文件可任意分割成若干块。假设这N台机器的宕机率小于1/3,想在宕机时可以从其他未宕机的机器中完整导出这M个文件,求最好的存放与分割策略。
3)假设有三十台服务器,每台服务器上面都存有上百亿条数据(有可能重复),如何找出这三十台机器中,根据某关键字,重复出现次数最多的前100条?要求使用Hadoop来实现。
4)设计一个系统,要求写速度尽可能快,并说明设计原理。
5)设计一个高并发系统,说明架构和关键技术要点。
6)有25T的log(query->queryinfo),log在不断地增长,设计一个方案,给出一个query能快速返回queryinfo。
以上所有问题中凡是不涉及高并发的,基本可以采用Google的三个技术解决,即GFS、MapReduce和Bigtable,这三个技术被称为“Google三驾马车”,Google只公开了论文而未公开源代码,开源界对此非常有兴趣,仿照这三篇论文实现了一系列软件,如Hadoop、HBase、HDFS及Cassandra等。
在Google这些技术还未出现之前,企业界在设计大规模分布式系统时,采用的架构往往是database+sharding+cache,现在很多公司(比如taobao、weibo.com)仍采用这种架构。在这种架构中,仍有很多问题值得去探讨。如采用什么数据库,是SQL界的MySQL还是NoSQL界的Redis/TFS,两者有何优劣?采用什么方式sharding(数据分片),是水平分片还是垂直分片?据网上资料显示,weibo.com 和 taobao 图片存储中曾采用的架构是Redis/MySQL/TFS+sharding+cache,该架构解释如下:前端cache是为了提高响应速度,后端数据库则用于数据永久存储,防止数据丢失,而sharding是为了在多台机器间分摊负载。最前端由大块大块的cache组成,要保证至少99%(该数据在weibo.com架构中的是自己猜的,而taobao图片存储模块是真实的)的访问数据落在cache中,这样可以保证用户访问速度,减少后端数据库的压力。此外,为了保证前端cache中的数据与后端数据库中的数据一致,需要有一个中间件异步更新(为什么使用异步?理由简单:同步代价太高。异步有缺点,如何弥补?)数据,这个有些人可能比较清楚,新浪有个开源软件叫Memcachedb(整合了Berkeley DB和Memcached),正是为完成此功能而设计。另外,为了分摊负载压力和海量数据,会将用户微博信息经过分片后存放到不同节点上(称为“Sharding”)。
这种架构优点非常明显:简单,在数据量和用户量较小的时候完全可以胜任。但缺点是扩展性和容错性太差,维护成本非常高,尤其是数据量和用户量暴增之后,系统不能通过简单地增加机器解决该问题。
鉴于此,新的架构应运而生。新的架构仍然采用Google公司的架构模式与设计思想,以下将分别就此内容进行分析。
GFS:GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,提供容错功能。现在开源界有HDFS(Hadoop Distributed File System),该文件系统虽然弥补了数据库+sharding的很多缺点,但自身仍存在一些问题,比如:由于采用master/slave架构,因此存在单点故障问题;元数据信息全部存放在master端的内存中,因而不适合存储小文件,或者说如果存储大量小文件,那么存储的总数据量不会太大。
MapReduce:MapReduce是针对分布式并行计算的一套编程模型。其最大的优点是:编程接口简单,自动备份(数据默认情况下会自动备三份),自动容错和隐藏跨机器间的通信。在Hadoop中,MapReduce作为分布计算框架,而HDFS作为底层的分布式存储系统,但MapReduce不是与HDFS耦合在一起的,完全可以使用自己的分布式文件系统替换掉HDFS。当前MapReduce有很多开源实现,如Java实现Hadoop MapReduce,C++实现Sector/sphere等,甚至有些数据库厂商将MapReduce集成到数据库中了。
BigTable:BigTable俗称“大表”,是用来存储结构化数据的,编者觉得,BigTable之所以在开源界最火爆,是因为其开源实现最多,包括HBase、Cassandra和levelDB等,使用也非常广泛。
除了Google的这“三驾马车”以外,还有其他一些技术可供学习与使用:
Dynamo:亚马逊的key-value模式的存储平台,可用性和扩展性都很好,采用DHT(Distributed Hash Table)对数据分片,解决单点故障问题,在Cassandra中,也借鉴了该技术,在“BT”和“电驴”这两种下载引擎中,也采用了类似算法。
虚拟节点技术:该技术常用于分布式数据分片中。具体应用场景是:有一大块数据(可能TB级或者PB级),需按照某个字段(key)分片存储到几十(或者更多)台机器上,同时想尽量负载均衡且容易扩展。传统的做法是:Hash(key) mod N,这种方法最大的缺点是不容易扩展,即增加或者减少机器均会导致数据全部重分布,代价太大。于是新技术诞生了,其中一种是上面提到的DHT,现在已经被很多大型系统采用,还有一种是对“Hash(key) mod N”的改进:假设要将数据分布到20台机器上,传统做法是Hash(key) mod 20,而改进后,N取值要远大于20,比如是20000000,然后采用额外一张表记录每个节点存储的key的模值,比如:
node1:0~1000000
node2:1000001~2000000
……
这样,当添加一个新的节点时,只需将每个节点上部分数据移动给新节点,同时修改一下该表即可。
Thrift:Thrift是一个跨语言的RPC框架,分别解释“RPC”和“跨语言”如下:RPC是远程过程调用,其使用方式与调用一个普通函数一样,但执行体发生在远程机器上;跨语言是指不同语言之间进行通信,比如C/S架构中,Server端采用C++编写,Client端采用PHP编写,怎样让两者之间通信,Thrift是一种很好的方式。
本篇最前面的几道题均可以映射到以上几个系统的某个模块中,如:
1)关于高并发系统设计,主要有以下几个关键技术点:缓存、索引、数据分片及锁粒度尽可能小。
2)题目2涉及现在通用的分布式文件系统的副本存放策略。一般是将大文件切分成小的block(如64MB)后,以block为单位存放三份到不同的节点上,这三份数据的位置需根据网络拓扑结构配置,一般而言,如果不考虑跨数据中心,可以这样存放:两个副本存放在同一个机架的不同节点上,而另外一个副本存放在另一个机架上,这样从效率和可靠性上,都是最优的(这个Google公布的文档中有专门的证明,有兴趣的可参阅一下)。如果考虑跨数据中心,可将两份存在一个数据中心的不同机架上,另一份放到另一个数据中心。
3)题目4涉及BigTable的模型。主要思想是将随机写转化为顺序写,进而大大提高写速度。具体是:由于磁盘物理结构的独特设计,其并发的随机写(主要是因为磁盘寻道时间长)非常慢,考虑到这一点,在BigTable模型中,首先会将并发写的大批数据放到一个内存表(称为“memtable”)中,当该表大到一定程度后,会顺序写到一个磁盘表(称为“SSTable”)中,这种写法是顺序写,效率极高。此时可能有读者问,随机读可不可以这样优化?答案是:看情况。通常而言,如果读并发度不高,则不可以这么做,因为如果将多个读重新排列组合后再执行,系统的响应时间太慢,用户可能接受不了,而如果读并发度极高,也许可以采用类似机制。
5如何解决求职中的时间冲突问题?
对于求职者而言,求职季就是一个赶场季,一天少则几家、十几家企业入校招聘,多则几十家、上百家企业招兵买马。企业多,选项自然也多,这固然是一件好事情,但由于招聘企业实在是太多,自然而然会导致另外一个问题的发生:同一天企业扎堆面试,且都是自己心仪或欣赏的大牛企业的现象。如果不能够提前掌握企业的宣讲时间、地点,是很容易迟到或错过的。但有时候即使掌握了宣讲时间、笔试和面试时间,还是有可能错过,为什么呢?时间冲突,人不可能具有分身术,也不可能同一时间做两件不同的事情,所以,很多时候就必须有所取舍了。
到底该如何取舍呢?该如何应对这种时间冲突的问题呢?在此,编者将自己的一些想法和经验分享出来,以供读者参考:
1)如果多家心仪企业的校园宣讲时间发生冲突(前提是只宣讲,不笔试,否则请看后面的建议),此时最好的解决方法是和同学或朋友商量好,各去一家,然后大家进行信息共享。
2)如果多家心仪企业的笔试时间发生冲突,此时只能选择其一,毕竟企业的笔试时间都是考虑到了成百上千人的安排,需要提前安排考场、考务人员和阅卷人员等,不可能为了某一个人而轻易改变。所以,最好选择自己更有兴趣的企业参加笔试。
3)如果多家心仪企业的面试时间发生冲突,不要轻易放弃。对于面试官而言,面试任何人都是一样的,因为面试官谁都不认识,而面试时间也是灵活性比较大的,一般可以通过电话协商。求职者可以与相关工作人员(一般是企业的HR)进行沟通,以某种理由(例如学校的事宜、导师的事宜或家庭的事宜等,前提是必须能够说服人,不要给出的理由连自己都说服不了)让其调整时间,一般都能协调下来。但为了保证协调的成功率,一般要接到面试通知后第一时间联系相关工作人员变更时间,这样他们协调起来也更方便。
正如世界上没有能够包治百病的药物一样,以上这些建议在应用时,很多情况下也做不到全盘兼顾,当必须进行多选一的时候,求职者就要对此进行评估了,评估的项目可以包括:对企业的中意程度、获得offer的概率及去工作的可能性等。评估的结果往往具有很强的参考性,求职者依据评估结果做出的选择一般也会比较合理。
6在被企业拒绝后是否可以再申请?
很多企业为了能够在一年一度的招聘季节中,提前将优秀的程序员锁定到自己的麾下,往往会先下手为强。他们通常采取的措施有以下两种:第一种,招聘实习生;第二种,多轮招聘。
招聘开始后,往往是几家欢喜几家愁,提前拿到企业绿卡的,于是对酒当歌、欢天喜地,而没有被选上的,担心从此与这家企业无缘了,于是整日囧字写在脸上,忧心忡忡,感叹生不逢时。难道一次失望的表现就永远会被企业拉入黑名单了吗?难道一次失败的经历就会永远被记录在个人历史的耻辱柱上了吗?
答案当然是否定的,对心仪的女孩表白,即使第一次被拒绝了,都还可以一而再再而三地表白呢?多次表白后成功的案例比比皆是,更何况是求职找工作。一般而言,企业是不会记仇的,尤其是知名的大企业,对此都会有明确的表示。如果在企业的实习生招聘或在企业以前的招聘中不幸被pass掉了,一般是不会被拉入企业的黑名单的。在下一次招聘中,和其他求职者,具有相同的竞争机会(有些企业可能会要求求职者等待半年到一年时间再能应聘该企业,但上一次求职的糟糕表现不会被计入此次招聘中)。
对心仪的对象表白被拒绝了,不是一样还可以继续表白吗?也许是在考验,也许是在等待,也许真的是拒绝,但无论出于什么原因,此时此刻都不要对自己丧失信心。工作也是如此,以编者身边的很多同学和朋友为例,很多人最开始被一家企业拒绝了,过了一段时间,又发现他们已成为该企业的员工。所以,即使被企业拒绝了也不是什么大不了的事情,以后还有机会的,有志者自有千计万计,无志者只感千难万难,关键是看你愿意成为什么样的人了。
本文节选自《数据库程序员面试笔试真题库》
作者:李华荣,网名“小麦苗”,甘肃庆阳人,中国科学技术大学软件工程硕士,获得计算机四级数据库工程师认证,获得OCM大师认证,长期从事Oracle数据库的研究,具有丰富的开发和维护经验,兴趣爱好广泛,热衷技术分享。
数据库程序员面试笔试真题库
ISBN:978-7-111-60474-7
作者:李荣华
定价:69.00
出版日期:2018.07