试听热线:
  029-62258374
网站首页 JavaEE全栈工程师 WEB前端工程师 专家师资 就业案例 常见问题 视频下载 报名流程 关于我们
当前栏目
常见问题
最新文章
西安尚学堂2019年08月第
Java和Python谁更有
西安尚学堂2019年08月第
西安尚学堂2019年07月第
Java面试如何描述自己的项
西安尚学堂2019年07月第
2019年Java语言发展趋
西安尚学堂2019年07月第
西安尚学堂2019年07月第
西安尚学堂2019年07月暑
热门信息
尚学堂学费是多少?
IT培训为什么选择尚学堂
尚学堂四大保障为您保驾护航
张*利,毕业于西安工业大学,
孙*,毕业于陕西能源职业技术
您当前的位置:首页>> 常见问题
尚学堂大数据方向面试题目
作者:管理员    来源:尚学堂   发布时间:2018-09-01 10:05:57  阅读:317次

1. 在2.5亿个整数中找出不重复的整数,内存不足以容纳这2.5亿个整数。 


方案1:采用2-Bitmap(每个数分配2bit,00表示不存在,01表示出现一次,10表示多次,11无意义)进行,共需内存 内存,还可以接受。然后扫描这2.5亿个整数,查看Bitmap中相对应位,如果是00变01,01变10,10保持不变。所描完事后,查看bitmap,把对应位是01的整数输出即可。 


方案2:也可采用上题类似的方法,进行划分小文件的方法。然后在小文件中找出不重复的整数,并排序。然后再进行归并,注意去除重复的元素。 


2. 海量数据分布在100台电脑中,想个办法高校统计出这批数据的TOP10。 

 

在每台电脑上求出TOP10,可以采用包含10个元素的堆完成(TOP10小,用最大堆,TOP10大,用最小堆)。比如求TOP10大,我们首先取前 10个元素调整成最小堆,如果发现,然后扫描后面的数据,并与堆顶元素比较,如果比堆顶元素大,那么用该元素替换堆顶,然后再调整为最小堆。最后堆中的元 素就是TOP10大。 


求出每台电脑上的TOP10后,然后把这100台电脑上的TOP10组合起来,共1000个数据,再利用上面类似的方法求出TOP10就可以了。


3. 怎么在海量数据中找出重复次数最多的一个? 


先做hash,然后求模映射为小文件,求出每个小文件中重复次数最多的一个,并记录重复次数。然后找出上一步求出的数据中重复次数最多的一个就是所求(具体参考上期IP那题)。


 

4. 上千万或上亿数据(有重复),统计其中出现次数最多的钱N个数据。 


上千万或上亿的数据,现在的机器的内存应该能存下。所以考虑采用hash_map/搜索二叉树/红黑树等来进行统计次数。然后就是取出前N个出现次数最多的数据了,可以用第2题提到的堆机制完成。


5. 1000万字符串,其中有些是重复的,需要把重复的全部去掉,保留没有重复的字符串。请怎么设计和实现? 


这题用trie树比较合适,hash_map也应该能行。

 

6. 一个文本文件,大约有一万行,每行一个词,要求统计出其中最频繁出现的前10个词,请给出思想,给出时间复杂度分析。 

这题是考虑时间效率。用trie树统计每个词出现的次数,时间复杂度是O(n*le)(le表示单词的平准长度)。然后是找出出现最频繁的 前10个词,可以用堆来实现,前面的题中已经讲到了,时间复杂度是O(n*lg10)。所以总的时间复杂度,是O(n*le)与O(n*lg10)中较大 的哪一个。


 
网站首页 | 专家师资 | 常见问题 | 就业案例 | 报名流程 | 联系我们
尚学堂    西安Java培训     Android培训    Java培训教程    Android培训教程    尚学堂怎么样    尚学堂学费    尚学堂视频下载
Copyright 2007 版权所有 西安雁塔尚学堂计算机学校
地址:陕西省西安市高新区科技二路西安软件园天泽大厦五楼 邮编710000 电子邮件:fanchangansxt@163.com
陕ICP备14007859号 咨询电话:029-62258374
在线咨询