按照query的频度排序文件

发布时间:2022-09-14 15:49:35

发布人:wjy

　　有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序?

　　方案1:

　　hash映射: 顺序读取10个文件，按照hash(query)%10的结果将query写入到另外10个文件(记为a0,a1,..a9)中。这样新生成的文件每个的大小大约也1G(假设hash函数是随机的)。

　　hash_map统计: 找一台内存在2G左右的机器，依次对用hash_map(query, query_count)来统计每个query出现的次数。注: hash_map(query,query_count)是用来统计每个query的出现次数，不是存储他们的值，出现一次，则count+1。

　　堆/快速/归并排序: 利用快速/堆/归并排序按照出现次数进行排序，将排序好的query和对应的query_cout输出到文件中，这样得到了10个排好序的文件(记为)。最后，对这10个文件进行归并排序(内排序与外排序相结合)。

　　方案2:

　　一般query的总量是有限的，只是重复的次数比较多而已，可能对于所有的query，一次性就可以加入到内存了。这样，我们就可以采用trie树/hash_map等直接来统计每个query出现的次数，然后按出现次数做快速/堆/归并排序就可以了。

　　方案3:

　　与方案1类似，但在做完hash，分成多个文件后，可以交给多个文件来处理，采用分布式的架构来处理(比如MapReduce)，最后再进行合并。 ¶ 给定a、b两个文件，各存放50亿个u

上一篇海量数据分布在100台电脑中，想个办法高效统计出这批数据的TOP10？

下一篇有哪些基本的垃圾回收算法？

新手直播带货怎么做起来？有何技巧？

2023-09-19

做视频创作者怎么赚钱？个人怎么靠流量赚钱？

2023-09-19

怎样投抖加不花钱？别人能看出来吗？

2023-09-19

抖店怎么拦截快递？线下结算是什么？

2023-09-19

抖店平台商户被退店还能退货吗？如何提高评分？

2023-09-19

抖店入驻收费多少？开抖店费用是多少？

2023-09-19

校区精品课程

互联网前瞻热门课程从入门到成神

全国旗舰校区