海量日志数据，提取出某日访问百度次数最多的那个IP-千锋教育

校区

首页课程师资教程资讯关于

校区精品课程

互联网前瞻热门课程从入门到成神

鸿蒙生态开发 HTML5培训 Java培训 Python培训云计算培训软件测试培训网络安全培训大数据培训物联网培训 Unity培训全媒体营销培训影视剪辑培训游戏原画培训区块链培训商业插画培训产品经理培训

全国旗舰校区

不同学习城市同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口 +

培训课程
师资团队
关于千锋

培训机构
面试题
就业前景

零基础学IT

当前位置：首页 > 技术干货

海量日志数据，提取出某日访问百度次数最多的那个IP

发布时间:2022-09-08 17:13:04

发布人:syq

　　分析: “首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如%1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP(可以采用hash_map对那1000个文件中的所有IP进行频率统计，然后依次找出各个文件中频率最大的那个IP)及相应的频率。然后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。”

　　关于本题，还有几个问题，如下：

　　Hash取模是一种等价映射，不会存在同一个元素分散到不同小文件中的情况，即这里采用的是mod1000算法，那么相同的IP在hash取模后，只可能落在同一个文件中，不可能被分散的。因为如果两个IP相等，那么经过Hash(IP)之后的哈希值是相同的，将此哈希值取模(如模1000)，必定仍然相等。

　　那到底什么是hash映射呢？

　　简单来说，就是为了便于计算机在有限的内存中处理big数据，从而通过一种映射散列的方式让数据均匀分布在对应的内存位置(如大数据通过取余的方式映射成小树存放在内存中，或大文件映射成多个小文件)，而这个映射散列方式便是我们通常所说的hash函数，设计的好的hash函数能让数据均匀分布而减少冲突。

　　尽管数据映射到了另外一些不同的位置，但数据还是原来的数据，只是代替和表示这些原始数据的形式发生了变化而已。

上一篇为什么要有 TLAB

下一篇如何判断一个对象是否可以回收

相关文章

敏捷BI和传统BI有什么区别?

敏捷BI和传统BI有什么区别?

敏捷开发实行中各岗位职能是什么?

敏捷开发实行中各岗位职能是什么?

敏捷开发在实际应用中有什么注意点?

敏捷开发在实际应用中有什么注意点?

软件定制开发中的敏捷开发是什么?

软件定制开发中的敏捷开发是什么?

最新文章

常见网络安全面试题:Windows常用的命令有哪些？

常见网络安全面试题:Windows常用的命令有哪些？

常见网络安全面试题:根据设备告警如何展开排查？

常见网络安全面试题:根据设备告警如何展开排查？

常见网络安全面试题:mysql加固呢？（数据库加固）

常见网络安全面试题:mysql加固呢？（数据库加固）

常见网络安全面试题:windows和linux加固？（操作系统加固）

常见网络安全面试题:windows和linux加固？（操作系统加固）

热门频道

IT培训机构

培训费用、培训周期你关心的都有

就业前景

学会能干什么，IT培训就业前景介绍

零基础学习

零基础学习IT，大神也是零基础起步

面试题

常见经典面试题及答案解析

千锋问问

搜集常见技术关键点，高效答疑

网站地图

明晰网站布局，快速定位学习内容

在线咨询免费试学教程领取