大量URL去重 - thinking in peace - ITeye博客

`

peizhyi

浏览: 29651 次
性别:
来自: 北京

最近访客更多访客>>

ph7.3

strive_x

hotdust

u013362256

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

peizhyi： sydongda 写道有没有考虑重复的数字不好意思，好久没回来 ...
找出数组中和为N的所有配对
peizhyi： zdbill 写道“存储开始的m条记录”，你不觉得前m条记录选 ...
一道算法题——从数据流中随机去m个数
zdbill： “存储开始的m条记录”，你不觉得前m条记录选中的概率比后面的记 ...
一道算法题——从数据流中随机去m个数
sydongda：有没有考虑重复的数字
找出数组中和为N的所有配对
peizhyi： freebird0221 写道起点的选择好像不对，比如 1 ...
最长的滑道

大量URL去重

博客分类：

算法

阅读更多

问题：
有大量的字符串格式的URL，如何从中去除重复的，优化时间空间复杂度

我的思路，

1. 将URL存入hash链表，每个URL读入到hash链表中，遇到重复的就舍弃，否则加入到链表里面，最后遍历得到所有不重复的URL。空间复杂度M，时间复杂度为O(N+N/M)，M为不重复的URL，N为总URL数，但是M无法预测，所以存在风险，可能内存不足以存储所有的不重复URL。

2. 为了解决内存可能不足的问题，需要把hash链表变化成普通的hash表，每个hash表元素指向一个文件文件，这个文件记录了所有该hash值对应的无重复的URL，那么在加入URL的时候就遍历对应文件中的URL，没有重复则加入到文件中。这样做时间复杂度没有提升，但是每次都要读写文件，消耗的时间应该是上一种方式的三倍，而对内存的要求比较小。一个改进是加入URL的时候进行排序，这样能减少比对的次数。

欢迎讨论和拍砖！！

分享到：

最长的滑道 | 找出数组中和为N的所有配对

2012-03-01 20:05
浏览 3316
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

大量url去重 bloomfilter算法 c实现: 基于bloomfilter算法的c语言实验的url去重。使用的时候被去重的文件需要是txt格式的。

双结构网络中URL去重机制研究: 针对双结构网络的特点及其URL去重面临的挑战,根据Bloom Filter的工作原理,提出一种基于可扩展的动态可分裂Bloom Filter的URL去重机制,并在原型系统中进行实现和部署。实验结果表明,该机制能够有效适用于大规模、高...

分布式爬虫系统中URL去重的设计与实现.pdf: #资源达人分享计划#

期末url去重.ipynb: 期末url去重.ipynb

45丨位图：如何实现网页爬虫中的URL去重功能？1: 爬虫的工作原理是，通过解析已经爬取页面中的网页链接，然后再爬取这些链接对应的网页。最容易想到的方法就是，我们记录已经爬取的网页链接（也就是 URL），在爬取一个

Bloom Filter用于url去重: 基于布隆结构实现url去重，pdf版的书，相信对于最初接触布隆结果的人还是有些帮助的

url去重技术: URLQUCHONGJISHU ,哈希表的简历和网络爬虫的工作机制能够在信息采集项目开发商

网络游戏-一种分布式网络爬虫系统中的URL去重方法.zip: 网络游戏-一种分布式网络爬虫系统中的URL去重方法.zip

网络游戏-基于动态可分裂Bloom+Filter的网络爬虫URL去重方法.zip: 网络游戏-基于动态可分裂Bloom+Filter的网络爬虫URL去重方法.zip

crawlergo使用chrome headless模式进行URL收集的浏览器爬虫: 内置URL去重模块，过滤掉了大量伪静态URL，对于大型网站仍保持较快的解析与抓取速度，最后得到高质量的请求结果集合。 crawlergo 目前支持以下特性：原生浏览器环境，协程池调度任务表单智能填充、自动化提交 ...

python爬虫中url管理器去重操作实例: 我们可以把URL管理器看成一个收集了数据的大仓库，而下载器就是这个仓库货物的搬运者。关于下载器的问题，我们暂且不谈。本篇主要讨论的是在url管理器中，我们遇到重复的数据应该如何识别出来，避免像仓库一样过多的...

url分类文档: url分类便于url去重的应用和理解url

一个智能化的垂直搜索引擎解决方案: url去重内容去重基于主题词库的主题判别模型 PageRank链接预测做任务调度基于文本密度的正文抽取导航页与正文页的智能辨别 websocket 长连接导入elasticsearch 功能完善的backend，实现了长连接数据导入，数据增...

利用Redis进行数据去重: 之前有篇文章提到了实现增量爬虫可以利用redis数据库进行url去重，今天博主就给大家分享一下python如何利用redis进行去重吧。在试验中，我们用到Redis数据库和hash算法，我们先了解一下Redis和hashlib。 Redis简介 ...

分布式爬虫: 分布式爬虫问题其实也就是多台机器多个 ...然而这样每个 spider 只能对自己处理的 url 去重，没办法全局的去重，另外性能也很难控制，可能有某台机器很早就跑完了，而别的机器还要跑很久，本文介绍python分布式爬虫技术

URL Protocol网页调用本地程序，带参数测试版，对URLProtocol不了解的可学习: 使用URL Protocol实现网页调用本地程序，通过不同参数，可进行不同操作，简单测试版。在浏览器无法调用本地资源，项目需要网页打开本地excel，而进行URL Protocol研究测试。无法编辑下载需要的分数，很抱歉。所有...

oneurl（C/C++的URL解析库）: oneurl是一个C/C++语言开发的url解析以及标准化开源库，基于googleurl内核函数，主要功能： a.解析url，可以得到协议（scheme）,主机名（host），端口（port...具有参数去重，排序功能。 d.支持UTF-8和GBK编码格式。

URL重写URL重写URL重写URL重写: URL重写URL重写URL重写URL重写URL重写URL重写

urlcode解码-HTTP：URL编码解码: urlcode解码,HTTP：URL编码解码-A codec for URL encoding and decoding

URL参数拼接类: URL参数拼接， URL参数拼接， URL参数拼接， URL参数拼接， URL参数拼接

Global site tag (gtag.js) - Google Analytics