回答关于网页重排的问题 - javayestome - ITeye博客

`

javayestome

浏览: 1008353 次
性别:
来自: 北京

最近访客更多访客>>

u012363178

wangyy

xiangshouxiyang

lk9611

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (1457)

社区版块

存档分类

2011-10 ( 67)
2011-09 ( 115)
2011-08 ( 113)
更多存档...

最新评论

Lori_Liu：但是这样还是不合适，我的代码是这样写的．．．<appli ...
MapView不渲染变成空白和灰色网格了?
56553655：这个格式是好的：http://blog.csdn.net/fe ...
非常详细GC学习笔记
wangfulong：刚刚有测试了一下返回的结果集一样但是exists执行的时间 ...
SQL养成一个好习惯是一笔财富
wangfulong：　比如NOT EXISTS： SELECT TITLE FRO ...
SQL养成一个好习惯是一笔财富
yuzihan607：第一题是79年李政道去访问中科大，给当时少年班提出的一个问题， ...
最新腾讯，创新工场，淘宝等公司最新面试十三题（更新至24题）

回答关于网页重排的问题

阅读更多

人民搜索的同事问我此前写的网页重排的博客，其实用【网页重排 pennyliang】就可以搜索到，http://blog.csdn.net/pennyliang/archive/2010/08/02/5781847.aspx。

在WWW2010大会上，有一篇论文写的很好，总结了这方面的方法，也提出了新的方法：

Scalable Techniques for Document Identifier Assignment in Inverted Indexes

这个问题基本是这样的：

在做索引的过程中，文档号的分配和最终倒排表制作出来的大小和query的效率有非常大的影响。本质上来说，这是由于关键词的高维空间决定的，我们可以想象每个关键词是一个维，那么如果有30万词汇的话，就是一个30万维的空间，每个文档做出的一个正排表，可以想象成这个高维空间的一个点。变成倒排表后，如果文档数是10B（100亿），可以看做是一个关键词在这个10B高维空间的一个点，而要想让每个维上的投影都是致密的是不现实的，不难得到，最多只有3个关键词可以做到doclist上的docid完全连续，即全部gap=1。

解决的办法基本有这样一些：

（1）做聚类，分类，用类别的信息，让同一类的doc连续分配docid。

（2）简单的按URL排序，因为URL近似的网页内容也大多相似，这样可以节省分类聚类的开销

（3）直接用网页抓取的顺序，也就是近似random的顺序。

WWW2010的这篇论文提出了新的方法，实验效果也更佳，可以借鉴参考，我原来以为这个坑挖到头了，没想到还能有突破。

如果无法下载这篇论文，可以给我留个邮箱。

分享到：

从用户期望看缩略图和网页有用性之间的关系 | 关于web直径的计算问题的解答：

2010-09-12 13:58
浏览 529
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

列车车厢重排问题列车车厢重排问题列车车厢重排问题列车车厢重排问题列车车厢重排问题列车车厢重排问题列车车厢重排问题: 列车车厢重排问题列车车厢重排问题列车车厢重排问题列车车厢重排问题列车车厢重排问题列车车厢重排问题

火车车厢重排问题: 火车车厢重排问题简单的C++火车重排源代码

搜索算法解决九宫重排问题: 不同搜索算法解决九宫重排问题，JAVA语言实现广度优先，全局择优算法解九宫重排问题，输出路径。。。。。。

数据结构火车车厢重排问题: 数据结构，火车车厢重排问题，实验报告，有代码，实验结果截图，实验感想

盲目搜索（广度搜索）解重排九宫问题（C++）: 盲目搜索（广度搜索）解重排九宫问题，即把数码问题的盲目搜索求解！C++实现的。

九宫重排c++实现: 用c++实现的九宫重排问题能在vc++6.0下运行适合于初学c++语言的同学形象的展示了九宫重排问题

火车车厢重排问题,队列,c语言.doc: 火车车厢重排问题,队列,c语言.doc

重排九宫问题的分析与实现: 是一篇关于重排九宫这种经典益智游戏的学术论文

火车重排问题 C++: 一列货运列车共有n节车厢，每节车厢将停放在不同的车站。假定n个车站的编号分别为1～n，即货运列车按照第n站至第1站的次序经过这些车站。...假定缓冲轨按先进先出的方式运作，设计算法解决火车车厢重排问题

列车车厢重排问题.docx: 列车车厢重排问题列车车厢重排问题，通常指的是一个经典的组合优化问题，也被称为火车车厢重排问题（Train Shunting Problem）。这个问题描述了一列车的车厢按照特定的目标顺序重新排列的情况。具体来说，假设有...

A*算法求解重排九宫问题: 用A*算法求解重排九宫问题，将九宫格以3*3矩阵形式设计为动态对象数组类的对象，形式比较新颖。希望对大家了解A*算法，重排九宫，以及c++的动态对象数组类有所帮助。文档包含一个动态对象数组类头文件和一个源文件。

列车车厢重排问题有哪些: 列车车厢重排问题### 内容概要《算法里的列车车厢重排问题有哪些》是一篇面向初学者和专业人士的文章，旨在通过通俗易懂的语言，介绍算法在解决列车车厢重排问题中的应用。文章以实际问题为出发点，探讨了不同类型...

火车重排问题: 火车重排问题的一个Flash,希望帮助大家对栈的使用有所帮助

北邮信通院数据结构实验_车厢重排问题代码: 实验要求设计一个队列结果来解决车厢重排问题。车厢重排问题为：一列货车共有n节车厢，每个车厢都有自己的编号，编号范围从1~n。给定任意次序的车厢，通过转轨站将车厢编号按顺序重新排成1~n。转轨站共有k个缓冲轨，...

列车车厢重排问题.zip: 列车车厢重排问题

用Java实现九宫重排问题: 九宫重排问题是一个经典的智力游戏，它涉及到在3x3的方格中移动数字1至8以及一个空格，目标是通过移动空格使得数字形成有序的顺序。解决这个问题通常采用以下方法： A*算法：这是一种启发式搜索算法，它结合了最佳...

列车车厢重排问题详解.zip: 列车车厢重排问题

Global site tag (gtag.js) - Google Analytics