跳到主要内容

话题

数学物理学

数学物理学

搜索网络的新方法

24 Apr 1998

试图找到关于互联网的320万页的“正确”信息变得越来越困难。由Jon Kleinberg在美国康奈尔大学开发的一个名为HITS(超链接引起的主题搜索)的新搜索程序最终可以解决对用户最有价值的页面。

搜索引擎,如 Hotbot. Altavista. 记录具有它们中的关键字的页面列表,但无法解释页面上信息的相关。例如这个词‘quantum’返回778,930通过Altavista的参考,但并不是’T状态有多少有关。

Kleinberg.’S程序通过将搜索算法分成两个部分来分析网站之间的链接:‘authorities’有关主题的有用信息;和‘hubs’包含与主题的目录链接。最好的当局,Kleinberg说,将是那些指出最好的集线器的人,最好的集线器将成为那些指出最佳当局的枢纽。重新计算这种关系以提高精度并防止圆形图案形成。

通过在Altavista上的关键字查询中收集前200页来启动命中率。该程序然后查看链接到此的所有附加页面‘root’设置以及这些页面如何连接在一起。指向许多网站的页面被分配了一个高权威‘score’,虽然链接到许多外部站点的页面是一个额外的集线器‘score’。这些最后两次计算重复了几次,每个周期都授予更多权限指向链接到高评分中心站点的网站,以及更多的集线器指向高评分权限站点。 Kleinberg说,十次重复,足以返回令人惊讶的专注于当局和集线器。

该计划对诸如此类的模糊术语特别有用‘quantum’然后它将数据分类为不同的社区,例如物理,软件公司,设备等,或者与具有极端视图的网站,如‘cold fusion’。这是因为每个小组都会倾向于链接到类似的组,而不是他们的对方成员。

版权©2021由IOP Publishing Ltd和个人贡献者