《数学之美》阅读记录四

今天阅读的这部分也是对于搜索引擎的介绍

在搜索引擎的早期阶段,搜索引擎面临一个普遍的问题:搜索出来的答案很难找到自己想要的。

当时虽然已经对网页做了索引,能够很快给出搜索结果了,但是搜索结果不精准,可能自己的想要的答案不知道在多少页的搜索结果之后。为了解决这个问题,谷歌的PageRank排名技术诞生了。

简单来说,PageRank排名就是通过“投票”选出网页的排名。“投票”就是看看同一个搜索词下,哪一个网页被链接的次数多,就排名靠前。

再后来,人们发现娱乐八卦的PageRank值挺高的,但是却不是自己想要的。这时对PageRank不再是简简单单的统计被链接的量,开始加入了权重;质量好的网站权重大,质量差的网站权重低。

此外,还对网页中关键词的词频做统计。统计网页中总词数,用网页中的关键词处于总词数得到词频,将所有关键词的词频加起来作为网页相关性的参考。但是这样还是存在着问题,停止词对于我们的搜索来说是毫无意义的,有的关键词却是我们更加关注的,这样一来,我们需要给关键词的词频加上权重,更重要的词的权重高,无意义的词权重为零。

对于地址的匹配使用到了有限状态机,不过我对于有限状态机没什么了解,对于书中的内容也是理解不充分,还是上一张书中的图吧

我感觉有限状态机就好像是对特定词匹配,就像图中的, 搜索字串可以是先市或省,然后一级一级往下排,有限状态机就按照这种排序匹配地区级对应的字串进行搜索,就好比广东省匹配到的就是广东这样;输入到图中的有限状态机的字串还不能先是街道级后是省级,这会报错。

导航使用到了动态规划算法我也是只是略有耳闻,看完书中的介绍后也只是知道,动态规划算法可以降低计算机的工作量,它把一个大的问题分解为一个个小的问题来解决。

书中介绍了一个人:辛格博士。他用事实告诉了我们,解决工程中的问题要用最简单的方法,有时候最简单的方法反而是最有效的方法;而且简单的方法更容易让人理解,后期维护升级成本会更低。