搜索引擎怎么变“通情达理”?

搜索是我们几乎每天都要用到的工具之一。随着网络数据的爆炸性增长,搜索引擎已经成为信息化社会不可或缺的基础互联网应用。
办公桌、地铁上、茶余饭后、工作间隙……无论是电脑还是手机,搜索让我们从海量的信息中,快速找到自己所需要的信息。
互联网搜索技术看似简单实则复杂。它就像一个桥梁,一边连接着海量规模的数据,一边连接着高度复杂的用户信息需求,而如何正确合理地实现两者的匹配则面临着一系列的挑战,尤其是如何避免经常出现“答非所问”的情况。
搜索引擎面临多项挑战
对于用户而言,搜索引擎的界面非常的简单,只需要一个简单的输入框,当用户输入查询词之后,搜索引擎就会迅速给出搜索结果。搜索引擎就像一个“百科全书”,回答着用户的“十万个为什么”。这一看似简单的过程,从搜索引擎的角度却并没有那么简单。
尽管搜索引擎在应用层面已经取得了很大的成功,但搜索技术发展中仍然面临着巨大的技术挑战:一方面,网络空间数据资源的规模庞大而内容繁杂,目前中文网页的规模已经达到数千亿的规模。
中文网页数量达到1900亿。但其中的低质量网页、垃圾信息乃至非法内容为数不少。另一方面,搜索用户信息需求的内容复杂而表述模糊,搜索引擎每日需要处理数以亿计的用户查询,但这些查询的平均长度仅有6个字左右。
“计算方法在处理问题时具有存储、处理效率较高的优势,但是其应对认知、推理任务的能力有限。而人类个体具有较强的认知、推理能力,但是反馈效率较低、质量也不甚稳定。”
让搜索引擎不再“答非所问”
对于搜索引擎而言,最严重的问题就是“答非所问”。可是,“巧妇难为无米之炊”,如果用户提出的关键词不明晰,搜索引擎也就很难准确地给出想要的搜索结果了。
显然,作为一个工具,搜索引擎只能依靠“自我进化”,只有准确地了解用户到底想要什么,才能更好地为人类服务。
“火眼金睛”轻松识别垃圾网页
网络信息资源在拥有巨大数据量的同时,也包含了大量的垃圾页面甚至是恶意的欺诈页面。


相关文章:
相关推荐:


