您现在的位置是:首页 >动态 > 2020-12-09 09:00:02 来源:
你知道什么是通过基因爬行无形的网
导读 自1991年成立学术和研究机构以来,万维网已经得到了巨大的发展,随后又扩展到了公共和商业领域。最初,它是一个由超链接页面和其他数字资源
自1991年成立学术和研究机构以来,万维网已经得到了巨大的发展,随后又扩展到了公共和商业领域。最初,它是一个由超链接页面和其他数字资源组成的网络。在很早的时候,很明显有些资源如此庞大,以至于动态生成单个用户所需的资料比将每个数字实体作为一个单独的项目存储更有意义。
如今,无数的网站是动态的,每次唯一访问都会从后端数据库动态地提取信息和数据,并按需将其呈现给用户。静态页面很容易被搜索引擎捕获,而驱动动态网站的数据库内容却无法访问。甚至早在2001年,当已经有数TB的公共静态Web数据时,据估计,与“深色Web”相混淆的“不可见Web”或“隐藏Web”约为550倍。大于可见资源。
印度的一个团队在《国际商业情报和数据挖掘杂志》上发表文章,描述了他们如何开发基于遗传算法的智能多主体架构,该架构可以从不可见的网络中提取信息。这些工具甚至可以使据称是传统搜索引擎无法访问的材料也可以被抓取,抓取和分类,以用于各种应用。
Bharathiar大学的D. Weslin和Vellore理工学院的Joshva Devadas在最新一期杂志中描述了这种方法的细节和好处。该团队写道:“实验结果表明,与现有的Web搜寻器相比,所提出的体系结构提供了更好的精度和召回率。”