发明名称:一种基于网络的大数据处理方法
摘要:
本发明提出了一种基于网络的大数据处理方法,面向互联网采集数据,并对数据进行分类、聚类,建立大数据库,包括:根据预期目标定制数据采集网页;根据网页结构,确定网页主体数据区块,自动生成网页数据抽取模板抽取网页数据;对网页数据进行统一编码,将重复数据归一,筛选数据;根据预制分类模型将数据分为N 个数据类;根据预制聚类算法对数据进行聚类;根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库。本发明提出的一种基于网络的大数据处理方法,可有效抽取网页数据,并对重复信息进行归一,方便用户对网页数据的有效利用。
1. 一种基于网络的大数据处理方法,其特征在于,面向互联网采集数据,并对数据进行分类、聚类,建立大数据库,包括:
根据预期目标定制数据采集网页;
根据网页结构,确定网页主体数据区块,自动生成网页数据抽取模板抽取网页数据;
对网页数据进行统一编码,将重复数据归一,筛选数据;
根据预制分类模型将数据分为N 个数据类;
根据预制聚类算法对数据进行聚类;
根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库。
2. 如权利要求1 所述的基于网络的大数据处理方法,其特征在于,根据预期目标定制数据采集网页,包括:
预制行业内网页作为数据源;
设置内置领域本体的网络探针,自动发现与本体相关网页作为采集点。
3. 如权利要求1 所述的基于网络的大数据处理方法,其特征在于,对网页数据进行统一编码,将重复数据归一,筛选数据,具体包括:
对每一段文本进行编码;
根据编码进行分段对比,判断数据重复程度;
将重复数据归一,筛选数据。
4. 如权利要求1 所述的基于网络的大数据处理方法,其特征在于,根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库,具体分为:
对N 个数据类进行聚类;
对每一个数据类内所包含的数据进行聚类。
技术领域
本发明涉及信息抽取技术领域,尤其涉及一种基于网络的大数据处理方法。
背景技术
信息抽取领域是一项新兴的研究领域,一般是指从一个给定的文档集合中自动识别出预先设定的实体、关系和事件等类型信息,并对这些信息进行结构化存储和管理的过程。信息抽取在许多领域均有重要的应用。
近年来,随着网络的发展,互联网上的信息越来越多。几乎所有的网上信息都是以结构化或者半结构化文本的形式呈现给用户的。网页信息抽取就是把网页中包含的有关信息抽取出来并进行结构化处理,使之变成表格一样的组织形式。网页信息的主要任务就是把预定的信息点从各种各样的网页中抽取出来,然后以统一的形式集成在一起,方便检查
和比较。
在互联网上,同一主题的信息通常分散存放在不同的网站上,表现的形式也各不相同,现有技术中,很难将预期的网页数据挖掘完全。另外,互联网上,信息转载频繁,如何实现重复信息的归一,也是一项关键。
发明内容
[0005] 基于背景技术存在的技术问题,本发明提出了一种基于网络的大数据处理方法,
可有效抽取网页数据,并对重复信息进行归一,方便用户对网页数据的有效利用。
[0006] 本发明提出的一种基于网络的大数据处理方法,面向互联网采集数据,并对数据
进行分类、聚类,建立大数据库,包括:
[0007] 根据预期目标定制数据采集网页;
[0008] 根据网页结构,确定网页主体数据区块,自动生成网页数据抽取模板抽取网页数据;
[0009] 对网页数据进行统一编码,将重复数据归一,筛选数据;
[0010] 根据预制分类模型将数据分为N 个数据类;
[0011] 根据预制聚类算法对数据进行聚类;
[0012] 根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库。
[0013] 优选地,根据预期目标定制数据采集网页,包括:
[0014] 预制行业内网页作为数据源;
[0015] 设置内置领域本体的网络探针,自动发现与本体相关网页作为采集点;
[0016] 优选地,对网页数据进行统一编码,将重复数据归一,筛选数据,具体包括:
[0017] 对每一段文本进行编码;
[0018] 根据编码进行分段对比,判断数据重复程度;
[0019] 将重复数据归一,筛选数据。
[0020] 优选地,根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库,具体分为:
[0021] 对N 个数据类进行聚类;
[0022] 对每一个数据类内所包含的数据进行聚类。
[0023] 本发明抽取网页数据的方式,效率高,查全率好,避免信息遗漏;能够有效消除重复信息,大大减 少了数据所占空间,消 除冗余,减小了后续处理的负荷量,提高数据处理效率;预制分类模型 和聚类算法,对数据进行分类和聚类分析,数据统 一存储建立数据库并建立数据库索引,方便 用户对抽取数据的管理、检索和利用。
具体实施方式
[0025] 本发明提出的一种基于网络的大数据处理方法,面向互联网采集数据,并对数据进行分类、聚类,建立大数据库,包括以 下步骤:
[0026] 根据预期目标定制数据采集网页;
[0027] 根据网页结构,确定网页主体数据区块,自动生成网页数据抽取模板抽取网页数据;
[0028] 对网页数据进行统一编码,将重复数据归一,筛选数据;
[0029] 根据预制分类模型将数据分为N 个数据类;
[0030] 根据预制聚类算法对数据进行聚类;
[0031] 根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库。
[0032] 本实施方式中,自动抽取网页数据,效率高,采集数据较为全面,避免信息遗漏,将数据统一编码 进行重复数据归一后, 大大减少了数据所占空间,消除冗余,减小了后续处理的负荷量。本实 施方式中,将数据进行分类和聚类,然后根据分类 和聚类结果建立数据库索引,方便用户对抽 取数据的管理、检索和利用。
[0033] 本实施方式中,根据预期目标定制数据采集网页,采集网页的来源有两种方式,分别为:
[0034] 预制行业内网页作为数据源;
[0035] 设置内置领域本体的网络探针,自动发现与本体相关网页作为采集点。
[0036] 数据源的预制可重点关注用户预期的网页,使得网页数据的抽取方向更加具有针对性,有利于提高 数据采集效率。采集点 可算是对数据源的补充,提高数据采集的查全率。数据源与采集点的互 补,可使得数据采集效率和查全率达到一个比较理 想的平衡。
[0037] 本实施方式中,对网页数据进行统一编码,将重复数据归一,筛选数据,具体包括:
[0038] 对每一段文本进行编码;
[0039] 根据编码进行分段对比,判断数据重复程度;
[0040] 将重复数据归一,筛选数据。
[0041] 本文本进行分段编码,并进行分段对比,可有效发现文本重复程度,避免遗漏。
[0042] 本实施方式中,根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库,具体分为:
[0043] 对N 个数据类进行聚类;
[0044] 对每一个数据类内所包含的数据进行聚类。
[0045] 根据分类结果,数据库分为话题、数据类两个级别,在此基础上进行的两种聚类分析,可将数据库 细分为话题、话题簇、数据类、数据类簇四个级别,进一步建立索引机制,使得用户对数据库的管 理 、检索、利用更加方便。
[0046] 以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术 领域的技术人员在本发 明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替 换或改变,都应涵盖在本发明的保护范围之内。
8题 | 被引用0次