项目分类:
类型:问卷
欢迎语:
类型:问卷
欢迎语:请认真填写以下内容,谢谢。
类型:问卷
欢迎语:请认真填写以下内容及仔细核对无误,谢谢。
类型:问卷
欢迎语: 在花桥商务城政府及绿地集团的大力支持下、商务城联盟企业、行业专家等共同努力下,经长达一年的筹备,梦立方就业联盟项目正式启动。 梦立方就业联盟以为人才服务为宗旨,以创新、创业、责任、奉献为理念,以推动商务城产业人才的发展为目标,是服务于商务城绿色产业的公益组织。 联盟致力于打造花桥商务城第一家人才平台,聚集了多方跨界力量,是花桥首家专注于现代服务业社会精英的人才就业公益联盟。联盟通过职业指导、人才选拔、实训等工作为行业发现、储备、培养紧缺人才,同时为院校及教育机构找到最新培养方向和产学结合模式,促进就业,保障民生。 梦立方青年创业(创意)产业园
类型:问卷
欢迎语:强身健体,热爱学习,欢迎同学们踊跃报名本次马拉松
类型:问卷
欢迎语:欢迎新人
类型:问卷
欢迎语:撕名牌 在这报名
类型:问卷
欢迎语:请认真填写以下内容,谢谢。
类型:问卷
欢迎语:Size
类型:问卷
欢迎语:发明名称:一种基于网络的大数据处理方法摘要: 本发明提出了一种基于网络的大数据处理方法,面向互联网采集数据,并对数据进行分类、聚类,建立大数据库,包括:根据预期目标定制数据采集网页;根据网页结构,确定网页主体数据区块,自动生成网页数据抽取模板抽取网页数据;对网页数据进行统一编码,将重复数据归一,筛选数据;根据预制分类模型将数据分为N 个数据类;根据预制聚类算法对数据进行聚类;根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库。本发明提出的一种基于网络的大数据处理方法,可有效抽取网页数据,并对重复信息进行归一,方便用户对网页数据的有效利用。 1. 一种基于网络的大数据处理方法,其特征在于,面向互联网采集数据,并对数据进行分类、聚类,建立大数据库,包括: 根据预期目标定制数据采集网页; 根据网页结构,确定网页主体数据区块,自动生成网页数据抽取模板抽取网页数据; 对网页数据进行统一编码,将重复数据归一,筛选数据; 根据预制分类模型将数据分为N 个数据类; 根据预制聚类算法对数据进行聚类; 根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库。 2. 如权利要求1 所述的基于网络的大数据处理方法,其特征在于,根据预期目标定制数据采集网页,包括: 预制行业内网页作为数据源; 设置内置领域本体的网络探针,自动发现与本体相关网页作为采集点。 3. 如权利要求1 所述的基于网络的大数据处理方法,其特征在于,对网页数据进行统一编码,将重复数据归一,筛选数据,具体包括: 对每一段文本进行编码; 根据编码进行分段对比,判断数据重复程度; 将重复数据归一,筛选数据。 4. 如权利要求1 所述的基于网络的大数据处理方法,其特征在于,根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库,具体分为: 对N 个数据类进行聚类; 对每一个数据类内所包含的数据进行聚类。技术领域 本发明涉及信息抽取技术领域,尤其涉及一种基于网络的大数据处理方法。背景技术 信息抽取领域是一项新兴的研究领域,一般是指从一个给定的文档集合中自动识别出预先设定的实体、关系和事件等类型信息,并对这些信息进行结构化存储和管理的过程。信息抽取在许多领域均有重要的应用。 近年来,随着网络的发展,互联网上的信息越来越多。几乎所有的网上信息都是以结构化或者半结构化文本的形式呈现给用户的。网页信息抽取就是把网页中包含的有关信息抽取出来并进行结构化处理,使之变成表格一样的组织形式。网页信息的主要任务就是把预定的信息点从各种各样的网页中抽取出来,然后以统一的形式集成在一起,方便检查和比较。 在互联网上,同一主题的信息通常分散存放在不同的网站上,表现的形式也各不相同,现有技术中,很难将预期的网页数据挖掘完全。另外,互联网上,信息转载频繁,如何实现重复信息的归一,也是一项关键。发明内容[0005] 基于背景技术存在的技术问题,本发明提出了一种基于网络的大数据处理方法, 可有效抽取网页数据,并对重复信息进行归一,方便用户对网页数据的有效利用。[0006] 本发明提出的一种基于网络的大数据处理方法,面向互联网采集数据,并对数据 进行分类、聚类,建立大数据库,包括:[0007] 根据预期目标定制数据采集网页;[0008] 根据网页结构,确定网页主体数据区块,自动生成网页数据抽取模板抽取网页数据;[0009] 对网页数据进行统一编码,将重复数据归一,筛选数据;[0010] 根据预制分类模型将数据分为N 个数据类;[0011] 根据预制聚类算法对数据进行聚类;[0012] 根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库。[0013] 优选地,根据预期目标定制数据采集网页,包括:[0014] 预制行业内网页作为数据源;[0015] 设置内置领域本体的网络探针,自动发现与本体相关网页作为采集点;[0016] 优选地,对网页数据进行统一编码,将重复数据归一,筛选数据,具体包括:[0017] 对每一段文本进行编码;[0018] 根据编码进行分段对比,判断数据重复程度;[0019] 将重复数据归一,筛选数据。[0020] 优选地,根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库,具体分为:[0021] 对N 个数据类进行聚类;[0022] 对每一个数据类内所包含的数据进行聚类。[0023] 本发明抽取网页数据的方式,效率高,查全率好,避免信息遗漏;能够有效消除重复信息,大大减 少了数据所占空间,消 除冗余,减小了后续处理的负荷量,提高数据处理效率;预制分类模型 和聚类算法,对数据进行分类和聚类分析,数据统 一存储建立数据库并建立数据库索引,方便 用户对抽取数据的管理、检索和利用。具体实施方式[0025] 本发明提出的一种基于网络的大数据处理方法,面向互联网采集数据,并对数据进行分类、聚类,建立大数据库,包括以 下步骤:[0026] 根据预期目标定制数据采集网页;[0027] 根据网页结构,确定网页主体数据区块,自动生成网页数据抽取模板抽取网页数据;[0028] 对网页数据进行统一编码,将重复数据归一,筛选数据;[0029] 根据预制分类模型将数据分为N 个数据类;[0030] 根据预制聚类算法对数据进行聚类;[0031] 根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库。[0032] 本实施方式中,自动抽取网页数据,效率高,采集数据较为全面,避免信息遗漏,将数据统一编码 进行重复数据归一后, 大大减少了数据所占空间,消除冗余,减小了后续处理的负荷量。本实 施方式中,将数据进行分类和聚类,然后根据分类 和聚类结果建立数据库索引,方便用户对抽 取数据的管理、检索和利用。[0033] 本实施方式中,根据预期目标定制数据采集网页,采集网页的来源有两种方式,分别为:[0034] 预制行业内网页作为数据源;[0035] 设置内置领域本体的网络探针,自动发现与本体相关网页作为采集点。[0036] 数据源的预制可重点关注用户预期的网页,使得网页数据的抽取方向更加具有针对性,有利于提高 数据采集效率。采集点 可算是对数据源的补充,提高数据采集的查全率。数据源与采集点的互 补,可使得数据采集效率和查全率达到一个比较理 想的平衡。[0037] 本实施方式中,对网页数据进行统一编码,将重复数据归一,筛选数据,具体包括:[0038] 对每一段文本进行编码;[0039] 根据编码进行分段对比,判断数据重复程度;[0040] 将重复数据归一,筛选数据。[0041] 本文本进行分段编码,并进行分段对比,可有效发现文本重复程度,避免遗漏。[0042] 本实施方式中,根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库,具体分为:[0043] 对N 个数据类进行聚类;[0044] 对每一个数据类内所包含的数据进行聚类。[0045] 根据分类结果,数据库分为话题、数据类两个级别,在此基础上进行的两种聚类分析,可将数据库 细分为话题、话题簇、数据类、数据类簇四个级别,进一步建立索引机制,使得用户对数据库的管 理 、检索、利用更加方便。[0046] 以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术 领域的技术人员在本发 明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替 换或改变,都应涵盖在本发明的保护范围之内。
类型:问卷
欢迎语:请认真填写以下内容,爱花谢谢。
类型:问卷
欢迎语:请认真填写以下内容,谢谢。
类型:问卷
欢迎语:请认真填写以下内容,谢谢。
类型:问卷
欢迎语:远亲不如近邻
类型:问卷
欢迎语:大家好,截至9月管理培训会已经过去了两周,回顾课程培训内容,根据公司逢训必考原则,接下来将进行课程测评,请认真填写以下内容,谢谢。(测评结果也作为小组评分对抗赛赢取奖金的条件之一)预祝大家取得好成绩,怀挺!(注:考试时间1个小时,7-8点,超过时间后将会停止答题,请大家随时把控好时间!)
联系我们
客服专线 4006-700-778
其他咨询 4006-188-166
客服邮箱 wenjuan@idiaoyan.com
问卷网公众号 问卷网公众号
问卷网APP 问卷网APP
问卷网服务协议隐私政策免责声明©2013-2020 众言网络ICP证:合字B2-20160010沪ICP备10013448沪公网安备 31010402000149号