| 设为主页 | 保存桌面 | 手机版 | 二维码

灵玖中科软件（北京）有限公司

基础软件服务，应用软件服务；计算机系统服务；销售计算机、软件及附属设备。

产品分类

暂无分类

联系方式

联系人：张宝
电话：010-62648216
邮件：2794994234@qq.com

友情链接

您当前的位置：首页 » 新闻中心 » 智能挖掘：NLPIR大数据语义挖掘文本数据

新闻中心

智能挖掘：NLPIR大数据语义挖掘文本数据

发布时间：2017-11-21 浏览次数：65 返回列表

　　大数据应用有两个场景，人工智能与商业智能。两者都是通对数据的感知、理解、挖掘，然后形成决策支持，最终反馈到“行动”中去;只不过AI对行动的“影响”是自动化的。

　　“大量”、“多源、异质、复杂”、“动态”、“价值高但价值密度低”的数据特征决定了当前的数据挖掘技术具有如下技术特征：

　　(1)“大量的”与并行分布式数据挖掘算法研究

　　数据的“大”通常是指PB级以上的。这一特征需要更高性能的计算平台支持，考虑大规模数据的分布式、并行处理，对数据挖掘技术带来的挑战是I/O交换、数据移动的代价高，还需要在不同站点间分析数据挖掘模型间的关系。虽然以往已有并行分布式数据挖掘算法的相关研究，但是，大数据环境下，需要新的云计算基础架构支撑。

　　(2)“多源的”与不确定数据挖掘算法研究

　　大数据时代，收集和获取各种数据倍受关注，更多方式、更多类型、更多领域的数据被收集。不同数据源的数据由于数据获取的方式不同、收集数据的设备不同，大数据下，挖掘的数据对象常常具有不确定、不完整的特点，这要求大数据挖掘技术能够处理不确定、不完整的数据集，并且考虑多源数据挖掘模型和决策融合。

　　数据挖掘一直以来重视数据质量。数据的质量决定数据挖掘结果的价值。然而，大数据环境下，数据获取能力逐渐高于数据分析能力。数据获取过程中数据缺失、含有噪音难以避免，更值得注意的是，数据获取的目标也与以前不同，并不是针对某个特定应用或特定任务收集的。数据填充、补全是困难的。因此，大数据挖掘技术要有更强地处理不确定、不完整数据集的能力。

　　(3)“复杂的”与非结构化、超高维、稀疏数据挖掘算法研究

　　大数据下，来自网络文本(用户评论文本数据)、图像、视频的数据挖掘应用更加广泛，非结构化数据给数据挖掘技术带来了新的要求，特征抽取是非结构化数据挖掘的重要步骤，大数据挖掘算法设计要考虑超高维特征和稀疏性。也需要新型非关系型数据库技术的支持，通常表现为关系型数据库和非关系型数据库互为补充。

　　超高维特征分析的需求使得深度学习技术成为热点。数据挖掘技术一直将统计学习、机器学习、人工智能等算法和技术与数据库技术结合应用，发现数据中的规律。大数据环境下，深度学习与大数据的结合，也将成为寻找大数据其中规律的重要支撑技术之一。

　　(4)“动态的、演变的”与实时、增量数据挖掘算法研究

　　时序数据挖掘是数据挖掘领域的一个研究主题。然而，大数据环境下，数据的获取更加高速，关键是处理数据的需求在实时性方面的要求更高。早期的数据挖掘总是能容忍分钟级别，甚至更长时延的响应。现在，许多领域已经使用数据挖掘技术分析本领域数据，各个领域对数据挖掘结果响应需求存在差异，不少领域需要有更到的响应度，例如实时在线精准广告投放、证券市场高频交易等。

　　(5)“高价值低密度”与聚类、不平衡分类、异常挖掘算法研究

　　大数据环境下，产生了新的数据挖掘任务。其中，特异群组是一类低密度高价值的数据，特异群组是指在众多行为对象中，少数对象群体具有一定数量的相同或相似的行为模式，表现出相异于大多数对象而形成异常的组群。特异群组挖掘问题既不是异常点挖掘问题也不是聚类问题，是一类全新的问题。

　　NLPIR文本搜索与挖掘系统针对互联网内容处理的需要，融合了自然语言理解、网络搜索和文本挖掘的技术，提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成，各个中间件API可以无缝地融合到客户的各类复杂应用系统之中。

　　NLPIR文本搜索与挖掘系统充分融合了自然语言理解、信息检索等方面多年的技术积累，具有智能、高效、自学习三大特点：

　　智能主要体现在专家启发式知识与机器学习的有机融合;

　　高效体现在本系统在保证准确率的情况下，可以单机每秒处理10MB的文本数据;

　　自学习是指通过机器学习，自动抽取新的语言知识，以适应新的网络语言变化，做到因时而变。

免责声明：以上所展示的信息由企业自行提供，内容的真实性、准确性和合法性由发布者负责。企业商务网 www.89335.com对此不承担任何保证责任。

供应求购商城公司资讯机械工业工程机械五金办公教育电子广电安防服装能源化工家居建材交通工艺品皮革印刷塑料消防商务服务创业加盟仪器仪表制药