| 设为主页 | 保存桌面 | 手机版 | 二维码
普通会员

灵玖中科软件(北京)有限公司

基础软件服务,应用软件服务;计算机系统服务;销售计算机、软件及附属设备。

产品分类
  • 暂无分类
联系方式
  • 联系人:张宝
  • 电话:010-62648216
  • 邮件:2794994234@qq.com
友情链接
您当前的位置:首页 » 新闻中心 » 智能挖掘:NLPIR大数据语义挖掘文本数据
新闻中心
智能挖掘:NLPIR大数据语义挖掘文本数据
发布时间:2017-11-21        浏览次数:31        返回列表
   大数据应用有两个场景,人工智能与 商业智能。两者都是通对数据的感知、理解、挖掘,然后形成决策支持,最终反馈到“行动”中去;只不过AI对行动的“影响”是自动化的。

  “大量”、“多源、异质、复杂”、“动态”、“价值高但价值密度低”的数据特征决定了当前的数据挖掘技术具有如下技术特征:

  (1)“大量的”与并行分布式数据挖掘算法研究

  数据的“大”通常是指PB级以上的。这一特征需要更高性能的计算平台支持,考虑大规模数据的分布式、并行处理,对数据挖掘技术带来的挑战是I/O交换、数据移动的代价高,还需要在不同站点间分析数据挖掘模型间的关系。虽然以往已有并行分布式数据挖掘算法的相关研究,但是,大数据环境下,需要新的云计算基础架构支撑。

  (2)“多源的”与不确定数据挖掘算法研究

  大数据时代,收集和获取各种数据倍受关注,更多方式、更多类型、更多领域的数据被收集。不同数据源的数据由于数据获取的方式不同、收集数据的设备不同,大数据下,挖掘的数据对象常常具有不确定、不完整的特点,这要求大数据挖掘技术能够处理不确定、不完整的数据集,并且考虑多源数据挖掘模型和决策融合。

  数据挖掘一直以来重视数据质量。数据的质量决定数据挖掘结果的价值。然而,大数据环境下,数据获取能力逐渐高于数据分析能力。数据获取过程中数据缺失、含有噪音难以避免,更值得注意的是,数据获取的目标也与以前不同,并不是针对某个特定应用或特定任务收集的。数据填充、补全是困难的。因此,大数据挖掘技术要有更强地处理不确定、不完整数据集的能力。

  (3)“复杂的”与非结构化、超高维、稀疏数据挖掘算法研究

  大数据下,来自网络文本(用户评论文本数据)、图像、视频的数据挖掘应用更加广泛,非结构化数据给数据挖掘技术带来了新的要求,特征抽取是非结构化数据挖掘的重要步骤,大数据挖掘算法设计要考虑超高维特征和稀疏性。也需要新型非关系型数据库技术的支持,通常表现为关系型数据库和非关系型数据库互为补充。

  超高维特征分析的需求使得深度学习技术成为热点。数据挖掘技术一直将统计学习、机器学习、人工智能等算法和技术与数据库技术结合应用,发现数据中的规律。大数据环境下,深度学习与大数据的结合,也将成为寻找大数据其中规律的重要支撑技术之一。

  (4)“动态的、演变的”与实时、增量数据挖掘算法研究

  时序数据挖掘是数据挖掘领域的一个研究主题。然而,大数据环境下,数据的获取更加高速,关键是处理数据的需求在实时性方面的要求更高。早期的数据挖掘总是能容忍分钟级别,甚至更长时延的响应。现在,许多领域已经使用数据挖掘技术分析本领域数据,各个领域对数据挖掘结果响应需求存在差异,不少领域需要有更到的响应度,例如实时在线精准广告投放、证券市场高频交易等。

  (5)“高价值低密度”与聚类、不平衡分类、异常挖掘算法研究

  大数据环境下,产生了新的数据挖掘任务。其中,特异群组是一类低密度高价值的数据,特异群组是指在众多行为对象中,少数对象群体具有一定数量的相同或相似的行为模式,表现出相异于大多数对象而形成异常的组群。特异群组挖掘问题既不是异常点挖掘问题也不是聚类问题,是一类全新的问题。

  NLPIR文本搜索与挖掘系统针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中。

  NLPIR文本搜索与挖掘系统充分融合了自然语言理解、信息检索等方面多年的技术积累,具有智能、高效、自学习三大特点:

  智能主要体现在专家启发式知识与机器学习的有机融合;

  高效体现在本系统在保证准确率的情况下,可以单机每秒处理10MB的文本数据;

  自学习是指通过机器学习,自动抽取新的语言知识,以适应新的网络语言变化,做到因时而变。