“大量”、“多源、异质、复杂”、“动态”、“价值高但价值密度低”的数据特征决定了当前的数据挖掘技术具有如下技术特征:
(1)“大量的”与并行分布式数据挖掘算法研究
数据的“大”通常是指PB级以上的。这一特征需要更高性能的计算平台支持,考虑大规模数据的分布式、并行处理,对数据挖掘技术带来的挑战是I/O交换、数据移动的代价高,还需要在不同站点间分析数据挖掘模型间的关系。虽然以往已有并行分布式数据挖掘算法的相关研究,但是,大数据环境下,需要新的云计算基础架构支撑。
(2)“多源的”与不确定数据挖掘算法研究
大数据时代,收集和获取各种数据倍受关注,更多方式、更多类型、更多领域的数据被收集。不同数据源的数据由于数据获取的方式不同、收集数据的设备不同,大数据下,挖掘的数据对象常常具有不确定、不完整的特点,这要求大数据挖掘技术能够处理不确定、不完整的数据集,并且考虑多源数据挖掘模型和决策融合。
数据挖掘一直以来重视数据质量。数据的质量决定数据挖掘结果的价值。然而,大数据环境下,数据获取能力逐渐高于数据分析能力。数据获取过程中数据缺失、含有噪音难以避免,更值得注意的是,数据获取的目标也与以前不同,并不是针对某个特定应用或特定任务收集的。数据填充、补全是困难的。因此,大数据挖掘技术要有更强地处理不确定、不完整数据集的能力。
(3)“复杂的”与非结构化、超高维、稀疏数据挖掘算法研究
大数据下,来自网络文本(用户评论文本数据)、图像、视频的数据挖掘应用更加广泛,非结构化数据给数据挖掘技术带来了新的要求,特征抽取是非结构化数据挖掘的重要步骤,大数据挖掘算法设计要考虑超高维特征和稀疏性。也需要新型非关系型数据库技术的支持,通常表现为关系型数据库和非关系型数据库互为补充。
超高维特征分析的需求使得深度学习技术成为热点。数据挖掘技术一直将统计学习、机器学习、人工智能等算法和技术与数据库技术结合应用,发现数据中的规律。大数据环境下,深度学习与大数据的结合,也将成为寻找大数据其中规律的重要支撑技术之一。
(4)“动态的、演变的”与实时、增量数据挖掘算法研究
时序数据挖掘是数据挖掘领域的一个研究主题。然而,大数据环境下,数据的获取更加高速,关键是处理数据的需求在实时性方面的要求更高。早期的数据挖掘总是能容忍分钟级别,甚至更长时延的响应。现在,许多领域已经使用数据挖掘技术分析本领域数据,各个领域对数据挖掘结果响应需求存在差异,不少领域需要有更到的响应度,例如实时在线精准广告投放、证券市场高频交易等。
(5)“高价值低密度”与聚类、不平衡分类、异常挖掘算法研究
大数据环境下,产生了新的数据挖掘任务。其中,特异群组是一类低密度高价值的数据,特异群组是指在众多行为对象中,少数对象群体具有一定数量的相同或相似的行为模式,表现出相异于大多数对象而形成异常的组群。特异群组挖掘问题既不是异常点挖掘问题也不是聚类问题,是一类全新的问题。
NLPIR文本搜索与挖掘系统针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中。
NLPIR文本搜索与挖掘系统充分融合了自然语言理解、信息检索等方面多年的技术积累,具有智能、高效、自学习三大特点:
智能主要体现在专家启发式知识与机器学习的有机融合;
高效体现在本系统在保证准确率的情况下,可以单机每秒处理10MB的文本数据;
自学习是指通过机器学习,自动抽取新的语言知识,以适应新的网络语言变化,做到因时而变。