概括地说,大数据挖掘包括基于内容的大数据挖掘与基于结构的大数据挖掘。大数据分析是指对规模巨大的数据进行分析。大数据作为时下火热的 IT 行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士谈论的焦点。
基于内容的大数据挖掘包括网络搜索技术与实体关联分析研究。
社会媒体的出现使得网络搜索研究的热点转移到了排序学习算法,专注于提高检索质量。排序学习算法以损失函数为优化目标,将文档表示为特征向量,寻找在搜索领域中常用的评价标准下的最好的排序函数。目前现有的模型在处理用户需求的多样性、重要性和相关性等不同的目标,在排序方面仍有不足。
命名实体是具体或者抽象但具有特定意义的实体。从大数据中挖掘其蕴含的内在知识,需要研究对命名实体以及命名实体关系的数据挖掘。
社会网络是以用户为节点,用户间的关系为连线而构建的网络,它既是用户间社会关系的反映,也是用户之间进行信息交互的载体。
在社会网络中,个体因自身各种因素进而形成了连接紧密的圈子,这种内部关系紧密而对外关系相对稀疏的结构被称为社区。社区结构是社会网络所普遍具有的结构特征,它的存在对于大数据的高效搜索、网络演化、信息扩散等具有重要意义。
四、大数据挖掘的发展趋势
未来的时代必然是大数据的时代,信息时代逐渐变为数据时代,一切将与数据密不可分。
数据的资源化,大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。
1.商业智能
企业决策正在经历的转变将延续到未来。处理大数据的目标使效率越来越高,成本不断减少,从而造就了基于大数据的商业智能,对中小企业甚至初创公司来说更为重要。这一趋势将延续到未来及以后,处理大数据的成本将继续降低。
2.数据分析将包含可视化模型
数据可视化和数据发现将成为一股重要趋势。
数据发现的范畴已经扩大,不仅包括对数据分析和关系的理解,还包括呈现数据的方式。作为一种把数据变成可视化的方法,可视化模型越来越受欢迎。日益改善和演变的可视化模型已经成为从大数据中获取信息的必要组成部分。
人脑能高效地处理视觉图像。在这个过程中,大脑使用了潜意识,让决策者可以通过迅速扫描图像来处理信息。可视化图表利用了大脑的图像识别能力,出色的可视化模型将成为处理庞大数据集的更好选择。
3.机器学习
机器学习是计算机的训练过程,现在被企业用于各种各样的商业行为,比如实时广告、模式识别、欺诈识别和医疗。但在大数据时代,机器学习将变得更聪明、更快速、更有效。