职业道德、诚信体系、反腐败与建筑市场治理
George Ofori:谢谢崔晶晶。大家有问题吗?如果没有的话,我们节省一点时间,也可以最后发言完毕再问,好没有问题。今天有几个发言人没有到场,所以下一位发言人是中国重型机械有限公司工程师薛彦广。
中国重型机械有限公司工程师 薛彦广
薛彦广:大家下午好。今天我要介绍的题目是基于云计算的数据挖掘在建筑市场治理中的应用探析。随着建筑行业的发展和信息化的建设,我国各省市已经逐步建立起各自的信息管理平台,积累了大量的行业数据。这些数据是建筑行业的资产,合理有效利用这些数据可以提高建筑市场的治理效果,并为企业决策提供重要的参考。
接下来我介绍一下如何对建筑市场数据进行数据挖掘。数据特点是流量大,第二个是异构性,因为各个建筑企业以各自的格式保存数据造成数据的异构性,第三个是安全性。我们在多个市场信息数据库进行联合挖掘的时候,如何不泄露建筑企业的核心数据,这就是安全问题。
了解了建筑市场数据特征之后下面我们介绍一下建筑市场基于云计算的数据挖掘方法。这是数据挖掘技术的流程图,数据挖掘技术从技术层面实现了从数据到信息的提取过程。但是我们对建筑市场的海量数据进行数据挖掘的时候,单服务器,或者单处理器几乎是不可能实现的。云计算技术具有强大的分布式并行处理能力和海量存储能力,很好的解决数据挖掘面临海量数据处理问题。这是云计算主流的三种商业模式,SAS,PAS,IAS。
下面我们介绍一下云计算环节下的并行计算模型。mapreduce主要用于大规模数据的并行处理,mapreduce将大规模数据处理作业拆分成给独立运行的map,生成某种格式的若干过reduce然后再进行处理。我们之后又建立基于云计算的数据平台,这是层次结构图。一共有三个层次,最底层是云计算服务层,提供数据分布式数据挖掘处理能和存储功能。数据为什么进行预处理,mapreduce适合用机构一致的海量数据处理,面对我们建筑市场形态各异的数据进行异处理。异处理表现数据抽取转换和清洗。这层是数据挖掘算法层,主要包括一些并行化数据挖掘方法。并行数据挖掘方法主要包括并行的关联规则法并行矩列算法和并行分列算法。
这个模型主要的思路,用户通过数据挖掘请求,输入到输入模块,传递到系统内部,系统根据用户提供的一些挖掘参数和基本数据,在数据库选择合适的数据挖掘算法,调用异处理的数据放在mapreduce上进行处理,然后把处理结果通过展示模块展示给用户。
这是我们平台在建筑市场应用中的几个方面。比如说分类分析方法对银行担保公司业务进行分类模型,对建筑企业风险进行分类。
接下来是实验分析。这是云计算kmeans处理的流程图。各个节点对数据进行存储计算,计算各个数据元组和数据之间的距离。利用reduc的任务进行数据汇聚,形成新的数据矩列,进行比较。
我们这个实验在4台windows服务在Hadoop下做成的。这是软件的配置。这是实验结果和分析。通过增加map点数可以减少实验耗费的时间,处理时间以map节点成反比,另外一方面当map节点数从10增加到100的时候。
邓晓梅:你做了一个实验证明你的矩列的结果,你矩列的目标是怎么设置的?
薛彦广:我设置一个阈值,矩列产生的距离和最初的距满足我设置的阈值的话,就截止,我测算这个平台的性能,是不是满足要求。根据经验设定阈值,满足的话就停。这是大家常用的例子,我拿这个测试一下算法性能。
邓晓梅:基于云计算你是在挖掘,但是数据已经在网上存在了。不管它在哪,你自己可以去找到你的目标数据来源。
薛彦广:各个省市的数据,信息数据库传到一起,构成整个的云服务平台,云数据库,我们从数据库进行整个的挖掘。我觉得这里面有一个权限的问题,对全国数据库有一个提取的功能,这个也有安全性的问题,我们要进行权限设置,保证企业核心数据不泄露。
从这个图上可以看到map从10到100耗费的时间没有成比例减少,对于实验所使用的数据集,10个map节点是最佳的配置,节点过多的时候会使Hadoop在节点的时候配置。云计算之后的kmeans算法,在Hadoop平台中的运行效果还是良好的。针对云计算的分布式处理海量存储,低成本,高可用性的优势,本文将云计算技术引入到建筑市场数据挖掘,提出针对建筑行业的基于云计算的数据挖掘模型,描述了模型的层次结构和工作原理,并进行测试,验证了模型的有效性和良好性能,针对建筑行业的积雨云计算的挖掘模型可以对海量的建筑市场数据进行高效的挖掘,进行为建筑企业决策提供重要参考,谢谢大家。