• 刘祥官:大数据战略与华罗庚的数学智慧(二)
  • 作者:千课万人  发表时间:2016-07-28

  • 大数据战略与华罗庚的数学智慧(二)

    大家就不要去追究每一个数据是真还是假?大数据就在它的数据分布规律里面,把这些离群数据另作处理,而把相关的数据找出它的规律,成为我们的新知识。

    这一个图大家看到了,是青岛海尔股票曲线。这个股票的发展曲线我们说炒股票的人不是看它的1个数据、1个数据是多少,而是看它的整个趋势。这是第二个方面,大数据五大特征。

    第三个我们看,大数据概念的新内涵。这个新的内涵大家就注意到了,从数据到数据仓库,过去我们每一个人有一台笔记本就可以建立自己的数据库,存储你所要用的数据。现在要是每一台计算机都这样去建立你的数据库,很显然你的数量太少了。现在我们要从网络上作为我们的数据库,就要用云计算来实现从远程的数据仓库调用我们所需要的数据。从数据到数据库再到数据中心,一步一步地数据的发展,一个城市的数据中心,恐怕我们这样一个体育馆这么大的地方,像上海宝钢的数据中心,就跟我们底下这么大了,所以大家可以看到,服务器、数据中心有多少台在这里面这样并列着。另外大家再看看,数据类型的复杂性,从原来的数字、数据库到数据流到数据序列到文本到空间时间到网络,等等。前些天我出差,看到微信上的一个短片,我以为跟看资料一样,一页一页翻过来用不了几MB的数据,结果看到一个奥巴马的消息,10秒钟我赶紧停下来,看看我用了多少流量,100MB已经没了。所以这个视频流的数据量远远超出我们静态的数据量,所以现在的数据不仅有结构性的数据,而且有半结构性的数据跟非结构性的数据,大数据不仅仅数据量级大,而且包含数据类型复杂。在这儿我还举一个例子,马航MH370飞机失事以后从卫星照片搜索到一个飞机失事的照片,这已经过了一个礼拜才找到,就是说从卫星里面找到我们要的信息是多么难,如果靠人云找的话。那么就用计算机来找,这就是计算机学习。怎么样找数据成为我们以后要研究的一个重大课题。怎么去研究这个数据?我们在大数据挖掘跟知识发现有一些基本途径,一个叫数据分类、聚类。大家都知道了,分类出知识,这个非常简单,在中学里面,各种不同的植物把它分成一类,这类植物就可以变成一个分支的知识了。同样的今后的这些大数据你怎么样对它进行分类,进行聚类,这就是我们非常重要的工作。然后怎么样进行离群点分析、关联性分析、相关的分析,这些关联分类也是非常重要的;比较汇总;差异判别;趋势与偏差分析;模式发现;总结新知识。这些都是大数据今后要做的工作,然后大数据根据不同的应用对象,有商业、社会、银行、电信、政治、情报、选举、科学与工程技术、日常生活,无处不用。这就是我们进行大数据处理的,分析高炉冶炼过程规律这样一个可视化的图像。这就是大数据汇总出来的数据表,当然这个只是科学计算里面的大数据分析。

    什么叫数据挖掘?在大数据里面,数据挖掘技术,进行高级数据分析,这是一项非常重要的工作。这项工作当然就非常专门化,是计算机系数学系的,至少本科生以上,而且是硕士生博士生要做的研究工作。所谓的数学库中知识发现(就是KDD),它需要哪些知识呢?需要统计学的知识、需要机器学习的知识、需要模式识别的知识、需要可视化技术。因为大数据复杂处理的结果最后还要通过人的认证,人的认证当然要通过可视化图像,得到最后的印证。所以大数据发现知识就像是金矿的开采,犹如冶金提炼过程微量元素,是基于高级数据分析的结论。最终这些知识发现都归到高级数据分析这样的一个工作里面。在这儿大家就看到这样一个现象:过去的是数学系的毕业生留在高校当数学老师、中学小学老师;现在数学系的毕业生,如果你是学了大数据的话,银行要你、证券要你、IT也要你,各个重要的跟数据打交道的部门现在都要数学系计算机系的毕业生。

    什么叫机器学习?这也是我们必须要搞清楚的。它是一个计算机软件,学习软件,而不是特殊机器。什么样叫学习机?现在用不同的数学方法编出来的软件被赋予名称,叫不同的学习机。比如说:支持向量学习机SVM;相关向量学习机RVM;神经网络学习机;迭代学习机,等等。用这样不同的数学方法让计算机自动处理数据,最后结果或者得到相关的结果,这些就是由计算机来做我们人做的事情。大家知道,一个人跟成千上万的数据打交道就已经饱合了,如果让你跟上亿的数据打交道,就会受不了了。可能你会神经衰弱,所以真正的上亿的数据处理一定要靠计算机,它是不会疲劳的,所以计算机作为我们大数据分析的工具,你必须要掌握它。

    最后,我前面讲的,数学上的算法也在与时俱进。1961年、1962年我在北京学数学的时候,讲到这样的一个例子。天气预报的方程要用当时的计算手段去算,算出几年以后才能够把第二天的天气预报数学计算出来,这样的气象预报还有价值吗?肯定是没有价值了,这是那个时候的难题。今天我们的物流有那么多快递公司,那么多邮包怎么样送,怎样以最快的速度送出来?如果用老的计算方法也是要很长的时间才能算出来,也是不能适应生产的要求的。所以20个城市的物流的派送,用现代的智能优化算法就可以很快地计算出来,原来200年计算结果现在可以适时地得到这个结果。所以像这样的数学智能优化算法它是必须根据大数据时代的发展才能够施展它的英雄用武之地。现在的智能优化算法还必须知道的有模糊算法、神经网络算法、遗传算法、禁忌思索算法、模拟退火算法及其混合优化,等等。这些当然了,因为这是我教的博士生的控制论的课程,一个课程就讲了一个学期、两个学期,所以大家只要知道有这些应用算法是能够适应今天大数据处理的需要,它要解决的是大量的函数优化问题跟组合分类优化问题。数学建模,这个大家都知道了,我就不多说了。数学建模里面,现在大数据时代因为数据量非常大,数学模式非常高,所以怎样降维是现在数学里面要做的一个难题。像多元回归啊、主元素分析,等等,这些都是专门的数学方法要处理的,以及大数据的统计,现在小学也开始学统计,这是很好的。大家从这儿就可以看到,随着时代的发展,数学在不断地把儿子、孙子生出来,原来统计学科作为数学一级学科下的二级学科,现在我们国家已经把统计放回一级学科了,同样的现在数学里面有一个大数据科学这样的一个分支,很快地大数据分支要成为一个独立的学科。

    大数据的发展趋势如何?现在大数据都还是每一个人可以做的事情,很快的大数据的发展就要从上个世纪90年代开始的数据库,变成后来的数据仓库,变成后来的数据中心,以及从2015年以后就要成为数学产业,就是说大数据要成为一个产业,它跟各行各业都密切相关,就要为各行各业带来效益,这就是大数据发展的趋势。大家看大数据产业涉及的部门,商业、社会、银行、电信、科学技术、日常生活。各个产业都是需要大数据的产业的人帮他进行设计。比如说设计一个股票预测的软件;设计一个物联网的物流派送方案;设计一个家庭生活,怎么样用大数据全部联网起来。这样一个产业就是新兴的产业。我查了一下国外举的大数据的案例,很多。大家看:贝尔大西洋公司运用机器学习,进行高级数学分析。由计算机指派技术人员处理解决问题,比经验指派为公司节省开支1千多万美元。大家就可以看到机器学习可以做调度、派送;大家再看看美国万国宝通银行,对于贷款的客户进行分类,分成三类,这三类人接受它的申请、拒绝它的申请,跟评审,是否接受它的申请。对第三类运用机器学习建立规则,比专家判定、预测的准确率由50%提高到70%,大家就知道,银行贷款很怕这些烂账的发生,由计算机来处理这个贷款的用户信息的以后来提高预测的准确率,它要贷出去钱还要挣钱,贷出去成了烂账就亏本了,所以这儿的经济效益就表现出来了。像这样一些国外在服务业应用的例子很多,但是在工业上应用的例子不多。讲到这儿,交待完了这么多的复杂的、交叉的、多学科的内容以后,大家就应该意识到一个大时代的新兴学科,数据科学就要诞生了,这儿先给大家透露,因为这还是学术界讨论的问题。但是很多院士已经承认,由于计算机科学、信息科学、数学的全面发展,一个交叉的新兴学科——数据科学,就要诞生了,这个诞生是什么背景呢? 80年代末,大家都知道,高技术的核心是数学技术,这个是美国人先提出来的;到了90年代是数据挖掘技术蓬勃发展;到21世纪以后,互联网技术跟信息自动采集就密集的发展了。所以从数据采集到数据库创建,到高级数据库系统(数据仓库),到数据中心和数据产业——以数据为中心的计算机群的云计算为其主要特征。现在是计算机组成一个群,里面存储数据,我们从计算机群上去计算,你在家里,计算在天上,所以叫做云计算。大家会碰到很多新名词,什么叫云计算?是跑到天上去吗?不是。它是有一个数据中心,数据中心存了大量数据,那里有高级计算机可以处理非常复杂的计算,你在自己的笔记本上,发出你的计算要求跟命令,所有的计算都在天上做,做完以后结果回到你这儿,你得到了计算结果。大家可以看看,这样一个计算的能力的提高就不知道比原来快多少倍了。所以现在有一个说法,大数据有三大资源,这三大资源是什么呢?一个是水、一个是能源,第三个就是数据。这个数据对未来的人的生活就是一种资源了。

    第三部分,我再讲讲华罗庚的数学智慧:理数据,策发展。这是华罗庚的一句话里面摘出来的。前面我已经讲了,大数据的核心价值在于它能够预测未来、把握机遇、谋划发展、抢占先机。所以这个“策发展”非常重要,它的作用就是理数据。这个工作怎样来做?华罗庚在30年前就指出来了,这个是贴近人民的数学大师,华罗庚。我先举一个例子,这是我们1962年在北京读书的时候,华罗庚讲课时讲的一个例子,当时前苏联发射洲际导弹,划定了太平洋的一个公海区域,有4点,P1P2P3P4组成的这样一个网格,要求公海上的船只避难,你要到这个地方去被我洲际导弹打了自负责任。这样一个豆腐干大小的新闻公报发表在人民日报上,华罗庚看完以后根据这样的几个数据就把这个火箭的发射地点给算出来,从发射地点到四面区域是12000公里,这样的一个距离。大家要知道1962年的时候,间谍卫星还不多,要知道洲际导弹的发射点、发射地这是一个高度的军事的秘密,军事秘密用数学给它算出来,就从公开的信息里面,这就是数学智慧。所以我们在听华罗庚讲数学课的时候,有的数学家说数学很好玩;有的数学家说数学是个人的兴趣,但是我们接触华罗庚的时候,他的数学爱好跟兴趣很多是为国家经济建设服务的,非常有智慧。华罗庚在1981年的时候总结出来的,应用数学36字经,讲的是什么呢?“大统筹、广优选、精统计、抓质量、联运输、建系统、理数据、策发展、利工具、巧计算、重实践、明真理”。前面的30个字10组学习方法,后面两组字是检验成果标准,是重实践,而不是讲数学理论有多高深。1981年华罗庚所总结的国民经济各个领域的应用数学方法与途径,反映了他对大数据分析的科学预见。一个数学家总结出来的数学方法,能够写到党的十七大报告当中,作为一个科学发展观的组成部分,我这儿也列出来,大家可以好好地思考一下。第一要义是发展,核心是以人为本,基本要求是全面协调可持续,根本方法是统筹兼顾(这就是统计法),促进国民经济又好又快发展(这就是优选法),提高自主创新能力,建设创新性国家。这里面科学发展观包含着系统工程,统筹优选,这样的一个科学方法。

    华罗庚统筹、优化,10个方面的运筹帷幄覆盖大数据应用,10个方面的优选论述,由于时间关系,就不一一地作解释了,这个要讲的话要讲一个小时,大家知道这10种方法、10个方面都是要展开应用的。再用一个案例,来看看华罗庚的“理数据、策发展”,他的数据挖掘技术的重大成果跟国外的相比,价值如何?1988年的国家科技进步一等奖,它的题目是“完善提高攀钢提钒技工艺术”。什么叫做钒?做大炮、做坦克,需要合金,这个合金就是钒合金。现在我们有高铁,大家坐高铁感到非常惬意。高铁的钢轨里面就含有钒。这样的一个技术成果,大家看看从哪儿出来的。这就是攀枝花钢铁公司,叫做“金沙江畔的明珠”。这就是高炉炼铁出来的铁水;这就是提钒车间的提钒。现在的攀枝花称为我们国家的钒钛之都,因为它出产的矿里面含有稀有元素“钒”和“钛”。钛,做波音飞机就要钛合金;钒,做坦克大炮就要钒合金,所以它们都是战略物资。大家看,这样的一个钢铁公司在它建成之前是这样的一块山头,要在这样的山头之上建成一个钒钛之都,这是怎样的一个状态。20年后,这就是它的照片,再来20年后,30年后,一共50年,建成了我们国家的钒钛之都。这样的一个难题是什么意思呢?要把铁水中含量0.30.5的稀有元素钒提取出来,氧化率达到90%以上的国际先进水平。这个时候,工程师说数据杂乱无章,毫无规律,怎么办?华罗庚的数学智慧就告诉我们,规律不稳定意味着还存在未知数。我们就要去找未知数,所以通过一系列的高数据分析找到了钒氧化率的生产规律。这些就是可视化的图表跟时间序列的分析等手段。之后又发现了新的工艺参数,1978年到1986年,为了一个国家钒钛之都的建设,我们国家的副总理方毅跟中科院院长8次上攀枝花。方毅指出,通过8年攻关,钒的总收率提高,产量大幅度增长,钒资源得到了较好的回收利用。1978年末,建成雾化提钒车间,投产后继续攻关,采用数学方法实现优化操作,使钒的氧化率提高到90%以上,达到了国际水平。所以大家就可以看到,我们的生产工艺怎么样通过数据分析找到生产规律,这就是知识发现过程,知识发现之后又变成一个生产实际,生产验证当中又发现一个新的参数,这个攻关取得了成功。方毅这儿给我们提了两句诗,这是陶渊明的诗“及时当勉励,岁月不待人”。如果大家是对诗知道比较深的话,知道陶渊明前面还有两行诗“盛年不重来,一日难再晨”。这是华罗庚接见攀钢领导。这是1985年也就是华罗庚逝世之前的三个月,我们在郑州开会,跟华罗庚一起拍的照片。这是国家科技进步一等奖的金字奖章跟证书。在其他地方浙江大学数学系又进行了高炉冶炼专家系统这样的一个大数据挖掘工作。大家可以看到,一个生产复杂工艺操作的工作要这么多的子目录,它的大数据的含量大家就可以理解了。这是省科技进步一等奖的证书。这就是整个核心技术跟它的工作的内涵。

    讲完了这些,我们就可以看到,大数据并不是从天上掉下来的,我们已经在进行大数据的各种科研工作和学习,所以现在大家重新认识大数据,就提出大数据战略的若干思考。第一个大家要提高对大数据战略的认识,看到了它带来的思想观念、社会生活和工作思维的大变革;第二个形势,形势必然,你培养的学生要适应社会的需要,要适应现在的工业化、信息化、网络化、自动化的需要,必须了解大数据;第三个,大数据的核心是预测未来,谋划发展,把握机遇,抢占先机。学好数学,教好数学,是大有作为的。

    高级数据分析及其展望,我这里考虑到是太专业化的知识范畴,所以只能点一下所涉及的内容。如果考虑到我们的小学教学如何跟大数据、跟高级数据分析接轨,昨天晚上我可是花了一番脑筋想来想去,怎么回答这个问题。我想第一个,二进制的概念,小学生应该有,而且可以接受;第二个小学生很会照相,通过手机、照相机,这些活动让小学生建立起数据的概念。就是说老师讲课,讲了多少K,拍照,拍了多少M,这些知识小学生应该是能够接受的。高级数据分析里面很重要的,分类产生知识。手机就是大数据,这些小学生还是能够接受得下来的。我想来想去,认为,如果我们小学老师能够把小学的数学教成和讲故事一样,让学生喜欢,那么你就成功了。但是我这儿还要指出来,我们的大数据跟国际上的先进水平的差距是客观存在的,这是我们必须奋起直追的原因。这个差距第一个:加快数据仓库与数据中心的构建。国外一个大学,像美国的一些著名大学,它就构建了数据中心,全世界的大学生、研究生写毕业论文,到它的数据中心里面去取数据。所以数据就是资源,我们抢占数据资源的高点就是要建立数据中心,这个我们国家现在落后了一大步。第二个,联机数据分析与知识的深入挖掘。这个现在有很多工作是可以做的,但是现在做的还不够。第三个是机器学习与智能优化算法的设计。大家想想这么多的数据靠人分析是不可能的事情,所以必须编一大批软件针对各行各业的实际需要,然后由机器来学习,这个工作是很深入的。最后一个就是李克强总理报告里面指出来的,是加快发展“互联网+”产业,即大数据产业。我们要尽快发展起来。

    关于大数据时代,数学创新有什么建议?我们说数学学科正在经历着从经典数学—应用数学—系统工程—统计学—数据科学的不断裂变、交叉融合式的创新发展过程。对于这样的一个过程,数学学科面临着新的挑战、机遇和创新。数学工作者面对大数据的机器学习与数据挖掘等高级数学分析的时代任务,需要不断渗透到金融业、物流业、制造业以及社会学、自然科学、生命科学、医学等领域、去创新各种各样的智能优化算法。这个智能优化算法现在发展到什么程度呢?医生的一个免疫学变成数学的一个算法叫做免疫算法;生物学家的一个遗传学变成数学算法叫做遗传算法;神经科学家的神经学的研究变成数学算法叫做神经网络算法;法律工作者要回避要禁忌的这样一个法律规则变成数学算法叫做禁忌数学算法。所以大家可以看到,各行各业的这些规则、规律都变成数学算法,我们小学教的叫做四则运算的算法,这是最古老的算法。今天如果你只会四则运算,我们说中国小学生的四则运算远远超过美国小学生的四则运算水平,这是很多出国的老师带着小孩进了美国的小学以后最明显的一个感觉,中国小学生四则运算水平非常高,但是我们说这只是ABCA最基本的算法,所以给学生灌注一个新的思维进去,而不只是停留在四则运算上。对于其他学科交叉规律的认识跟新的算法的产生,比如说一群算法,哪一群?比如说例子算法,等等,这些都是新的算法。

    今天我是匆匆忙忙的,把大数据时代的涉及到大数据学科的相关的知识给大家做一个科普式的介绍。有讲得不够的地方请大家批评指正。

     

    作者:刘祥官(浙江大学数学系教授,博士生导师)

  • 【上一篇】华应龙:心中有数,无限美好 【下一篇】刘祥官:大数据战略与华罗庚的数学智慧(一)
    • 最新通知
    • 最新图片
    • 精彩文章