大数据战略与华罗庚的数学智慧(一)
尊敬的各位老师,各位领导,同志们,大家上午好!我是浙江大学数学系的刘祥官老师,跟大家一样都是教学生的。怎么教学生这个问题我探索了20年,现在少有心得,今天这个课堂的场面使我想起35年前,1980年我跟着华罗庚教授到江苏省南京市推广优选法、统筹法的时候,南京体育馆坐满了全市的工人阶级、农民阶级、知识分子和领导干部,听华罗庚讲优先法、统筹法,这也是一个没有先例的数学课。听说要给小学老师们讲数学,我心里头打了一个非常大的问号,怎么讲?华罗庚教我们数学的时候跟我们讲了这样的话:数学可以讲得低八度,中八度,高八度,如果对什么人都是讲高八度的话,那么可能很多人就会坐飞机,因为数学一旦接不上,那么听起来就非常吃力了。我们在大学听华罗庚讲课的时候,就曾经经历过坐飞机这样的局面,华罗庚老师在课堂上将“不难证明”这样的结论一笔带过,他的助教就跟我们讲了整整两个小时的课才把“不难证明”4个字证明完。所以怎么样学好数学、教好数学这是一个困难的问题,咱们这个千课万人是探讨大数据时代的这个数学课怎么讲,我感到是一件非常有意义的事情。我就想起我上小学的时候,什么印象最深刻,我想起了我的小学语文老师,他不但把一个学期的语文课讲完了,而且把苏联的(因为50年代初期的时候,卫国战争刚结束不久)普通一批《马特洛索夫》这么厚的小说也讲完了,我们作为小学生听得是津津有味,所以现在我印象最深刻的是小学语文老师,而不是数学老师。数学老师讲了什么,我全部都忘掉了。所以我给小学老师们的建议,当你们教小学数学的时候,能够把小学数学课本讲成小说、故事一样,那么你将来就可以培养成半个数学家。为什么这样说?因为我跟华罗庚老师学数学,我不敢称自己为数学家,但是我在应用数学上完成了国家科技进步一等奖,这个国家重大项目的成果为国家创造了巨大的效益,我称半个应用数学家可以说当之无愧。所以,怎么探讨21世纪的数学教学从小学开始,这个能够认识大数据,这是一个难题,但是也是一个非常重要的课题。我请在座的老师和同志们看看这一张,1980年我们跟华罗庚老师一起照的照片里头,哪一个是我,如果他猜得出来,那么我们交一个数学朋友。这是华罗庚老师跟中科大的他培养的学生们在一起,都是华罗庚老师推广应用优先法、统筹法的应用数学的骨干,我们讲课当中一会还要讲到华罗庚应用数学成果。
刚才我讲到了,华罗庚把数学能够讲到一个什么样的程度?普通工人、农民都能够掌握。大数据的一个核心思想,就是把数据变成知识,知识变成行动。华罗庚当年推广优先法、统筹法,他带领学生们向工人、农民普及优先法、统筹法,就在各个经济领域完成了一大批课题,这些课题给国家带来了重大的经济效益。他就是把知识变成了工人、农民的行动,同时这些行动又成了国家的经济效益,这就是我今天要讲的一个非常重要的观点。
什么叫大数据?在这样的一个思想下,我们看大数据的技术,它的难度、它的前景以及跟我们现在的生活是怎么密切联系的,我们怎么运用它?所以这个参会指南里头有一段话:“当我们看到的、听到的、想到的一切,包括数字、文本、照片、图像、视频、声音等等,一切都会表达为数据的时候,我们的生活就已经进入了大数据时代,一切都是数据。大数据是认知世界客观规律的宝库。”这样的一个思路,大家就能够比较浅显地理解,我们大数据时代是怎样的一个状态。所以我今天要讲的题目叫做:大数据战略与华罗庚的数学智慧。因为我在这里面举的例子,都是华罗庚教授的例子。华罗庚教授可以说代表了我们国家数学的智慧的一颗灿烂的明星。大家知道,在初中三年级的时候,华罗庚的数学还不怎么样,但是他孜孜不倦地、契而不舍地钻研数学,数学是他的兴趣,所以他发表了论文以后,被清华大学算学系的系主任熊庆来选进来,招到了北京,到了清华大学算学系当一个图书管理员,当一个庶务员,从此他开始跟着那些科班的大学生一起学数学,最后他学的数学跟在数学上的创新创造超过了科班的学生。我特别强调这点,学问不论身份,学问看你的天分,更看你的勤奋。华罗庚数学智慧给了我们很多启发,对于我们今天的大数据时代,华罗庚是超越三、四年的先知,大家应该从我的报告当有所体会,然后按照华罗庚的数学智慧来教好我们的学生,你应该会有巨大的收获。跟课本上写的顺序,我整个做了一些调整,讲的是五个方面,一个是大数据如何影响我们的生活跟工作?首先把大数据跟我们的生活联系在一起;然后,突出要强调大数据战略的由来?这个战略是美国总统顾问委员会提出来的,我们必须警醒了,如果我们在大数据战略上落后,那么我们中国在农业社会上转向工业社会的转变过程当中落后挨打的历史教训,今天必须引以为诫;再讲什么是大数据,把基本概念跟内涵跟大家做一个交代;然后看华罗庚“理数据、策发展”的数学智慧;最后提出一些思考。大家来共同适应大数据时代,我们的创新跟创业的发展。
大数据究竟如何影响我们的生活跟工作?把人类的社会进程分成各个阶段,我们看到人类社会从游牧社会—农业社会—工业社会—信息社会。今天我们是生活在信息社会的时代,我们的社会经济是怎么发展的?我们从游牧经济—农业经济—工业经济—知识经济。我们今天是在发展我们国家的知识经济,在这样的一个社会形态里头,大家身上都可以找一找你的生活是怎么跟大数据联系在一起的。我们现在讲课是用笔记本计算机,我们用手机、用数码相机,人人都在拍照;我们都使用二代身份证、使用无线网络、使用条形码、二维码;使用银行卡、医保卡、市民卡;使用打车软件;使用网上订票、网上购物……所有这些全部都是大数据时代跟我们的生活密切联系的,这样的一个要素。大家看到人类生活活动的大数据,这就是网络空间的大数据。在这个大数据里头,大家看到淘宝网,马云的淘宝网;百度,我们要查很多知识一上百度都可以查到;还有google,我们的地图用google来导航开车;以及facebook、twitter等等,这些网络空间就构成了大数据的空间,它跟我们的生活、我们的学习、我们的活动密切联系。我们再看看在现在这样大时代的每一天,有多少大数据?可能我们每一个人相关的大数据有限,但是全球60亿人一天有2940亿封电子邮件在网络上奔跑;有100TB数据上传到facebook。什么叫做TB数据,一会儿我们要讲,究竟有多少,有多大?我们现在一天要拍出2亿5千万张照片(全球的人);我们要发布2亿3千万条tweets。大家可以看到,现在每天的总数据量为35ZB,什么叫ZB等会儿再说。这么多字节的数据每年还在以60%的速度增长,所以人类生存的这个大数据时代不以我们存在、认识,而在那里大量积聚,如果我们的思维、我们的认识跟上这样的一个时代,我们就会被并拢化,我们就会成为知识的一分子。这是从生活的角度来看,我作为一个自动控制、控制论的博士生导师,我关心我们国家工业的发展,现在的世界工业的形式如何?大家知道,1840年,中国处在封建社会、农业的经济情况下,西方已经是发展了工业经济,西方在工业经济就用它的大炮、军舰敲开了我们国家的大门。在第一次工业革命当中,中国落后了,所以中国被打败了。今天又是一个新的时代开始,这个时代中国能不能赶上工业革命的发展,这是一个非常重要的问题。大家看到,第一次工业革命叫机器革命。蒸汽机的发明与机械化,从手工业发展为大规模工业生产,它的科学基础就是当年蓬勃发展的微积分。我特别强调一个,微积分地第一次工业革命的贡献,大家也都知道这个数学的重要性。今天我们又一个新的科学出来了,叫做大数据科学,大数据也同样引领着今天第四次的工业革命。第二次工业革命是能源的革命;第三次的工业革命是以计算机与原子能为代表的革命;第四次我们说现在,中国、美国、德国、日本、法国这五大国为代表的这样的一个新工业革命是怎样展开竞争的?德国它提出了一个非常响亮的口号,叫做“工业4.0战略计划”。它要建设未来的智能工厂,这个工厂是具有人类的智能,是一个智慧工厂,是自动化生产的工厂。美国提出来的口号是“再工业化、制造业复兴、先进制造业伙伴计划”。我们中国提出来的口号是“工业化与信息化的两化深度融合”。李克强总理的报告里指出来——中国制造2025。这是我们国家在2015年提出来的十年后的中国奋斗目标,它是实现网络化、数字化、智能化;日本提出来的口号是“再兴战略”;法国叫做“新工业法国”。所以大家看到,在这个大数据时代各国的工业发展都面临着新的挑战。
从生活到工作,大数据影响着我们这一代人,我们这一代人如何应对,就需要学习。这个学习站在什么高度,如果是一般的课题,只是数学家的事情,那么数学老师去教就行了。现在大数据是全社会的事情,到底把它提高到一个什么样的战略高度,我们看看美国的总统顾问委员会是怎么说的,我们当一回美国总统,来看看总统顾问委员会怎么样向总统跟国会提出它的报告。2010年,也就是5年前,美国总统科学技术顾问委员会提出的报告当中指出:“以机器学习、数学挖掘为基础的高级数据分析,将促进从数据到知识的转化,从知识到行动的跨越。联邦政府的每一个机构和部门都需要制定一个应对大数据的战略”。这儿我把大数据的英语词汇也列出来了(big data),说起来非常朴素,跟我们说大数据三个字一样非常简单,但是真理往往是最朴素的,大数据所包含的内容那是万千世界。在这儿大家注意到了,这些新时代的名词,大家不是学数学、计算机的,因而会感到生疏,什么是机器学习?什么是数据挖掘?这样的一个内涵,我告诉大家,这就是计算机系的本科生课程。机器学习是一门课,数据挖掘是一门课,高级数据分析在数学系更是一门非常深厚的课。这儿还要注意,这儿提出来的是从数据到知识的转化,也就是说今天我们要做的事情是从数据怎么样变为知识,知识再怎么样变成行动。我刚才讲了,华罗庚能够把他的优先法、统筹法这个知识变成了工人、农民的行动,变成了实际的经济效益。而不是纯粹数学家在数学象牙塔之中的研究。我们今天研究大数据,再也离不开活生生的社会经济的发展。
请大家思考这些问题,不必回答,但是如果这些知识能够多多少少有所了解,将来若被学生问起“什么叫做机器学习”也不会哑口无言,你就会给他一个最科普的回答。什么叫做机器学习,一会儿我们会讲。什么是机器学习?什么是数据挖掘?什么是高级数据分析与知识发现?美国总统顾问为什么要把大数据提高到战略高度?关于这个问题我曾经接受浙江省科技台采访的时候,我就告诉他了,诺登干的事情、美国的FBI干的事情就是搞大数据的分析。从大数据里面掌握各国首脑的动向和他的思路,从大数据里面探索到拉登的藏身之处,最后变成消灭拉登的实际行动。在这个高度上看问题,大家就可以知道了,大数据问题是一个战略问题,而不仅仅是数学知识问题。我们在座的肯定有很多人都在使用微信。“使用微信的人、网上订票、采购的人,你已经不自觉地跨越进入了大数据时代。你是否了解大数据的基本问题与大数据战略的重要性?”我们必须思考,作为老师如果不思考这个问题,你就会愧对你们的学生。现在我们看过那么多大数据的著作,它引领学术思想变革的两个特征是什么?我做了一个归纳。第一个,从数据到知识,这就是高级数据分析所要做的事情;第二个从知识到行动,这就要求我们求是、创新,这就是浙江大学的校训。大数据核心技术与价值体现在什么地方?大家可能有很多人在炒股票,炒股票看到的都是数据,你关心什么?关心的是数据的涨还是跌,你炒股票的经济效益就在涨和跌当中、操作当中你得到了。如果你错过了时机你就亏了,你没有把握住机遇,你想赚都赚不到了。所以“预测未来、谋划发展,把握机遇、抢占先机”。希望大家好好体会,跟大数据结合起来,你就会体会到大数据的价值。我们说大数据时代要有它的社会基础,如果没有物质基础、社会基础,大数据时代是不会来临的。3、4年前我们也称信息社会,但是那个时侯不是大数据时代,因为很多条件还不具备,特别是信息采集、数据的采集、数据的流通,我们还不能把握。但是今天不同了,我们今天每个人都可以处理数以亿计的数据。所以信息技术、网络技术、计算机技术的发展带来信息采集、存储、传输与计算的飞跃;数学与智能计算技术的发展(大家看到,前面是属于计算机与信息技术,第二条就是数学发展也跟上来了。有很多智能计算,过去算个200年的这样的一个问题现在就是一眨眼的工夫就算出来了。一会我们还看到我们的计算机现在全世界上最快的计算机),高级数据分析带来预测与决策、管理与控制水平的新发展;然后从我们国家来看,我们国家的工业化、信息化的两化深度融合,城镇化、全球化的深度发展就带来了今天大数据时代的全面展开。
大数据都有哪些应用领域?而不是仅仅是数学的事情。现在的商业交易,超市的二维码、条形码。如果没有条形码,我们说超市就开不下去了,因为价格计算根本就适应不了要求,只有有了条形码和计算机,我们说超市才有了生命力。电子商务同样积累了大量的数据,大家知道前年的时候李克强总理跑到浙江,首先去看了马云他的大数据,从马云的大数据里面我们国家的问题就可以掌握浙江省的进出口;然后在工业上各种传感器采集数据,卫星探测数据,这是工业领域的;然后在科学领域的模拟数据,理论模拟与试验数据,这些就涉及到大量计算数据;以及多媒体文档数据,网络文档的数量与访问文档的人数剧增。所以我们从众多的大数据著作里面,就可以归纳出大数据的核心启示。第1个大数据带来了“社会生活、工作和思维的大变革”。大数据这一本厚书就突出强调了:大数据带来了大变革。第2个大数据技术的核心价值在什么地方,拿了那么多数据来,就数据谈数据毫无意义、毫无价值,但是数据一旦变成“预测未来的手段、谋划发展的决策的依据、能够把握机遇、抢占住先机”,你的经济价值,你的效益就来到了,炒股票的人一看到这16个字心里就明白了。讲完这些内容跟价值,大家对大数据有所了解了,后面我们再来讲大数据的大学问。这个要学要问我们才能把事情搞得明白一些,什么是大数据,什么是大数据技术,这个内容就比较丰富了。
大家看到,什么叫大数据?过去我们说一个数据很大,怎么去形容它呢?小学生都会,叫做海量数据、天文数字。为什么叫天文呢?天上的星星你要衡量它的距离,一说3个光年,3个光年什么意思?就是3*10的7次方*30万公里。这个是多少万千亿公里,大家就知道了。所以天文数字是一个庞大的数据,像海一样宽的数据所以叫海量数据。这些数据在今天就不能模模糊糊来说了,在大数据时代我们要搞清楚这个数据有多少分量,我们要掂一掂。我们使用计算机输入一篇文章,这篇文章可能有多少K,所以最开始你接触的现在小学生都知道了,1K、5K,这样的一个K,K是什么?2的10次方。大家去拍照片,一张照片拍下来,这个时候你就知道了,照片的这个数据就不像课文那么少了,只是几个K,它是K的1千倍,就是多少M了,所以一张照片5M,就是2的20次方。这个还不够用呢,拍了几张照片相机就放不下了,所以现在的芯片,一个就要2个G,10个G,100个G,这个又是M的1千倍;跟着又到了T,这个是G的1千倍;又到了P,P是T的1千倍。所以在二进制作为我们今天的时代基本的算术,如果小学生只教二进制,不教十进制,那我告诉你,你的小学生落后于时代,必须赶紧跟他讲什么叫K,什么叫做二进制。大家这儿要记住,哪个数学老师背得快,那么从K、M、G、T、P、E、Z、Y,今天全世界的信息量加起来用Y来数就够了。再来看看一个典型的数量,我们现在中国银河Ⅱ计算机它的计算速度是多少呢?如果说它是33千万亿次每秒,那么你听起来就太费劲了,又是千又是万又是亿,千万亿,全部都用上去了,所以你的单位全用上去了,是33千万亿次,每秒钟这么快的运算速度,世界最快。那么我们换一种说法,它的运算速度是33P,大家一听,这个很简单嘛,很好记。那么世界最快的速度在你这儿三个数字就反应了。再来看看现在60亿人每一天说的话加起来是多少数据量呢?是5个EB。5个EB在哪儿?我们才说比这个千万亿还高1千倍。2013年中国的数据总量为0.8ZB,是2012的2倍,翻番了,所以说现在的这个数据量每年都在翻番,我的硬盘里的数据量也是每年翻番。再来看看我们生活当中城市交通数据中心,杭州市。建立交通数据中心以后,所有杭州的交通路口的监控,那个摄像头,拍下来的汽车的照片。过一辆车拍一张,杭州市拍了多少张照片呢?70万张。这个是交通数据中心数据,这70万张照片是多少数据量呢?1天的信息量是3.5TB,一年信息量是1.3PB。大家可以看到,这么多照片的信息量在我们的口里头,现在很容易描述它了。很多超大型企业,像上海的宝钢,它的庞大数据中心里面存储的数据,也只是用PB数量级来衡量。所以大家从刚才的数据量可以看到,现在二进制已经成了大数据时代衡量数据量的基本单位,而不是十进制。用十进制太啰嗦,用二进制衡量非常简洁。大家都知道,数学学好了以后用简洁的公式就可以描述非常复杂的数学结论,这就是我们要推行二进制这样的新的数学基础的一个前提,大数据时代如果谁不懂得二进制那么他就落后了。我查阅了一下,在二进制这个问题上我们中华民族是有着全世界人类的最光辉灿烂的曙光。我到甘肃天水去拜谒了祖先的伏羲庙,庙里面有原始时代的伏羲的塑像,他手里握着八卦。这一张更好看一点,我们用他来看看。在这个我们中国人最早使用二进制,用二进制来描述我们古老的数学,这样的一个历史是全世界仅有的。华罗庚在给我们上数学课的时候讲到,人类为什么要有数学,为什么是十进制?他在课堂伸出两只手,因为人类是有10只手指,所以最开始用的是十进制。在我们古代蛮荒时代,那个时候叫接神祭祀,那个时候也是用十进制。为了反证如果人是长1只手指,你会用什么进制呢?我们的老师就说在印度尼西亚的爪哇岛上,就有一个土著,那里的人长了11只手指,所以那个地方用十一进制来数数。所以十进制也好、二进制也好,十进制是由人的形体所制定的,但是二进制是由人的智慧来决定你有没有这个创造。我们的祖先伏羲,他用阴阳八卦创造了我们古老的哲学,给我们留下的智慧,大家都知道:太极生两仪、两仪生四象、四象生八卦,这是4千年前的事情。到了3千年前,周文王被关在羑里,他就把八卦生成了64卦,这就成了周易。所以我们中国人3千多年前的哲学体系就是以二进制为技术单位。所以可以看到,今天的大数据时代应该说凭我们中国人的智慧是很容易接受的,而且可以做成我们重大贡献的时代开始了,因为我们的老祖宗就是最早使用二进制的。今天我是不是在这里吹牛呢?大家看看,1703年Leibnitz,这个大家都知道,他发表的一篇论文,这个论文的名字是什么呢?《关于仅用0与1两个符号的二进制算术的说明,并附其应用以及据此解释中国古代伏羲图的探讨》。我们祖先的伏羲八卦图,德国的数学家用二进制去探讨它的奥秘,这样一个奥秘跟今天的管理科学、数学都在紧密地结合,这是西方首次用二进制来解释伏羲八卦图,二进制是大数据时代文明的基石,是中华文明的又一原创性最早的发明。我数了一下,中国四大发明,有物质存在,非物质文明里面第一个发明我现在推举二进制,中国人的八卦,这个非物质文明。四大发明不论是指南针、火药、造纸、印刷术,这四大发明都是物质,唯独二进制这个发明现在还没有人来推荐,大数据时代的老祖宗是谁?是中国人。
再把周易的“太极生两仪、两仪生四象、四象生八卦”用现代科学的决策树来描述,这个大家就可以看到,更能够非常简洁的来描述八卦的决策过程。有了这样的一个原始的思考以后,我们就在原始的思考基础上来进一步展开我们的思路。我们就能再进一步地思考,现在我们研究的大数据有一些什么特征?这个数学老师也应该要讲得清楚。它有五大特征:Volume;Velocity;Variety;Value;Veracit。它是说明大数据一个是量非常大,然后数量就呈暴发式地增长;第二个数据产生速度极快;第三个数据属性繁杂(大家知道,有哪一些是数据?现在我们说包括文字、图片、视频、声音等等都是数据)。
作者:刘祥官(浙江大学数学系教授,博士生导师)