各位读者:
潘院士是CADAL项目的发起者,投身数字图书馆事业已逾二十载。二十年前,他倡导的百万册数字图书馆项目引领中国数字图书馆走向世界前沿;十年前,他创造性地提出“数字图书馆将在广度上走向数据海,在深度上走向智慧图书馆,最终升华为知识中心”,为图书馆发展指明了方向;如今,在CADAL二十周年庆典上,这位孜孜不倦的战略家再次给我们带来新的思考。智者之言,金声玉振,特此编录,以飨众人。
人物名片
潘云鹤,中国工程院院士、CADAL项目负责人,中国智能CAD和计算机美术领域的开拓者之一。长期从事人工智能、计算机图形学、CAD和工业设计的研究,在计算机美术、智能CAD、计算机辅助产品创新、虚拟现实和数字文物保护、数字图书馆、智能城市和知识中心等领域取得重要研究成果,创新性地提出综合推理、形象思维、跨媒体智能、数据海、智能图书馆、人工智能2.0等概念,多次获得国家科技奖励。
报告文稿
一、数字化升级起步:百万册数字图书馆
二、向数字知识转化:工程科技知识中心
三、进入AI 2.0:大数据智能
四、大数据+Al的一般工作模型
五、小结
上一世纪末,美国卡内基梅隆大学教授、图灵奖获得者Raj Reddy提出“百万册数字图书计划”,目标是“任何人任何时候任何地方可以访问任何的知识”。浙江大学和卡内基梅隆大学图书馆率先响应。中美很多大学共同合作投入约1亿美元,成功数字化了100万册图书,这开启了一个可以给全人类带来的福音的项目。不仅为中美百万册图书馆,也为学术大数据的形成打下了重要的基础。因此Dr.Reddy被授予计算机博物馆的2021年Fellow的殊荣。
此后,中国教育部不断支持数字图书馆(CADAL)的建设,现已有280万册图书数字化,数据容量达到1.5Pb,年度点击2.5亿次,服务用户1000余万人次,在中国有800余家共建共享的用户,在海外有40余家合作共享成员包括美国常春藤高校。二十年来,我们还在中、美、印度、埃及等地举办了数字图书馆国际研讨会。因此,这一项目是数字化国际合作的典范。
2007年1月,时任浙江省省委书记习近平视察了CADAL项目,对数字图书馆建设的成就和作用表示了高度的肯定与赞赏,并指示浙江省要大力支持和推广数字图书馆的发展。所以,浙江省的高校走在了数字图书馆建设的前列。
数字图书馆建成的意义之一是使书籍能够远程借阅、快速服务、高效流通;其二是可以提供个性化服务,个性化推送现在已经成为数字图书馆很重要的一大特点;其三是从“数据海”到“智慧图书馆”。2005年时我们就发现,数字化后的图书馆形成一个数据海,不仅具有海量数据,而且可以和Al技术相结合,创造出很多新用途,从而使图书馆走向智能化。编者按:我们在2004、2005年提出“数据海”(Data Ocean)一词后,2007年国外出现“大数据”(Big Data)一词,二者所述之义相同。2010年开始“大数据”被国内广泛使用,现在统一称为“大数据”。
有了这一认识之后,我们对数据海进行了深度的使用:
(1)图形查询与设计,如:基于形状的书法字检索。比如2006年中国工程院的名牌设计,我们在苏轼、米芾、赵孟頫、柳公权、颜真卿、曹全碑的字中比较下来,发现苏轼的字最合适。因此,现在中国工程院的名牌是用苏轼的字体写的,效果非常好。
(2)辅助教学,如:病理学数字教学。病理学习中需要观察很多切片,现在通过数字图书馆用图片和video的方法就可以解决;人体的解剖也可以采用动画模拟,以前学生一年可能只能碰到一两次的解剖,现在可以通过动画模拟经常学习。
(3)辅助研究与知识服务,如:数字本草纲目——中药知识服务。将《本草纲目》数字化后,和中国古代、近现代的各种中草药图书、论文中的数据打通,形成一个很大的知识库。现在这个知识库既可以为老百姓了解中草药知识服务,而且还可以为企业创造新的中成药服务。
由此得知:书在数字化后可以不仅作书之用,N册数字书汇聚后的信息总量远大于N册书之和。书和书之间联通后形成了新的知识,而这些新的知识往往是过去人类很少探索到的。
2006年,我到中国工程院后,工程院一项迫切的任务就是为国家提供战略咨询。战略咨询其实既是政府的需要,也是产业、企业的需要。战略咨询需要大量的数据和知识支持,而这些数据与知识不仅分布在论文和图书之中,而且零散地隐藏在国内外专业数据库、动态报道新闻、展览会、报告会以及互联网上海量的数据之中。研究者经常花费了大量时间,依然得不到关键性数据。
中国工程院看准院内外趋势,在财政部的支持下,决定建设中国工程科技知识中心项目,项目启动会于2012年3月26日在京召开。
知识中心的最低目标是实现对不同领域异构数据资源的跨库检索,最高目标是提供知识服务。最低目标已经基本达到,最高目标已经部分达到。
知识中心的技术特点是能分解、关联、组织各行业的数据海,形成动态自组织的知识网络,进而提供跨媒体阅读、深度搜索、创新设计等深度知识服务,支撑教育、科研、文化等行业发展。
以“中国工程科技知识中心”项目为依托,我们向UNESCO申请成立二类中心。2012年,联合国教科文组织总干事博科娃女士、助理总干事卡隆基女士两次到访浙江大学,专程参观“数字图书馆”和“中国科技知识技术中心”。2013年11月,UNESCO第37次大会一致通过建立“国际工程科技知识中心”,Dr.Reddy和潘云鹤共同担任“知识中心”的国际技术顾问委员会的主任。
国际工程科技知识中心(www.ikcest.org),数据集总量现已达到384个,数据体量超过2.3亿条。网页浏览总量(PV)达到1062.4万,且快速增长。2021年上半年,网页浏览总量(PV)是2020年同期数据的1.15倍。用户总数(UV)超过66万,是2020年同期数据的2倍。访问用户覆盖220个国家与地区,“一带一路”沿线国家100%覆盖。
知识中心的研究和建设使我们认识到:
(1)用好大数据的核心是使其知识化。
(2)跨媒体是大数据智能的重要特征。
(3)群体参与是大数据智能系统可持续发展的必要保证。
2014年我们在做智慧城市课题时发现:世界正从二元空间转为三元空间。世界原来是由人类社会空间(H)和物理空间(P)组成的二元空间。随着时间的推进,信息迅速壮长成新一极——信息空间(C)。
近50年来,信息空间成长壮大的历程:
1.信息来自于人类社会:书籍、交流、媒体、计算机。
2.信息开始互联:互联网、移动通讯和搜索。
3.信息绕过人类,直接来自于物理世界:传感器和物联网。如人的手机定位、城市里的摄像头、卫星传感器,这些信息都是物理世界发出的,而不再是人主动发出的。
4.大数据时代,数据处理大变化,必然走向大知识。
5.疫情后三元关系将加速变化。
人类研究物理世界是什么,物理世界可以有什么变化,变化以后会变成什么物质,这些所有的知识就叫自然科学。人类怎么去改造物理世界,改造前怎么做设计,改造中怎么进行加工,这样所有的知识就叫工程技术。人类还要研究我们自己,研究我们的历史、文化、政治、经济等等,所有这些加在一起就叫社会科学。所以我们有三个科学院——中国科学院、中国工程院、中国社会科学院,实际上就是处理这三类知识、三类信息,包含了我们信息的总和。
现在我们出现了一个新的空间——信息空间。我们发现,通过信息空间,我们可以从一个新的视角去观察物理世界,还可以去改造物理世界。如无人机、无人船、无人车、无人码头、无人车间、无人矿井,这些都是通过信息空间去改造的。现在我们也可以通过信息空间更加好得了解人类自己,如通过信息空间来了解疾病与人类的关系。有了信息空间之后,我们做学问的方法、工作的方法、经济的方式会得到巨大的改变。

在上述情况下,我们看到人工智能的重要性。2017年7月20日,中国发布了《新一代人工智能发展规划》,指出人工智能正在进行重要的换代,新一代人工智能的关键技术包括大数据智能、群体智能、跨媒体智能、人机混合增强智能、自主智能系统。其中我们提出的大数据智能、跨媒体智能、人机混合增强智能三个概念,都是从我们过去的智慧图书馆、知识中心长期实践中提取出来的发展理念。
步骤1:感知对象与运行态势。数据产生于传感器、数据库、网址、手机、车辆与设备、工业互联网、电商、金融、海关、医院……
步骤2:联通与处理数据。此时可运用统计学和可视化技术,提供数字化人机交互服务(如“驾驶舱”)。
步骤3:将数字转换为知识表达。此时可运用机器识别和深度搜索技术,提供自动回答问题服务(如自动问答系统“小冰”)。
步骤4:自动发现问题和提供解决方案。此时可运用知识推理技术,提供智能化治理服务(“产品链/企业”和“产业链/区域”管理优化)。
步骤5:收集上述服务效果与态势。返回1,使得系统能够闭环、迭代、优化。
一般来讲,通过这样5个步骤,可以形成从数字化向智能化发展的系统。上述大数据+Al的一般工作模型可分为多种模式工作。例如:
1→2→3→4→5,是人工智能系统;或
1→2→3→5,是前人工智能系统;或
1→2→5,这就是大数据系统。
数字化改革的基础是大数据平台,要求大数据感知及时,打通集成,覆盖系统,深入基层,因此数据完善很重要。数字化改革的结构是做好闭环、选代、优化。因此,要对大数据和迭代机制做好顶层设计。将1、2、5做好了,打好基础,有利于进入更高水平的智能化。
21世纪的数字化变革,是人类发展史上一场并不容易的,但是十分重要精彩之变。历史也许会证明,中国的新型举国体制有利于在这场伟大的变革中,促进人类登上高峰。
欢迎大家收看!
图书馆
2022年4月4日