原标题:我们在网络上的痕迹,百年后由谁来保存?
新京报快讯(记者倪伟)长久以来,人类的文明大多以书籍文献形式被记录。公共图书馆保存了几乎所有的古代典籍,传之后世。
到了互联网时代,海量又易逝的信息记录着社会发展的每个细节,成为人类文明和社会记忆的新载体。这些互联网上的信息,由谁来保存?
这个问题在个人身上的反映是:互联网上的个人痕迹能否存储,乃至继承?
作为国家文献信息战略保存机构,国家图书馆已经意识到这个问题。今天(4月19日),国图启动互联网信息战略保存项目,国内首家“互联网信息战略保存基地”同期在新浪公司挂牌成立。
新浪网发布的新闻和微博公开博文,都将被互联网信息保存战略基地保存。
首次尝试期望听取各方意见
国图馆长饶权今天表示,实施互联网信息保存就是打造“人类数字记忆库”。
根据《公共图书馆法》,国图承担着国家文献信息战略保存的职责。在当代,国家文献信息由纸质载体扩展为多种形式载体,包括大量互联网信息。
国家图书馆今天与新浪签约,首家“互联网信息战略保存基地”在新浪挂牌成立。来源:国家图书馆
“如果我们的战略保存不将互联网信息纳入,肯定是落后于时代的。”国图业务管理处副处长廖永霞说。
随着移动互联网和物联网普及,数字信息规模爆炸式增长,公众发布和获取信息的平台也更多样化。调动社会力量参与,成为互联网信息采集和保存的趋势。
该项目将会进行模式的探索和技术探索。例如,以前很多文件利用现有的常用技术已经打不开了,需要探索技术,使得久远的文件能够一直被读取。
廖永霞说,互联网信息保存在全球仍处于初级阶段,很多问题待解。目前项目可能还面临一些法律、伦理、技术、标准等方面的难题,希望能够获得全社会的高度关注,吸收各类意见,为后续工作提供思路。
数据使用致力于非商业用途
此次合作中,新浪网发布的新闻和微博公开博文,都将被互联网信息保存战略基地保存。
据新浪相关负责人介绍,截至2018年12月,新浪网累计发布新闻超过2.1亿条、图片13亿张、视频4500万个、互动总量超过80亿;微博博文超过2000亿条、图片500亿张、视频4亿个。新浪网和微博新发布的内容,也将被保存。
国图发布的信息明确,在中国境内开展互联网信息业务、并在相关领域处于领先地位的企业机构,均可申请成为国家图书馆互联网信息战略保存基地共建主体。
国家图书馆馆长饶权在启动仪式上发言。来源:国家图书馆
根据规定,国图互联网信息战略保存基地将采取社会化保存模式,数据仍由共建主体保存和管理,共建主体需确保其提供的信息数据完整、有效、安全,并拥有合法所有权、知识产权或已获得相应授权。
国图则提供使用需求,适时将部分基地数据纳入国家文献信息战略保存体系,并与共建主体联合开展数据分析,服务于政策决策、学术研究等非商业用途。
据廖永霞介绍,新浪网和微博所有信息数据仍由网站本身保存、管理,国图可以使用,未来或将纳入国图的存储体系。这种管理方式可以避免因信息量不断增加带来的存储压力。
廖永霞说,此前,国图互联网信息采集保存主要面向政府网站,未来,博客、科研网站等信息也计划纳入战略保存。
释疑1:存储个人信息是否涉及侵权?
——获取用户授权才可存储,未来可建“记忆银行”
此次国图与新浪合作,涉及新浪微博的信息数据。而微博数据绝大部分为用户私人信息。
廖永霞介绍,国图与新浪曾多轮沟通,明确用户个人信息必须经个人授权,才可以被互联网信息保存战略基地保存。未来,网站或许会设计授权模板,征求用户授权意愿。
国图原副馆长陈力曾提出,互联网信息的采集与保存,会与著作权法产生诸多冲突。许多国家为此以立法形式将互联网信息纳入“文件缴送”范围,例如法国、丹麦、日本等国,允许国家图书馆对本国互联网信息进行主动采集存档。
陈力建议,我国应该建立和完善互联网信息缴送制度,修订或制定法律,把互联网信息纳入缴送范围。
我国已经建立向国图缴送出版物的制度,要求图书、杂志、报纸、音像、电子出版物等要向国图缴送样本保存。但对于互联网信息,还未制定缴送规定。
针对用户个人信息,国图相关人员表示,即使采集和保存后,也不会立即提供公开服务。未来或许由用户设定权限,可供部分人士读取和使用,这便类似于个人信息的“记忆银行”。
释疑2:海量信息采取何种保存技术?
——仍在快速迭代,存储技术是难题
过去几十年,信息数据保存经过了快速的技术迭代。从磁带、光盘,到软盘、硬盘,再到云存储等等,新的技术不断取代旧的技术。利用老一代技术存储的数据,也面临被遗弃的风险。
因此,如何选择能够经得住时间考验的储存介质,成为互联网信息战略保存的难点。
廖永霞说,国图的数据存储,曾经主要利用光盘,但光盘的使用已经越来越少,很多电脑都取消了光驱。国图也用离线磁带库存储数据,且在国图文津街馆区设立了备份库。
国图还开发和使用了一种存储技术:缩微胶片。缩微胶片寿命可超过500年,远超光盘。但数字资源转为缩微胶片会损失一些信息,彩色缩微成本也很高昂。
但是这些方法,要保存浩如烟海的互联网信息,远远不够。有时一个项目存储的光盘,就达到数百个,存储空间也是大问题。
廖永霞说,国外和国内互联网公司的信息存储很多使用的也是较为传统的方法,例如磁带库。纵观全球,目前没有也不可能提出终极技术方案,因为技术仍在快速发展中。
释疑3:哪些互联网信息已经被保存?
——全国公共图书馆采集网站23000余个,所有政府网站内容纳入保存
全球互联网信息保存历史已有20余年。
1996年,非营利机构IA(Internet Archive)在美国成立,目标是实现全球互联网信息的收集、存储和获取。2003年6月,12个国家机构成立国际互联网保存联盟(IIPC),中国国家图书馆于2007年加入。
此前国图已经采集保存国内政府网站数据,建立中国政府公开信息整合服务平台。来源:国家图书馆
从2003年起,国图开始尝试对互联网资源进行采集和保存。2009年,国图互联网信息保存保护中心成立,对国内外政治、经济、文化、科技等领域重要网站和重大专题资源进行采集保存。截至2018年,全国各级公共图书馆累计采集网站23000余个。
据国图副馆长孙一钢介绍,目前国图已经对全国所有政府网站进行采集,并按专题采集国内外互联网上与中国大事件有关的内容,例如非典、汶川地震、北京奥运会等,“一带一路”等当下热点专题也在持续制作中。
新京报记者倪伟编辑姜慧梓校对郭利琴