热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

中国要给博文“建档”,美国“存储Twitter”有何启示?

4月19日,“国家图书馆互联网信息战略保存项目”在北京启动。这个项目的名字有些让人费解,国家图书馆与互联网信息怎么会联系在一起,还要战略保

4月19日,“国家图书馆互联网信息战略保存项目”在北京启动。

watermark,image_bG9nby9jc2RuXzEucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLGhfNTY=,g_se,x_0,y_0,t_100

这个项目的名字有些让人费解,国家图书馆与互联网信息怎么会联系在一起,还要战略保存呢?这要从图书馆的变迁说起。

图书馆存储公共数字资源

查一下国家图书馆的百度百科就能知道所以然。

国家图书馆是世界最大、最先进的国家图书馆之一,也是亚洲最大图书馆。互联网时代,随着信息创造、传播和存储的数字化,国家图书馆与时俱进,1995年就按照数字化、网络化建设的思路,制定了《国家图书馆网络建设发展规划(1997-2000)》。2001年11月,国家图书馆二期工程暨国家数字图书馆工程正式立项。截至2017年12月,馆藏数字资源总量达1323.35TB,包括电子图书、期刊、报纸、特藏专藏和视听文献。

watermark,image_bG9nby9jc2RuXzEucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLGhfNjI=,g_se,x_0,y_0,t_100

换言之,图书馆早已不是人们印象中的一个存满纸质图书的物理空间,而是一个以各种载体储存人类创作信息的地方,图书馆的本质就是信息存储空间。在软件工程里面,library也有“信息库”的意思,它包含构建应用所需的一切,如源代码、资源文件等等。我大学读的是软件工程,一个室友留校在图书馆工作,当初以为他放弃了本业,现在看来,我误会他了,图书馆数字化的大趋势下,计算机、信息化、数字化都变得越来越重要。

互联网公司有海量信息存储在自己的数据库,就像人人家里都有藏书一样,但在社会中扮演书籍收藏和公共文化服务的则是图书馆,这样再来看“国家图书馆互联网信息战略保存项目”就更容易理解。

按照官方说法:

“国家图书馆互联网信息战略保存项目”是一个旨在“建设覆盖全国的分级分布式中文互联网信息资源采集与保存体系,通过与国内重点数字文化生产和保存机构的合作,推动互联网信息的社会化保存与服务,构建国家互联网信息资源战略保障体系。”

翻译一下,就是国家图书馆启动一个项目,希望可以采集和存储有价值的中文互联网信息,再将这些信息用于社会,比如政策决策和学术研究等非商业用途。

用国家图书馆官方公布的话术来说就是:

“互联网信息成为人类文明和社会记忆的新载体,客观反映着一定时期内政治、经济、文化和社会等方面的变迁。易逝性和不可再生性,使互联网信息的采集和保存尤为迫切,而随着移动互联网和物联网的普及,互联网信息的规模爆炸式增长,调动社会力量参与也成为互联网信息采集和保存的趋势。”

watermark,image_bG9nby9jc2RuXzEucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLGhfNjI=,g_se,x_0,y_0,t_100

现已成为阿里副总裁的涂子沛在《大数据》一书也曾分享,美国政府运转的底层基础其实就是数据,“社会计算是大数据时代最大的亮点。”这本书拿到了国家图书馆文津图书奖,想必对国家图书馆管理层也有所启发。

国家图书馆从2003年开始尝试对互联网资源进行采集和保存,2009年成立互联网信息保存保护中心,对国内外政治、经济、文化、科技等领域重要网站和重大专题资源进行采集保存,截至2018年,全国各级公共图书馆累计采集网站23000余个。“推进数字资源建设与保存工作”是国家图书馆“十三五”规划的重要工作之一。在这样的整体规划下,国家图书馆启动了互联网信息战略保存项目。

首家互联网信息战略保存基地同日在新浪挂牌,由国家图书馆与新浪共建。国家图书馆相关负责人透露:

“在中国境内开展互联网业务、并在相关领域处于领先地位的企业机构,均可申请成为互联网信息战略保存基地共建主体。共建主体需确保其提供的信息数据完整、有效、安全,并拥有合法所有权、知识产权或已获得相应授权。”

换言之,大多数互联网公司都可加入这一项目,这是国家图书馆牵头的一次社会化数据共享、存储和应用实验。

美国国会图书馆存储Twitter

美国图书馆行业一直走在世界前列,一方面,图书馆历史久、数量多、规格高,比如每个大城市都有历史古老且富丽堂皇的公共图书馆,很多城市图书馆已成为旅游者打卡地。另一方面,受益于发达的IT产业,图书馆拥抱数字化技术较为积极。

美国国会图书馆是美国四个官方国家图书馆之一,是美国历史最悠久的联邦文化机构,已经成为世界上最大的知识宝库。2010年,它就与Twitter达成一项合作协议,后者向前者提供所有公开的推文,已被删除和屏蔽的除外,其认为,Twitter上简短的信息可以将“国家故事”中微小、但却非常重要的部分反映出来。

watermark,image_bG9nby9jc2RuXzEucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLGhfNTQ=,g_se,x_0,y_0,t_100

美国国会图书馆与Twitter的“Twitter保存项目”通过总部位于科罗拉多州博尔德市的社交媒体聚合网站Gnip落地,Gnip发现要做好这件看似简单的“信息存储”的事并不容易。

首先,数据高速膨胀。项目启动三年后,2013年Gnip终于实现了对1700亿条推文的存储,当时已需要每天存储用户创造的4亿条内容,这对存储空间的消耗十分惊人。移动互联网时代,随着越来越多人使用Twitter,每天产生的内容高速膨胀,而且短视频等新的内容形式被不断引入——数据大爆炸是整个互联网面临的问题。

其次,数据峰值问题。Gnip直言,这一项目真正的挑战来自高峰时期对tweets 的收集,比如2011年3月日本海啸期等事件的爆发,当时,每秒钟产生的tweet信息数量有好几千。

再次,数据利用问题。碎片化的数据多且杂,要利用它们就需要大数据挖掘等技术。美国国会图书馆的想法是,先把数据存下来再说,怎么用来不及考虑,甚至连归类都来不及做,到现在,这些数据也仅仅是存储下来而已。

最后,数据开放问题。既然是公共图书馆,最大价值就是对全社会开放,数字内容也不例外。在美国国会图书馆启动“Twitter保存项目”后,全世界研究人员都很感兴趣,他们很快收到来自世界各地研究人员的约400个查询请求,查询的主题涉及文化、政治、医疗、经济等诸多方面,然而数据量太大,技术实现不了——即使对2006年和2010年间产生的tweet查阅一边也需要24个小时。

watermark,image_bG9nby9jc2RuXzEucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLGhfMzc=,g_se,x_0,y_0,t_100

美国国会图书馆在2013年公布的白皮书中写到:

“让研究人员获得这些数据的技术水平要明显落后于这些数据的产生和传播的技术水平。现在技术不足,而开发这些技术的成本非常高。”

当时,美国政府开始推行财政紧缩政策,国会图书馆经费紧张,此前其在数据收集上已花费一大笔资金,没有更多资金投入到数据的挖掘、利用和开放上。2018年,这一项目再次遇到困难,Twitter信息爆炸式增长,服务器不堪重负,美国国会图书馆表示将不再收集Twitter上所有公开推文,而是保存他们认为重要的(比如特朗普的?),到现在为止,这一项目也仅限于数据存储,依然未能实现对数据的挖掘、利用和开放,当然我们不用怀疑这样做的价值:数据就是资产,未来终可挖掘。

不只是美国,澳大利亚、法国、瑞典和荷兰等国都在90年代启动了国家级的互联网数据收集策略,相对而言,中国“国家图书馆互联网信息战略保存项目”虽然来得较晚,却有望基于当下更加成熟的技术和更加独特的模式,实现互联网信息存储、利用和开放的多赢。

国家图书馆凭什么存储整个互联网?

或许是看到了美国国会图书馆与Twitter合作遇到的困难,“国家图书馆互联网信息战略保存项目”采取了截然不同的模式。

与美国国会图书馆将Twitter内容存储到合作方的服务器不同,“国家图书馆互联网信息战略保存项目”采取社会化、分布式和分级式的数据保存机制,国家图书馆根据保存规范、数据遴选机制和服务需要提供使用需求,互联网公司负责内容存储,这样可以避免数据的重复存储。

将所有互联网数据进行二次存储本身就不现实。互联网内容十分多元,比如首家参与到这一项目的微博,覆盖的数据类型比Twitter更多样,不只是有短文字,还有短视频、图片和文章等大杂烩内容,财报显示,2018年12月微博月活已达4.62亿,12月日均活跃用户数突破2亿关口,微博上的存量内容,截至2018年12月已有多达2000多亿条博文、500多亿张图片、4亿个视频和近5000亿互动,每天博文增量超过1亿,数据量巨大。如此海量数据,再转存到单独服务器即不可能,亦无必要。

正是基于社会化存储的模式,“国家图书馆互联网信息战略保存项目”不像美国国会图书馆只与Twitter一样“点对点”合作,而是“点对多”合作。国家图书馆牵头,任何符合条件的互联网公司都可申请加入其中。随着移动互联网的普及,互联网正时时刻刻对真实世界进行映射,不仅是微博的博文,快手记录真实世界的短视频、知乎的帖子,都是宝贵的社会信息资源,都可以成为“国家图书馆互联网信息战略保存项目”保存的目标。

尤为重要的是,“国家图书馆互联网信息战略保存项目”不只是单纯地保存数据,而是“保存、利用和开放”三管旗下,国家图书馆擅长的是学术和公信力,而不是技术,因此具体的应用依然是国图提需求,互联网公司负责信息处理。

watermark,image_bG9nby9jc2RuXzEucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLGhfNjI=,g_se,x_0,y_0,t_100

比如在与新浪的合作中,互联网数据分析报告、政府公开信息分析报告、社会群体的公益性信息服务,都有可能成为这些信息的用途。今天,AI技术特别是自然语言处理技术比前几年已经成熟很多,拥有信息流、搜索等业务的微博和新浪在自然语言处理技术上也有深厚积累,这意味着,它们有能力对平台上的海量互联网内容进行挖掘,满足公共社会的非商业公益查询需求。

从“国家图书馆互联网信息战略保存项目”的设计来看,应该是看到美国国会图书馆与Twitter的合作模式的弊端后,进行的全新机制设计。虽然这一项目没有形式上的“保存”,但事实上却实现了互联网公开信息的“归档”,同时可以实现利用和开放。

跟美国国会图书馆看中Twitter“小却重要”内容能反映社会进程的逻辑一样,国家图书馆首先与微博合作也是看中其UGC社会化属性。微博上每个用户以不同形式从个体视角记录生活、探索世界和讨论话题,形成了海量信息,这部分信息和其他互联网平台的信息是差异化的,而在国家图书馆此前对互联网信息的采集和保护中,这类信息也不是重点,是从结构上丰富了国家图书馆的馆藏信息,所以具有更大的价值。

不仅如此,最近几年已经发生过很多因为公众在微博上的参与而引起关注、最后推动事件获得解决的案例,比如2017年网友举报有人驾驶越野车追赶藏羚羊的案件、2018年的“疫苗造假事件”等。可以说,微博不但是能全面反映社会发展进程的互联网平台,而且用户在微博上发布的内容,本身就是社会发展进程的一部分。这种独特的价值是其他平台无法取代的。

如果“国家图书馆互联网信息战略保存项目”项目能够成功,对于很多已经和即将开展互联网信息保存的国家来说,应该会成为又一个“中国式样本”。

如果觉得文章不错,可以+我luochaozhuli进群(备注:进群)交流。

欢迎关注 BT商业科技(bttimes)



推荐阅读
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • 解决Cydia数据库错误:could not open file /var/lib/dpkg/status 的方法
    本文介绍了解决iOS系统中Cydia数据库错误的方法。通过使用苹果电脑上的Impactor工具和NewTerm软件,以及ifunbox工具和终端命令,可以解决该问题。具体步骤包括下载所需工具、连接手机到电脑、安装NewTerm、下载ifunbox并注册Dropbox账号、下载并解压lib.zip文件、将lib文件夹拖入Books文件夹中,并将lib文件夹拷贝到/var/目录下。以上方法适用于已经越狱且出现Cydia数据库错误的iPhone手机。 ... [详细]
  • 本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面,并总结了项目存在的问题,如前后端未分离、代码混乱等。作者表示希望通过记录和规划,能够理清思路,进一步完善该平台。 ... [详细]
  • 树莓派语音控制的配置方法和步骤
    本文介绍了在树莓派上实现语音控制的配置方法和步骤。首先感谢博主Eoman的帮助,文章参考了他的内容。树莓派的配置需要通过sudo raspi-config进行,然后使用Eoman的控制方法,即安装wiringPi库并编写控制引脚的脚本。具体的安装步骤和脚本编写方法在文章中详细介绍。 ... [详细]
  • 分享css中提升优先级属性!important的用法总结
    web前端|css教程css!importantweb前端-css教程本文分享css中提升优先级属性!important的用法总结微信门店展示源码,vscode如何管理站点,ubu ... [详细]
  • Python脚本编写创建输出数据库并添加模型和场数据的方法
    本文介绍了使用Python脚本编写创建输出数据库并添加模型数据和场数据的方法。首先导入相应模块,然后创建输出数据库并添加材料属性、截面、部件实例、分析步和帧、节点和单元等对象。接着向输出数据库中添加场数据和历程数据,本例中只添加了节点位移。最后保存数据库文件并关闭文件。文章还提供了部分代码和Abaqus操作步骤。另外,作者还建立了关于Abaqus的学习交流群,欢迎加入并提问。 ... [详细]
  • 如何实现织梦DedeCms全站伪静态
    本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态,以提高管理和SEO效果。全站伪静态可以避免重复URL的问题,同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式,可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具,如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]
  • Nginx使用AWStats日志分析的步骤及注意事项
    本文介绍了在Centos7操作系统上使用Nginx和AWStats进行日志分析的步骤和注意事项。通过AWStats可以统计网站的访问量、IP地址、操作系统、浏览器等信息,并提供精确到每月、每日、每小时的数据。在部署AWStats之前需要确认服务器上已经安装了Perl环境,并进行DNS解析。 ... [详细]
  • 基于PgpoolII的PostgreSQL集群安装与配置教程
    本文介绍了基于PgpoolII的PostgreSQL集群的安装与配置教程。Pgpool-II是一个位于PostgreSQL服务器和PostgreSQL数据库客户端之间的中间件,提供了连接池、复制、负载均衡、缓存、看门狗、限制链接等功能,可以用于搭建高可用的PostgreSQL集群。文章详细介绍了通过yum安装Pgpool-II的步骤,并提供了相关的官方参考地址。 ... [详细]
  • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
  • 本文介绍了计算机网络的定义和通信流程,包括客户端编译文件、二进制转换、三层路由设备等。同时,还介绍了计算机网络中常用的关键词,如MAC地址和IP地址。 ... [详细]
  • 本文介绍了通过ABAP开发往外网发邮件的需求,并提供了配置和代码整理的资料。其中包括了配置SAP邮件服务器的步骤和ABAP写发送邮件代码的过程。通过RZ10配置参数和icm/server_port_1的设定,可以实现向Sap User和外部邮件发送邮件的功能。希望对需要的开发人员有帮助。摘要长度:184字。 ... [详细]
  • Python瓦片图下载、合并、绘图、标记的代码示例
    本文提供了Python瓦片图下载、合并、绘图、标记的代码示例,包括下载代码、多线程下载、图像处理等功能。通过参考geoserver,使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法,供读者参考使用。 ... [详细]
  • SEEBURGER SAP GTS解决方案:数字化助力企业实现海关流程数字化
    SEEBURGER作为SAP的合作伙伴,在2019 SAP GTS信息交流会上分享了SEEBURGER SAP GTS解决方案的应用案例,介绍了如何利用数字化助力企业实现海关流程数字化。SEEBURGER的集成技术和解决方案支持SAP GTS产品和服务的推广及应用,通过数据通讯和报文格式转换满足与海关当局的电子数据交换需求。该解决方案能够帮助企业管理全球贸易,保证贸易规范,优化跨境供应链,提升企业合规性。 ... [详细]
author-avatar
mobiledu2502887531
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有