中国要给博文“建档”，美国“存储Twitter”有何启示？

作者：mobiledu2502887531 | 来源：互联网 | 2023-07-25 16:26

4月19日，“国家图书馆互联网信息战略保存项目”在北京启动。这个项目的名字有些让人费解，国家图书馆与互联网信息怎么会联系在一起，还要战略保

4月19日&＃xff0c;“国家图书馆互联网信息战略保存项目”在北京启动。

watermark,image_bG9nby9jc2RuXzEucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLGhfNTY&＃61;,g_se,x_0,y_0,t_100

这个项目的名字有些让人费解&＃xff0c;国家图书馆与互联网信息怎么会联系在一起&＃xff0c;还要战略保存呢&＃xff1f;这要从图书馆的变迁说起。

图书馆存储公共数字资源

查一下国家图书馆的百度百科就能知道所以然。

国家图书馆是世界最大、最先进的国家图书馆之一&＃xff0c;也是亚洲最大图书馆。互联网时代&＃xff0c;随着信息创造、传播和存储的数字化&＃xff0c;国家图书馆与时俱进&＃xff0c;1995年就按照数字化、网络化建设的思路&＃xff0c;制定了《国家图书馆网络建设发展规划&＃xff08;1997-2000&＃xff09;》。2001年11月&＃xff0c;国家图书馆二期工程暨国家数字图书馆工程正式立项。截至2017年12月&＃xff0c;馆藏数字资源总量达1323.35TB&＃xff0c;包括电子图书、期刊、报纸、特藏专藏和视听文献。

watermark,image_bG9nby9jc2RuXzEucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLGhfNjI&＃61;,g_se,x_0,y_0,t_100

换言之&＃xff0c;图书馆早已不是人们印象中的一个存满纸质图书的物理空间&＃xff0c;而是一个以各种载体储存人类创作信息的地方&＃xff0c;图书馆的本质就是信息存储空间。在软件工程里面&＃xff0c;library也有“信息库”的意思&＃xff0c;它包含构建应用所需的一切&＃xff0c;如源代码、资源文件等等。我大学读的是软件工程&＃xff0c;一个室友留校在图书馆工作&＃xff0c;当初以为他放弃了本业&＃xff0c;现在看来&＃xff0c;我误会他了&＃xff0c;图书馆数字化的大趋势下&＃xff0c;计算机、信息化、数字化都变得越来越重要。

互联网公司有海量信息存储在自己的数据库&＃xff0c;就像人人家里都有藏书一样&＃xff0c;但在社会中扮演书籍收藏和公共文化服务的则是图书馆&＃xff0c;这样再来看“国家图书馆互联网信息战略保存项目”就更容易理解。

按照官方说法&＃xff1a;

“国家图书馆互联网信息战略保存项目”是一个旨在“建设覆盖全国的分级分布式中文互联网信息资源采集与保存体系&＃xff0c;通过与国内重点数字文化生产和保存机构的合作&＃xff0c;推动互联网信息的社会化保存与服务&＃xff0c;构建国家互联网信息资源战略保障体系。”

翻译一下&＃xff0c;就是国家图书馆启动一个项目&＃xff0c;希望可以采集和存储有价值的中文互联网信息&＃xff0c;再将这些信息用于社会&＃xff0c;比如政策决策和学术研究等非商业用途。

用国家图书馆官方公布的话术来说就是&＃xff1a;

“互联网信息成为人类文明和社会记忆的新载体&＃xff0c;客观反映着一定时期内政治、经济、文化和社会等方面的变迁。易逝性和不可再生性&＃xff0c;使互联网信息的采集和保存尤为迫切&＃xff0c;而随着移动互联网和物联网的普及&＃xff0c;互联网信息的规模爆炸式增长&＃xff0c;调动社会力量参与也成为互联网信息采集和保存的趋势。”

现已成为阿里副总裁的涂子沛在《大数据》一书也曾分享&＃xff0c;美国政府运转的底层基础其实就是数据&＃xff0c;“社会计算是大数据时代最大的亮点。”这本书拿到了国家图书馆文津图书奖&＃xff0c;想必对国家图书馆管理层也有所启发。

国家图书馆从2003年开始尝试对互联网资源进行采集和保存&＃xff0c;2009年成立互联网信息保存保护中心&＃xff0c;对国内外政治、经济、文化、科技等领域重要网站和重大专题资源进行采集保存&＃xff0c;截至2018年&＃xff0c;全国各级公共图书馆累计采集网站23000余个。“推进数字资源建设与保存工作”是国家图书馆“十三五”规划的重要工作之一。在这样的整体规划下&＃xff0c;国家图书馆启动了互联网信息战略保存项目。

首家互联网信息战略保存基地同日在新浪挂牌&＃xff0c;由国家图书馆与新浪共建。国家图书馆相关负责人透露&＃xff1a;

“在中国境内开展互联网业务、并在相关领域处于领先地位的企业机构&＃xff0c;均可申请成为互联网信息战略保存基地共建主体。共建主体需确保其提供的信息数据完整、有效、安全&＃xff0c;并拥有合法所有权、知识产权或已获得相应授权。”

换言之&＃xff0c;大多数互联网公司都可加入这一项目&＃xff0c;这是国家图书馆牵头的一次社会化数据共享、存储和应用实验。

美国国会图书馆存储Twitter

美国图书馆行业一直走在世界前列&＃xff0c;一方面&＃xff0c;图书馆历史久、数量多、规格高&＃xff0c;比如每个大城市都有历史古老且富丽堂皇的公共图书馆&＃xff0c;很多城市图书馆已成为旅游者打卡地。另一方面&＃xff0c;受益于发达的IT产业&＃xff0c;图书馆拥抱数字化技术较为积极。

美国国会图书馆是美国四个官方国家图书馆之一,是美国历史最悠久的联邦文化机构,已经成为世界上最大的知识宝库。2010年&＃xff0c;它就与Twitter达成一项合作协议&＃xff0c;后者向前者提供所有公开的推文&＃xff0c;已被删除和屏蔽的除外&＃xff0c;其认为&＃xff0c;Twitter上简短的信息可以将“国家故事”中微小、但却非常重要的部分反映出来。

watermark,image_bG9nby9jc2RuXzEucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLGhfNTQ&＃61;,g_se,x_0,y_0,t_100

美国国会图书馆与Twitter的“Twitter保存项目”通过总部位于科罗拉多州博尔德市的社交媒体聚合网站Gnip落地&＃xff0c;Gnip发现要做好这件看似简单的“信息存储”的事并不容易。

首先&＃xff0c;数据高速膨胀。项目启动三年后&＃xff0c;2013年Gnip终于实现了对1700亿条推文的存储&＃xff0c;当时已需要每天存储用户创造的4亿条内容&＃xff0c;这对存储空间的消耗十分惊人。移动互联网时代&＃xff0c;随着越来越多人使用Twitter&＃xff0c;每天产生的内容高速膨胀&＃xff0c;而且短视频等新的内容形式被不断引入——数据大爆炸是整个互联网面临的问题。

其次&＃xff0c;数据峰值问题。Gnip直言&＃xff0c;这一项目真正的挑战来自高峰时期对tweets 的收集&＃xff0c;比如2011年3月日本海啸期等事件的爆发&＃xff0c;当时&＃xff0c;每秒钟产生的tweet信息数量有好几千。

再次&＃xff0c;数据利用问题。碎片化的数据多且杂&＃xff0c;要利用它们就需要大数据挖掘等技术。美国国会图书馆的想法是&＃xff0c;先把数据存下来再说&＃xff0c;怎么用来不及考虑&＃xff0c;甚至连归类都来不及做&＃xff0c;到现在&＃xff0c;这些数据也仅仅是存储下来而已。

最后&＃xff0c;数据开放问题。既然是公共图书馆&＃xff0c;最大价值就是对全社会开放&＃xff0c;数字内容也不例外。在美国国会图书馆启动“Twitter保存项目”后&＃xff0c;全世界研究人员都很感兴趣&＃xff0c;他们很快收到来自世界各地研究人员的约400个查询请求&＃xff0c;查询的主题涉及文化、政治、医疗、经济等诸多方面&＃xff0c;然而数据量太大&＃xff0c;技术实现不了——即使对2006年和2010年间产生的tweet查阅一边也需要24个小时。

watermark,image_bG9nby9jc2RuXzEucG5nP3gtb3NzLXByb2Nlc3M9aW1hZ2UvcmVzaXplLGhfMzc&＃61;,g_se,x_0,y_0,t_100

美国国会图书馆在2013年公布的白皮书中写到&＃xff1a;

“让研究人员获得这些数据的技术水平要明显落后于这些数据的产生和传播的技术水平。现在技术不足&＃xff0c;而开发这些技术的成本非常高。”

当时&＃xff0c;美国政府开始推行财政紧缩政策&＃xff0c;国会图书馆经费紧张&＃xff0c;此前其在数据收集上已花费一大笔资金&＃xff0c;没有更多资金投入到数据的挖掘、利用和开放上。2018年&＃xff0c;这一项目再次遇到困难&＃xff0c;Twitter信息爆炸式增长&＃xff0c;服务器不堪重负&＃xff0c;美国国会图书馆表示将不再收集Twitter上所有公开推文&＃xff0c;而是保存他们认为重要的&＃xff08;比如特朗普的&＃xff1f;&＃xff09;&＃xff0c;到现在为止&＃xff0c;这一项目也仅限于数据存储&＃xff0c;依然未能实现对数据的挖掘、利用和开放&＃xff0c;当然我们不用怀疑这样做的价值&＃xff1a;数据就是资产&＃xff0c;未来终可挖掘。

不只是美国&＃xff0c;澳大利亚、法国、瑞典和荷兰等国都在90年代启动了国家级的互联网数据收集策略&＃xff0c;相对而言&＃xff0c;中国“国家图书馆互联网信息战略保存项目”虽然来得较晚&＃xff0c;却有望基于当下更加成熟的技术和更加独特的模式&＃xff0c;实现互联网信息存储、利用和开放的多赢。

国家图书馆凭什么存储整个互联网&＃xff1f;

或许是看到了美国国会图书馆与Twitter合作遇到的困难&＃xff0c;“国家图书馆互联网信息战略保存项目”采取了截然不同的模式。

与美国国会图书馆将Twitter内容存储到合作方的服务器不同&＃xff0c;“国家图书馆互联网信息战略保存项目”采取社会化、分布式和分级式的数据保存机制&＃xff0c;国家图书馆根据保存规范、数据遴选机制和服务需要提供使用需求&＃xff0c;互联网公司负责内容存储&＃xff0c;这样可以避免数据的重复存储。

将所有互联网数据进行二次存储本身就不现实。互联网内容十分多元&＃xff0c;比如首家参与到这一项目的微博&＃xff0c;覆盖的数据类型比Twitter更多样&＃xff0c;不只是有短文字&＃xff0c;还有短视频、图片和文章等大杂烩内容&＃xff0c;财报显示&＃xff0c;2018年12月微博月活已达4.62亿&＃xff0c;12月日均活跃用户数突破2亿关口&＃xff0c;微博上的存量内容&＃xff0c;截至2018年12月已有多达2000多亿条博文、500多亿张图片、4亿个视频和近5000亿互动&＃xff0c;每天博文增量超过1亿&＃xff0c;数据量巨大。如此海量数据&＃xff0c;再转存到单独服务器即不可能&＃xff0c;亦无必要。

正是基于社会化存储的模式&＃xff0c;“国家图书馆互联网信息战略保存项目”不像美国国会图书馆只与Twitter一样“点对点”合作&＃xff0c;而是“点对多”合作。国家图书馆牵头&＃xff0c;任何符合条件的互联网公司都可申请加入其中。随着移动互联网的普及&＃xff0c;互联网正时时刻刻对真实世界进行映射&＃xff0c;不仅是微博的博文&＃xff0c;快手记录真实世界的短视频、知乎的帖子&＃xff0c;都是宝贵的社会信息资源&＃xff0c;都可以成为“国家图书馆互联网信息战略保存项目”保存的目标。

尤为重要的是&＃xff0c;“国家图书馆互联网信息战略保存项目”不只是单纯地保存数据&＃xff0c;而是“保存、利用和开放”三管旗下&＃xff0c;国家图书馆擅长的是学术和公信力&＃xff0c;而不是技术&＃xff0c;因此具体的应用依然是国图提需求&＃xff0c;互联网公司负责信息处理。

比如在与新浪的合作中&＃xff0c;互联网数据分析报告、政府公开信息分析报告、社会群体的公益性信息服务&＃xff0c;都有可能成为这些信息的用途。今天&＃xff0c;AI技术特别是自然语言处理技术比前几年已经成熟很多&＃xff0c;拥有信息流、搜索等业务的微博和新浪在自然语言处理技术上也有深厚积累&＃xff0c;这意味着&＃xff0c;它们有能力对平台上的海量互联网内容进行挖掘&＃xff0c;满足公共社会的非商业公益查询需求。

从“国家图书馆互联网信息战略保存项目”的设计来看&＃xff0c;应该是看到美国国会图书馆与Twitter的合作模式的弊端后&＃xff0c;进行的全新机制设计。虽然这一项目没有形式上的“保存”&＃xff0c;但事实上却实现了互联网公开信息的“归档”&＃xff0c;同时可以实现利用和开放。

跟美国国会图书馆看中Twitter“小却重要”内容能反映社会进程的逻辑一样&＃xff0c;国家图书馆首先与微博合作也是看中其UGC社会化属性。微博上每个用户以不同形式从个体视角记录生活、探索世界和讨论话题&＃xff0c;形成了海量信息&＃xff0c;这部分信息和其他互联网平台的信息是差异化的&＃xff0c;而在国家图书馆此前对互联网信息的采集和保护中&＃xff0c;这类信息也不是重点&＃xff0c;是从结构上丰富了国家图书馆的馆藏信息&＃xff0c;所以具有更大的价值。

不仅如此&＃xff0c;最近几年已经发生过很多因为公众在微博上的参与而引起关注、最后推动事件获得解决的案例&＃xff0c;比如2017年网友举报有人驾驶越野车追赶藏羚羊的案件、2018年的“疫苗造假事件”等。可以说&＃xff0c;微博不但是能全面反映社会发展进程的互联网平台&＃xff0c;而且用户在微博上发布的内容&＃xff0c;本身就是社会发展进程的一部分。这种独特的价值是其他平台无法取代的。

如果“国家图书馆互联网信息战略保存项目”项目能够成功&＃xff0c;对于很多已经和即将开展互联网信息保存的国家来说&＃xff0c;应该会成为又一个“中国式样本”。

如果觉得文章不错&＃xff0c;可以&＃43;我luochaozhuli进群&＃xff08;备注&＃xff1a;进群&＃xff09;交流。

欢迎关注 BT商业科技&＃xff08;bttimes&＃xff09;

推荐阅读

go
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
php
PHP网站日志深度解析与数据洞察分析

通过对PHP网站日志进行深入解析与数据洞察分析，可以有效提升网站性能和用户体验。由于网站日志数据量庞大，通常需要借助专业的日志分析工具来处理。常用的工具包括光年日志分析工具和WebLog Expert等，这些工具能够帮助技术人员快速识别并解决网站运行中的各种问题，从而优化SEO效果和提升整体运营效率。 ... [详细]

蜡笔小新 2024-11-06 13:33:02
php
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
php
基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装

一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012，引入SQLServer2012群集提高高可用性，需要对SQLServ ... [详细]

蜡笔小新 2024-11-13 15:49:49
go
用阿里云的免费 SSL 证书让网站从 HTTP 换成 HTTPS

HTTP协议是不加密传输数据的，也就是用户跟你的网站之间传递数据有可能在途中被截获，破解传递的真实内容，所以使用不加密的HTTP的网站是不 ... [详细]

蜡笔小新 2024-11-13 14:02:50
go
微信小程序详解：概念、功能与优势

微信公众平台近期向200位开发者发送了小程序的内测邀请。许多人对微信小程序的概念还不是很清楚。本文将详细介绍微信小程序的定义、功能及其独特优势。 ... [详细]

蜡笔小新 2024-11-12 19:35:21
go
微信公众号推送模板40036问题

返回码错误码描述说明40001invalidcredential不合法的调用凭证40002invalidgrant_type不合法的grant_type40003invalidop ... [详细]

蜡笔小新 2024-11-12 16:31:32
go
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
go
在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧

在 CentOS 7 环境中安装和配置 Redis 时，需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程，并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外，还探讨了如何优化性能和确保数据安全，帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]

蜡笔小新 2024-11-11 18:27:44
php
PHP 各版本对比：标准版与最新顶级版的详细分析

PHP 各版本对比：标准版与最新顶级版的详细分析 ... [详细]

蜡笔小新 2024-11-11 13:23:25
php
Webdriver中元素定位的多种技术与策略

在Webdriver中，元素定位是自动化测试的关键环节。本文详细介绍了8种常用的元素定位技术与策略，包括ID、名称、标签名、类名、链接文本、部分链接文本、XPath和CSS选择器。每种方法都有其独特的优势和适用场景，通过合理选择和组合使用，可以显著提高测试脚本的稳定性和效率。此外，文章还探讨了在复杂页面结构中如何灵活运用这些定位技术，以应对各种挑战。 ... [详细]

蜡笔小新 2024-11-11 11:34:38
function
如何在PHP中准确获取服务器IP地址？

如何在PHP中准确获取服务器IP地址？ ... [详细]

蜡笔小新 2024-11-10 15:17:16
process
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
process
2021年Java开发实战：当前时间戳转换方法详解与实用网址推荐

在当前的就业市场中，金九银十过后，金三银四也即将到来。本文将分享一些实用的面试技巧和题目，特别是针对正在寻找新工作机会的Java开发者。作者在准备字节跳动的面试过程中积累了丰富的经验，并成功获得了Offer。文中详细介绍了如何将当前时间戳进行转换的方法，并推荐了一些实用的在线资源，帮助读者更好地应对技术面试。 ... [详细]

蜡笔小新 2024-11-08 22:43:32
solr
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03

mobiledu2502887531

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章