专题│大数据出版之数值型数据的应用探索——以中国口岸数据库和中国海关统计数据库为例

花语        2019-08-13   来源:桓文瑶爱宠物
更多精彩推荐,请关注我们



本文刊载于《科技与出版》2018年第12期P90-95

如果您喜欢,欢迎转发至朋友圈

订购我刊,邮发代号:82-655



刘 冬1) 刘更新1) 黄祖一2)

1)中国海关出版社,北京

2) 中文在线数字出版集团股份有限公司,北京




为便于阅读,《科技与出版》制作了文章的思维导图


点击看大图




以下进入文章全文阅读 


   文章7170字 约41分钟


摘 要 “大数据出版”一词始于2013年,近年也有学者陆续进行研究,但研究多在理论和过程层面,少有以大数据置于出版底层思维的方式对出版路径变革进行思考。本文以数值型数据为例,梳理出版路径的变化,总结了其在大数据思维方式下的应用经验,验证了大数据出版对于数值型数据应用的合理性和可行性,呼吁在出版机构知识服务转型的背景下,通过大数据出版的方式,发挥数值型数据的出版价值。


关键词 财务管理;财务人员;资金收益率;财务事务;出版社





1 “大数据出版”研究的发展回溯


1.1 行业管理部门对大数据应用的推进


原国家新闻出版广电总局在2013年开始对大数据相关技术体系在新闻出版领域的应用趋势开展专题研究,形成预研究报告。原国家新闻出版广电总局根据国务院2015年印发的《促进大数据发展行动纲要》的部署,依据国家“十二五”时期、“十三五”时期文化改革发展规划纲要以及《新闻出版业“十三五”时期发展规划》,整合已有相关工作成果,于2016年向国家发改委申报“新闻出版大数据应用工程”,并于2017年获得批复立项,目前由原国家新闻出版广电总局信息中心、中国新闻出版研究院、中国音像与数字出版协会共同负责实施。[1]


至此,大数据对于出版业,从猜想到研究直到落地实施,已经真正成为影响出版业数字化转型升级的一把利器。


1.2 关于“出版业大数据思维”


任何一种新概念的出现都可能为行业的变革提供机会,而机会是否能真正出现,取决于底层思维是否发生了迭代,用于指导实践工作的理念是否因为这种概念的出现发生了质变,自2013年至今,很少有人将大数据置于底层思维去分析其作用于出版业的意义。从出版业的角度看,笔者认为,出版人应当树立“出版业大数据思维”,其特点可以归纳为以下三点。


(1)数据规模与数据量不贪大唯多。大数据时代的特点之一就是拥有大量的数据,但是对于大数据思维来说,数据量一定要有,“大”与“小”却是相对的,数据规模未必绝对的大。针对某一专业、某一领域的小规模数据量也可以运用大数据的思维方式操作。思维方式是一种底层逻辑,是指导工作的方法论,在数据量大的时候可以发挥作用,对于小样本但是覆盖面足够的某个领域数据也一样适用。


(2)用尽量多的元数据定义对象,为调取数据提供便利。元数据是对数据的描述,是对数据属性的总结和梳理。支撑互联网发展的技术体系,已经提供了很多可以便捷定义元数据的新工具,提供了储存元数据的新技术和广阔空间,为多角度地描述数据提供了可能性,只有用足够多的元数据去描述对象,才有可能提高对原始数据的基础管理能力,提高对数据间关联关系管理的能力,进而提高数据检索、数据调度的效率和准确率。


(3)从提供数据到提供数据服务。出版机构的内容数据以往多是来自于作者,经年积累而成;而通过对数据进行加工处理使之产品化以后,产生的新知识数据,将是原有数据之外的增量数据。未来,应当将已有独立数据关联起来,挖掘数据关系,从积累数据到训练数据,基于存量数据与增量数据开展数据服务。


1.3 “大数据出版”概念的发展路径


出版业的数据来自于两方面,一方面是主动“生产”的数据,即通过出版这种方式积累下来的内容数据,另一方面是自身的生产活动过程中“产生”的业务数据。这两种数据又各包括了不同的数据,前者包括文字数据、数值数据、图片数据等,后者包括印刷数据、发行数据、码洋数据等。


而“大数据出版”关注的是出版业主动“生产”数据的出版活动。


“大数据出版”一词始于2013年,同方知网技术公司总经理王明亮率先在一次研讨会中提出,后发言被整理发表在2013年8月29日的《中国新闻出版报》上[2],他认为:“大数据出版,不仅改变了出版方式,更可以改变认识方式和研究方式,成为人们探索世界的一种全新的观念和手段。”


在中国知网上以“大数据出版”进行主题检索,发表文章年份自2013年起至2017年,也仅有30篇,可见,目前关于大数据出版的研究还处于起步阶段。


在这期间,一些学者明确提出了“大数据出版”的概念[3,4],在这些研究中,大部分将“大数据出版”置于时代背景下,研究大数据给出版业带来的机遇和挑战,少有从出版业内部着手探讨大数据对出版的驱动力,也少有人研究从底层思维去分析大数据对于出版业的影响。


基于本文提出的“出版业大数据思维”,笔者所说的“大数据出版”是指,运用大数据思维,结合数据使用目的和使用方式,对出版机构的存量数据和增量数据进行加工处理,通过数据分析、数据挖掘等技术,变革内容的使用方式和提供方式,提供数据及超出数据本身意义的服务。


1.4 “大数据出版”在数值型数据出版的应用实践


本文拟集中探讨的,是大数据出版中的数值型数据出版问题。


出版机构的内容数据大多以文字为主,针对文字类数据的大数据思维运用在互联网企业中非常成熟,在首届新闻出版大数据高峰论坛上,获得“大数据平台创新成果奖”的地质出版社、知识产权出版社等传统出版机构开发的产品也已逐渐获得认可,但是针对内容数据中数值型数据的大数据思维应用一直鲜有涉及。


将大数据思维运用于数值型数据,可以得出以下三个结论:


1)小数据样本中的大数据思维更加难能可贵。


整个出版业的内容数据规模也许很大,但由于具体到每个出版机构时,我们只是内容数据的沉淀者,并不是内容数据的直接生产者。每个出版机构可以掌握的数据量,尤其是具体到某一领域,可使用的内容数据规模并不大,如果只是唯“大”,那么出版机构的内容数据和大数据基本无关。但是,一方面,虽然出版机构的样本数据量少但能确保内容的准确性;另一方面,出版机构可以针对小数据的特点设计出更加有针对性的产品。运用出版业大数据思维,将有利于出版机构更好地挖掘出小数据样本的价值。


2)将产生大量的元数据标签。


在图书版权页上, 通过书名、作者、版次、出版机构等信息将这本书区别于那本书,让每一个内容产品在读者眼中都散发出独特的光芒。运用出版业大数据思维,可以为原始的内容数据赋予更多的元数据,这些描述性的元数据不仅仅存在于纸质图书的每一页纸上,更可以通过后台管理的方式,针对同一个内容数据对象,定义并储存无穷多的元数据,只有元数据足够多才能够在搜索的时候精准地提供被检索对象。


在以图书为加工对象的数字加工中,数值型数据所在的篇章节被赋予多个标签。而数值型数据的每个数值其实都是有多重意义的,每个数据和其他数据之间的关联关系更有意义。运用出版业大数据思维,就需要为每个数值进行多维度的元数据描述,这将需要元数据的标签管理后台具备强大的管理能力和运算能力。


3)将为出版机构积累新的增量数据资源。


通过为每个数值赋予大量元数据标签,数值之间的关系得以指数倍的增长,任何两个相同的标签都可以将以前在纸质图书上相隔甚远的两个数字联系到一起,通过运算得出新的结论,原本被纸张束缚在表格的单元格中、束缚在一张纸上的数值,将借助元数据在管理后台实现“解脱”,得以按照千变万化的组合方式被调取,从而产生远远超出纸质表格的价值,这才是出版机构运用出版业大数据思维,作用于已知存量数据上可以获取到的增量数据资源。这些增量资源不但可以对已有数据进行分析,还可以对未来趋势进行预测,这也将成为出版机构自有的数据资源。


2 数值型数据的出版路径


2.1 数值型数据的主要出版方式


传统出版中的数值大部分存在于各种年鉴中,一种是以数值为主导的统计类年鉴;一种是以文字为主导的记录型年鉴,统计数值作为辅助记录,散落于各章,现在绝大多数出版机构的出版方式就是简单地提供数值型数据。


提供数据的出版方式主要有浏览阅读和下载自操作两种。浏览阅读包括纸质浏览和数字浏览,各出版机构除了出版纸质图书以外,还将已经出版的年鉴收录于图书数据库,通过对表头的检索,定位数值所在的表格图片,提供数字阅读。


另一种下载自操作的出版方式可见于“中国统计年鉴数据”和“中国年鉴网络出版总库”,后者由中国知网开发。这两个产品均收录了各种年鉴,前者收录的内容以数值为主,提供方式是EXCEL表,提供途径是销售表格数据;后者收录的内容兼有文字和数值,单篇文字通过CAJ等阅读器下载阅读,数值以EXCEL表提供,提供途径也是付费使用。在这两个数据库中,年鉴资源中的数值数据从图片格式还原到EXCEL表的方式,大大便利了用户的使用,用户只需要掌握EXCEL的操作就可以实现数值的分析操作,而EXCEL作为数据分析的基础工具,可以满足基本的数据分析需求,很多数据分析类工具也可以兼容。


2.2 数值型数据的大数据出版应用探索


2.2.1 产品概述


中国海关出版社在2016年针对数值型数据开始了一系列的探索实践,分别针对纯数值型数据和文字数值混合型数据做了两个探索实例,建设完成了中国海关统计数据库和中国口岸数据库这两个产品。


经过一年的建设,两个产品都已经按照既定的需求建设完成上线运行,实现了数值的数据化工作。产品服务提供已经从静态的纸张阅读变成了动态的数据服务,用户可以在产品中自主检索所需要的数值,即选择指标、地点、时间等字段,产品将在数秒内从数万条数据中检索出目标数据,以EXCEL表的形式提供下载,并以可视化的方式展现出来,可视化的图表均可保存下载至本地。虽然这只是一次探索实践,却验证并坚定了出版机构数值型数据的大数据出版之路。


2.2.2 产品分析


将中国海关出版社大数据出版的探索与“中国统计数据库”和“中国年鉴网络出版总库”对数值的使用方式相比,前者提供数值服务的优势在于:


第一,用户不需要掌握EXCEL的操作,对于简单的数据运算,产品已经具备了基本的数据运算功能,可以直接向用户提供目标数据和直观趋势。


第二,后者数值型数据的出版方式中每个表格都是独立存在的,如果想对数值之间的关系进行分析,就需要再进行大量的基础准备工作,前者方式可以减少用户分析图表、合并表格等的时间,缩短用户使用数据的时间成本。


第三,产品提供下载的EXCEL表是根据用户的目标需求生成,可以为用户再次使用数据提供服务基础。


2.2.3 产品经验


可以说,对于年鉴中的数据使用,从浏览阅读到手动计算到实现产品半自动运算,出版机构的数值型资源在大数据思维的指导下应用得到了提升,但是在工作过程中,也遇到了很多难题,现总结为以下五点经验:


第一,数字加工的OCR识别要求更精准。


文字的OCR识别数字化加工根据内容不同允许有一定的差错率,而数据检验一般只是抽检,文字的个别错误基本不影响上下文的理解,但是对于数值来说,任何一个数值的错误都将“失之毫厘,谬以千里”,因此在数值的OCR识别上,采用了多种方式进行校对。


首先,对已加工数值进行尽可能多地检验。我们对中国口岸数据库的1万余条数据100%进行了人工校对检查。


其次,检验方式多样化。在加工数据导入后台管理系统的时候,如果是文字数据,系统报错多出现于结构化方面;而如果是数值数据,系统报错既可能是因为结构化错误,也有可能是数值处理错误,根据系统提示,就可以发现错误,所以数值导入过程也是检验的一种方式。


第二,数字加工的程序更加复杂。


文字型数据的数字加工程序通常是先制定标准,再通过程序加工,验收后导入产品皆可,而数值型数据的加工更加复杂。


首先,OCR的识别由程序主导转由半人工半程序完成。原纸质版数据的图表想转化成EXCEL表的过程需要半人工半程序来完成,机器只能对文字、数值进行识别,表头部分的制作只能依靠人工。


其次,加工多了一道降维的程序处理。出版机构在年鉴中的图表并不只有二维,有时甚至是三维甚至以上,将多个指标与时间、地点混合到了一起,这样的表格在图表上呈现没有问题,甚至对于复杂的说明,有时一张表格足以说明问题,简洁明了。但是计算机却不能直接识别这样的表格,需要将表格中的数值转化成计算机可以读取的内容。


我们采用的方式是:先是通过数字化加工公司进行常规的表格矢量化,将其还原为EXCEL表的形式,然后将所有数值分类整理,重新设计成为可以进入数据库的二维库表结构,再按照这个库表结构将所有原始EXCEL表降维,把纸张上的所有图表降到二维,这部分工作也是需要先制定标准,然后通过程序实现。


只有经过两道加工程序的数值才可以由计算机读取进入后台管理系统,而最终进入系统的表格看起来也已经不适合直接印制到纸质图书上了,即使是中国口岸数据库仅仅1万多条数据,一张供计算机读取的表格的横列和纵列也常常几百列了。这也是文献加工和数值加工成果的区别之一,文献加工一般以XML的形式入库,数值加工以EXCEL表的形式入库。


第三,功能设计更加灵活。


如果说文字型数据是通过加工对单篇文章或者单册图书赋予了多个标签属性,如版权信息、图书信息等,那么数值型数据通过上述一系列加工,相当于已经对每个数值都赋予了多个标签,单个独立数值的利用率大大提高,每个数值都可以视为以它为中心的一个产品,功能设计上更加灵活,可以针对这些标签进行对比、统计、计算以及对计算的结果进行再次使用和可视化呈现。


第四,用户交互页面更加注重细节。


数值型数据的用户使用可以说是“千人千页”,任何一个指标的选择不一样,结果都会不一样,相比于文字型数据的版式呈现相对固定,有些数值检索的呈现结果远远超出我们设计的初衷。


比如,在检索数值过多的时候,原有的页面无法承载太多的信息展示,可视化图形看起来堆积在一起,基于此,对图形做了横列和纵列可扩展的设计。即使到现在为止,由于使用的不全面性,还会存在很多没有遇到的问题,我们将继续完善交互页面的呈现方式。


第五,数据库底层模型考虑更加全面。


在我们设计此类数据库的时候,技术承建方之前并没有同类产品经验,双方都是在不断的磨合过程中反复尝试。


文字型数据库通常使用的是非关系型数据库,也没有大量计算的需求,而数值型数据通常使用的是关系型数据库。所以,设计之初有两点需要注意的事项:(1)要考虑清楚所使用的数据类型,数值的使用方式是浏览阅读、表格下载还是半自动计算,这决定了模型的使用不同,例如,同期建设的“中国海关数字图书馆”“中国口岸数据库”和“中国海关统计数据库”三个数据库,第一个是文字型数据库,第二个是文字、数值混合型数据库,第三个是数值型数据库,相应的底层模型分别对应的第一个是KBASE的模型,第二个在KBASE的基础上针对数值部分进行了定制开发,第三个采用了MYSQL的模型,看起来第二个仅仅是结合了第一个和第三个的功能,实际上第二个在开发过程中是最耗时耗力的。(2)一旦决定了采用哪种模型,再转换成其他的模型十分困难,需要做大规模的修改甚至重建,虽然在用户界面看到的仅仅是功能的一点改变,而这将对底层模型提出非常复杂的要求。例如,中国口岸数据库中实际的图表数量有近万张,只是抽取了其中具有连续统计属性的2 000多张表格,在文献检索的时候,如果检索结果中的该张表格中的数值可以被自动计算,则会有跳转关系,这种关系需要在加工的时候就要提前做关联,否则,待整个数据库都建设完成,再重新设计这部分功能,则要追溯非常多的工作。


3 数值型数据的大数据出版启示


通过以上分析可以看出,大数据出版的概念在出版业虽然已经出现数年,但是实际中的应用却并不多见,尤其是数值型数据的应用更为少见,一方面原因是其出版路径十分复杂,所耗费的人力物力都是传统出版的数倍;另一方面原因是用户已经习惯了将出版机构只视为发布数值的源头,并不要求出版机构提供更高层次的服务。而实践证明进行大数据出版这一出版路径是可行的,随着出版业整体由传统出版向知识服务转型,随着技术的不断发展,出版机构的数值型数据也将回归到它原本应该提供服务的方式上[5],体现出每个数值应有的价值。





参 考 文 献

(上滑查看)

[1] 冯宏声. 以大数据体系建设支持出版业供给优化[EB/OL].(2016-12-16)[2018-09-02]. http://www.sohu.com/a/121721444_500643.

[2] 王明亮. 关于“大数据出版”的一些体会和猜想[N].中国新闻出版报,2013-08-29(5).

[3] 张振宇,周莉.“大数据出版”的理念、方法及发展路径[J]. 出版发行研究,2015(1):14-17.

[4] 许晶晶.“大数据出版”对图书馆知识服务的机遇与挑战[J]. 出版发行研究,2015(7):97-100.

[5] 刘冬. 基于第一性原理的信息内容产业发展研究[J].科技与出版,2018(6):6-10.



END




科技与出版

CSSCI来源期刊、中文核心期刊

“复印报刊资料”重要转载来源期刊

投稿

请登陆我刊投稿平台http://www.kjycb.com

订阅&合作

订阅杂志:010-62770175转3418

联络合作:010-62770175转3411-3413/3425




点击关键词,即可阅读往期精彩内容



特别策划


拥抱知识经济新时代

创新——引领学术期刊新征程

聚焦新时代主题出版 

2017科技出版大盘点

2017社科出版大盘点

中国学术影响力提升之道

提升中国出版核心竞争力

数字阅读亦助书香致远







相关阅读