孙卫：出版网站与数据库

知识学习2013 2015-12-08

展开全文

中国科技出版传媒集团技术总监孙卫

　　各位同仁下午好！

　　因为我接到这个任务比较晚，中国新闻出版研究院让我讲一下出版网站与数据库。实际上我想声明几个观点，第一个观点，每个出版机构，不管你是小还是大，你必须要明白三件事，你的网站既要宣传你的信息，也要做你的电子商务，也要做你的产品和服务，而不是只宣传你的信息。但是，这个电子商务怎么做，是有各种各样的方法的。所以，今天主要的命题就是根据中国新闻出版研究院的要求，主要命题是谈我们出版机构怎么建自己的数据库，哪些数据库是最重要的。

　　第一个问题，讲电子商务与数据库。这是我们传统出版机构存在的普遍的问题，我们现在交给卖我们东西的人，当当网相当于新华书店，当当网卖给谁了？我相信出版社是不知道的，如果出版社不知道，出版社的编辑要做新的选题，要去做新的用户对策的时候，其实你拿不到第一手信息，你不可能把你编辑里面的东西最大限度推销到市场，从这个角度来说，每个出版社都要建自己的电子商务与数据库。我主要讲三个方面，第一个就是你的产品清单，第二是产品宣传与推广，第三是与数据提供系统的接口。我很同意下午第一个演讲人说的问题，大数据未必是集中数据，集中数据是很多所谓大企业想做的，但是在今天没有办法做到非常好的返还信息统计给每个出版社的时候，不能做到隐私保障的时候，做分散的数据比做集中的大数据更安全、风险更小。

　　首先，我们看一下什么叫产品清单。我有产品的编号，我有产品名称，我们可以看一个例子，我们产品是纸媒的话，我有一个版本是第三版本，但是可能有一个版次是第一个版次的，就是电子书做一版一次，没有办法跟住每一个版，然后有POD，POD是印刷的，我有每个版次的。所以，我们可以看到一个出版机构所有产品形态是不是能反应在产品清单，这是非常重要的事情。利用库存就是利用你的EPR系统，你面向机构的时候可能面向的不是你的ERP，因为我们知道ERP是计划资源管理系统，他不是真正的库房系统，也不是真正的生产系统，你真正的数据源应该是加工环节的部分，所以面向机构部分的分类库应该在哪个分类里面，面向机构和个人丛书，你是选择单本的还是定制的，比如我有四万本书可以选，我有几种U盘供你选，当你把U盘选满了，我们的封装就完成了，我们也是按需选书。还有是定制的，比如把生物类型的东西定制在一个U盘里面，你买一个包走，所以我们是有两种情况。下面，如果这本书没有库存，我就是按需印刷，重庆新华书店做这个东西比较难的就是你做分布式库存还是集中式库存，到底是做分布式的按需印刷还是集中式的按需印刷。

　　第二部分，我们看产品价格，我们有科学文库纸书的定价，我们有科学文库打包的定价，我们有按需印刷的定价。因为我们主要是面向机构服务，我一本书是两个复本还是三个副本。亚马逊的技术真是很烂的技术，花在这方面时间做的非常多，我做了两个人，跟他对接，做数据，不是信息，做数据比我重新排一个东西还累。但是，他真正信息这块确实比较强，但是我们出现一个问题，如果我们对机构不控制副本的话，这样就有问题。另外面向机构的分类使用有不同情况，每个电子书可以并发数和一个机构最大并发数，我们正在讨论和图书馆的纸本的副本数结合，他现在有三本馆藏书，如果都没有借出去，我电子副本书就增加，如果电子书借完了，纸本书也借完了，我就购买副本数，动态副本数对图书馆很重要，我们对B的时候，很多的时候对C是不一样的。

　　下面一个就是产品宣传资料。我们的产品宣传资料有封面文件、有导读、有样章、有书签，这个书签不是编辑写的，是读者标出来的书签，经过统计以后出来的。然后，我们有科学文库介绍、科学书房介绍、按需印刷介绍。但是相关的宣传资料和名称与位置要说明，就是你怎么把这个环节处理好，我们今天一本书印刷完，只要这个电子书到科技出版社，我今天就产生当当、卓越、京东要的所有的营销资料，而不是出自于ERP，出自于我的一个基础系统的转换系统，只要他提出要求，我就可以提供所有的东西，这样就可以保持同步。第二个问题，就是读者用读后的书签，是帮助阅读，动态的、按阶段调整，读者看完了之后有很多标签，怎么把这些标签整理出来，这是需要入库管理好的。这样新读者来的时候，看标签就可以选他的书。还有一个问题就是读者评论审查后整理入库，很多加了读者评论，但是控制不严，就出现很多利用你的空间去散布一些别的事情，所以读者评论要审查之后才能商量，要不然承担的政治责任比较大。

　　所有的我们的信息是一条线挂住的，就是产品标志号，所有对于产品的东西都是用产品标志号把不同表挂在一起。这是我们最关键的，就是我们有的信息是来自EPR，有的信息是来自于数据加工，不是全来自于ERP，因为我的生产线是时时的，今天收的文件今天就生产，不能说生产完了再注入一遍，所以现在优先往网站系统扔，现在是两个同步做的。还有来自于库存、网站读者的书签和读者的评论，这是来自于互联网网站信息搜集之后做处理的。

　　还有一个价格计算表，你买书，你是老用户，你的折扣就多，你买书的量大，折扣就多，哪种分销商是哪种折扣，我们有自己电子营销手册，这个手册我们已经做成后台软件可以处理的事情。

　　第二个就是客户关系数据库，这也是非常重要的，传播的把CRM是放在企业内部，现在我们是把CRM前置到电子商务系统，不再缩在后面。因为管理的都是外来客户，比如作者、读者、机构都是外面来的，所以我的CRM不是藏在里面的，我的CRM是外突的，跟我的电子商务系统一起放在外面，不是像ERP系统放在里面。主要是三大类客户，一大类是单位、个人客户基本信息，一个是购买历史信息，一个是浏览检索信息。

　　首先是来自于注册信息，网站为什么很重要？网站有很多注册信息，我要去做的数据要来自于注册信息。第二，来自于购买的定单信息，就是哪些用户下过定单，哪些企业通过B2B2C的时候，通过中间这个B给我下了定单。下面就是互联网日志的数据。我要用的第一个就是单位和个人基本信息，这有一个很大问题就是隐私问题，这个隐私不是最主要的，最主要是支付信息，包括信用卡和第三方支付，但是机构信息和个人信息也是要注意安全保密问题。我这里只是列的一部分，我们主要考虑机构，然后考虑机构属性，你是教育属性还是科研属性，机构是不是有分支机构，如果机构有分支机构的话，把机构的分支机构，比如说我是中科院，有80个所，中科院统一买的时候，我要把80个所注清楚，我要保证他80个所可以用起来。再一个就是个人信息表，这个比较简单，我们要求一个身份证号，因为现在要求实名制，所以身份证号一定是隐藏在后面实名制处理的唯一标识的关键地方，我们要求有学历和专业，因为我是科学出版社，所以我要分析他对专业书的购买和对兴趣的问题，包括学位。

　　第二点就是购买的历史信息。购买的历史信息，如果对于机构来说，他有几块，第一块就是他买了什么，他当时的销售代码是什么，就是我要保证能查到当时的记录，销售文件是放在什么地方，成交价是多少，他这次成交价起和始的服务时间是什么，他到底买多少副本书，到底买多少并发数，纸媒的合同在哪里，这块有一个合同位置。购买的产品服务，上面是购买历史记录，下面是产品，买了什么，是不是独立纸媒，我们现在卖P，你可以只买纸纸是1，你可以买纸书加电子书是1.2，单独买电子书是0.9，我们现在是可以单独买，也可以组合买。我们已经实现所有给老师，因为教材、教育是一大块，我们所有给老师的书全部优先发电子样书，所有大学老师挑教材的时候通过电子样书挑，当我们确认你是可能潜在的要用我的书做教材的时候才能发纸的样书，这样电子样书可以为出版社每年省几百万。另外就是要试用书。然后就是服务方式说明，你是镜像方式还是远程调用方式，这都有很多说明在里面。

　　下一个是对个人的，个人主要的跟机构不同的地方，大家可以看到这里有一个设备关联，就是你在设备上要表明你是什么设备，什么操作系统，因为在动态出版里面有两个概念的问题，一个概念就是内容的动态，一个概念是使用设备的动态，我们刚才申请到一个科技部的项目，就是你是小屏幕的时候，我应该给你什么样的内容，你是大屏幕的时候应该给你什么样的内容，这是一个概念。就是按照这个匹配内容。第二个概念就是你可以买我的全书，你可以买我的章节，你可以买我的段落重新构成一本新书然后重新出这本电子书。所以，我对他这种设备有一些信息是需要处理的，这样我才能够保障以后当这个用户再来购买的时候怎么最好的为他服务。

　　然后浏览与检索信息，这也是非常重要的，这都是从网站日志文件提取的，每个出版机构一定要重视你的网站，一定要重视你每一项服务日志文件，要对日志文件进行分析。我最后会说，首先，你是什么时间来用的，你发的什么关键词，你命中没命中，你点击没点击，你的栏目、你的阅读、你的订购、你的评论，你参加没有参加社区，这些全部可以通过日志文件听取出来，这就是今天下午第一位秦雯说的，实际上出版社是可以做这个事的，但是有一个地方要注意，只能用统计性结果，绝对不允许用独自的个人信息，这是属于侵犯隐私权的。比如我是高级工程师，上来就知道我是高级工程师，这是有问题的。就是一定是统计的规律，就是这些人用了什么以后再用了什么，这是不侵犯隐私权的，但是用绝对的个人信息是侵犯隐私权的，这在我们国家民权里面是要注意的，不然当某个人不希望你知道他信息，但是他通过某个网站知道你知道我的信息的时候，你可能成为报告，这在法律上是要担心的一条，个人的事情尤其要担心。我们前面介绍的单位个人基本信息、购买历史信息、浏览信息，这些都是通过个人和机构标识号联系起来的。

　　下面还有一个就是支付数据库，这个比较重要，他用哪个账号，支付多少钱，总成交是多少，这是绝对隐私。我们很多人收集这种信息，但是保密不够，这是很大的问题。原则上大家自己不要做支付系统，淘宝和当当是能够做的，因为他们是非常有钱的，但是作为独立的出版社最好利用第三方的。除非你跟他们合作，你就得掏钱给淘宝、给当当，比给银行可能少一点，但是支付这一块一定要当心，千万不能把用户账号和密码丢了，这样对于我们就是比较严重的事情。

　　然后，与财务系统在线、离线的数据交换、保密和安全性，与ERP系统的在线、离线的数据交换、保密与安全性，这是非常重视的事情。为什么要重视这个？无论进行营销和卖什么东西，都需要电子商务系统，只是说这个电子商务系统是统计型的、是汇总型的，还是具体记每一笔帐，只是这个差别。但是，如果一个出版机构还不能知道你的用户是谁的时候，在互联网时代是非常危险的一件事情，就是你的用户会被人转录光。改变传统出版机构对机构用户、个人用户两眼一抹黑的现状，有利于出版物有针对性的推销和销售。比如我们怎么定印数、定价，从编辑角度一定要把这本书印数定高，但是不能保证算出来这个书可以卖出去。怎么合理定这个？我们新成立市场部，我们遇到很大的问题，我们自己不知道全中国有多少图书馆买过我的书，买过我哪种类型的书也不一样，这样怎么定印数？就算定了印数，我应该卖给谁？不知道。电子商务最大好处是可以帮助你统计和分析你的机构用户和个人用户方向和地域和使用特点的东西，保证你的出版物，保证你的作品能够很好。第二，利用电子商务数据库统计分析网站设计、利用是否有需要改进的地方，比如你设计一个产品，这个产品从来没有人问过，有可能不是你的产品不好，是你产品放置位置不好，人家第一眼看不到，或者人家找不到。比如关键词，你想的词和使用者想的不是一个词，这样你的书永远不会别命中。所以，关键词和主题词，就是作者要懂这个主题词和关键词，你的编辑和读者使用的关键词是一致的，这样才能保证你的命中。然后最好采用第三方支付，降低技术水平不够、安全措施不到位可能丢失机构和个人支付秘密的风险，这个风险是我们不应该承担的风险，这块可以利用第三方支付来做。

　　第二个大的方面，讲一下产品与服务，其实网站宣传企业是一块，电子商务是一块，但是电子商务是要卖东西的，讲三件事，第三件事是产品，第二件事是服务，第三件事是统计与分析。

　　产品我们讲主要是以现在所谓的叫数据库、有的是泛数据库，有的是精确的数据库，都是数据库。我讲几个类型，一个是全文数据库，典型的科技期刊聚合模式，就是检索、期刊、文章链结、阅读、下载阅读服务器。描述全文的信息构成的数据库，对全文内容构成结构化数据，并且和全文联结在一起，全文数据库有两个要素，一个要素是管理全文特点，一个要素是检索到能挂出来的全文，而不是一看看到的是摘要。全文数据库有两个特点，一个特点是能检，一个是能找到全文。第二，这个库是对所有出版商都是非常重要的，就是出版商、代理销售商和销售商都要建立全文数据库。数全文元数据数据库、全文可以链结、阅读、销售的全文对象。什么意思？我们跟很多国外的机构在谈判，我所有的内容是放在中华人民共和国境内的，如果做不到这点就不跟你合作，现在亚马逊服务器很难会落地，落地之后内容才放在国内。另外，大的出版集团绝对是自己提供服务的，别人是他的分销机构。小出版社可以把这些东西放在云因、放在重庆新华书店做的这种系统上，大出版社都是走自己的路线，因为这时候才可以宣传出版社的品牌。所以，一个出版集团，你应该是自己有全文的这套体系。再一个问题，我也是今年3月份在泰国开会，赔李老师去参加亚洲数字出版论坛的时候，他中间有两个概念，一个概念是（英文），一个概念是（英文），（英文）是什么意思？我是PDF格式，（英文）只能卖PDF格式。这是（英文）的意思。（英文）不是，我给你一个（英文），你把（英文）转成你自己格式，比如像现在的中国移动对于（英文）来说是属于（英文），他不是直接卖你的格式，是把你格式加工以后再卖，这叫做（英文）。但是新（英文）有一个问题，我们已经发现了，我们原来出版是三审三校，质量保证万分之一，只要到了（英文），你再查就达不到万分之一，总署把板子又打到出版社。所以，出版机构要注意当你做（英文）的时候，你要衡量的就是质量。我最近跟亚马逊还是谈质量问题，他提出把所有问题放到印度加工，我说印度人比中文更好吗？不可能的。当初他们在中国选了加工厂，来了一个美国人看了以后说不安全，就试了一批书在印度做，做完了以后返回来审查的时候都不合格。我说的不合格，对于科技类来说，我们的图表、公式要比全文字书要难的。所以，大家对（英文）要注意的就是你格式的再变化以后产生的质量不合格，你要承担责任的。

　　全文对象可以是任何格式，我们社提供PDF，可以提供（英文），可以提供（英文），可以提供CEB、CBS，只是我有一个对策，我要不要和纸书同步卖，我今天发纸书，可能过一两年再发电子书，对于机构来说可能是捆着卖的，这样就是1.2的收费。然后在线现在、离线阅读，阅读篇章、节都是可以的，这是对全文数据库的概念。

　　如何构建服务群体，目前按照学术期刊品种获得资源，这是一个方法。按照文章类型针对不同行业特点、产业价值链关系、从文章层面重构。按照文章细分结合不同行业特点、产业价值链、从文章层面重构。然后是结合其他资源重构，利用每个重构资源，利用的次数、重要程度、专业对口性等因素付费，就是你的付费方式也是非常灵活，不是卖一本书一口价就十块钱，我可以说十块钱你可以用多少次，或者十块钱你用多少月。我是亲自跟亚马逊谈，谈完了以后发现亚马逊之所以卖低价，一个重要的原因就是他卖的不是永久权，亚马逊要求这本书四年可用，就是四年以后他认为产品升级，或者你的（英文）改变。所以亚马逊卖低价，就是他卖的是使用权，而不是永久权，而我们传播的纸媒卖的是永久权。所以，我们纸书的定价和电子书定价要怎么定？因为纸书是按照印数定价，但是电子书怎么定价？这是我们一个挑战。我们要求你今后重构资源的话，价格因素的考虑比纸书复杂很多。

　　大的出版集团还是要做门户，这是我们比较坚持的，这样你今后的出版才是比较明确的，小的出版集团可以搭载到别人提供服务的平台上，或者是以专业方向同聚。然后对机构、会员服务为主，我们很少有人卖一年一年服务的，像（英文）是卖一年一年服务，但是（英文）没有，（英文）这个东西卖给你就是永远是你的，这样特别是对于机构来说长久效应很长，他每年都买的话，十年下来的钱，比一次买的钱好很多。反过来，我一次收十块钱，十年收十二块钱，可能觉得不值，这就是传统观念和互联网观念的问题。

　　然后，传统出版的期刊、书作为被链结资源，不再作为第一时间显示资源。传统资源数字化以后可以按照单种、册、件原则，进行章节段的粒度细化处理，这些粒度资源角度数字对象。怎么在最开始做内容的，一个是板式结构，一个是内容结构，到底碎到哪种程度，我们在结构化模板的时候就标掉，而不是这本书印出来再标。

　　第二，也是我们现在遇到的一个挑战，就是二次文献数据库。中国科技类出版社自己没有二次文献数据库，可以看到（英文）有（英文），他有二次文献数据库，就是全世界他认为相对比较好的期刊，他都有所有的期刊文章都有，其实比刚才介绍的那个（英文）要大，因为他毕竟是世界第一的科技出版，所以他科技出版的权威性，他自己是2000当种刊，他二次文献库里面有2万多种刊。这是非常重要的，为什么非常重要？期刊文献的时候是专家同行评议的时候用二次文献库，我们社提出来明年我们专业图书也要走同行评议，就是任何专业图书要请专家来审核了，要包括我们科技书的出版质量，如果没有大量二次文献的话，你很难判断这个书哪个观点是你的，哪个观点是别人的，所以二次文献库是我们国家科技类型出版社，包括我们是最大的，我们都没有这个东西，现在我们也在讨论，明年是不是要建立二次文献库。二次文献库只有这些书基本信息，包括分类、主题词、摘要构成的二次文献库，但是他有跟书的东西有关，但是又有统计上意义的不同，就是他有机构、引文、作者、分类、关键词构成的二次文献库，他不光是书的内容，还有别的统计的东西。还有自然科技资源数据库，这也是大家不知道的，我们社也要开始利用这个部分，然后有科学数据库，（英文）现在就有科学实验了，他的出版里面有数据了，就是每一个科学实验的科学数据有哪些，他可以给用户做研究、做学习用。最典型的就是（英文）和汤姆森，在国内最典型的就是中印所的科技评价分析和辅助决策分析，都是利用二次文献库提供的服务，这是比较厉害的。他主要要求做到全，比如做科技书，要把这一个方向科技书尽可能收全，帮助使用者找到最主要的信息，包括题名、书名、文章名、作者、机构、摘要、关键词分类，同时尽可能进行定位。就是国际统一书号、刊号、数字对象唯一标识号等等。现在有了数字样本标识符，像（英文）就出了数字样本标识符，我在互联网看所有的东西，我是（英文）的用户，我就可以看，我如果不是（英文）的用户，我要看全文就要付钱就可以了。（英文）和（英文）是一个号，他只能定义到是谁出版的，不能定义到谁提供服务，而数字样本标识符可以定义到谁提供服务的。

　　二次文献很重要的就是有助于编辑选题，我在去年和今年科技期刊编辑培训上专门说这个二次文献为什么帮助编辑选题。比如举个例子，那年中国图书馆学报找我，要求我写一篇文章，我问他为什么写文章，他说孙卫你是中国第一个在图书馆刊物上发表云计算的，他就一定让我写云计算综述，就是他选题的时候编辑有一个参考依据，就是依据什么来看。还有就是编辑收到一个稿子，收到一个书以后，这个书能不能卖掉，这个期刊的文章好不好。其实你看引文，就是写给这种类型文章被引的情况怎么样，如果引的很差，你再来一篇这个文章也未必引的很好。其次二次文献对于编辑的作用有助于选题，有助于判断作者的水平，有助于统计已发表内容的分布，有效的资助最有价值的新的内容的发表。然后是查新查证，这个二次文献也是最重要的数据库。而我们国家的（英文）没有建这个东西，特别是书刊，出版商自己都没有建。

　　帮助作者正确引用参考文献，名称、作者、国际标识号，帮助作者在写作前对主题、主要内容通过已存在的二次文献进行分析，有利于写作质量的提高和便于发表利用。同时有助于同行评议和分析。例如被引用情况、分布情况等等。当年我在美国开会，当时是做民国的书刊项目，他让同行评议的时候，给你一大堆链结，这都是通过二次文献提出来的。

　　第三种就是混合型数据库，目前出版商还没有，信息服务商有了，像（英文）和万方已经有了，但是出版商还没有。还有就是出版物与科学数据混合，还有就是出版物和专利混合，还有按照专业方向细分内容混合。

　　下面就是知识库，我们定义知识库的方法就是以辞典、字典、词汇为基础构成的知识库，像的百科是属于这个类型的知识库。第二个是以书籍、期刊等出版物中的术语、观点、公式、图表等构建的知识库。

　　主题图库，这个比较新，我们图书馆很早就在研究，但是中国出版界其实有人已经在做了，你们有机会可以学一些东西，有一个教育汉语主题词表，你们可以看什么叫做主题，主题有很多参数，主题图就是把一个主题下属于分主题跟他相关构成一个树型结构，相当于一个知识结构，用主题、子主题构建的主题库，他可以检索，也可以图式，主题又可以和数字内容关联。你们在中国可以看到的雏形，咱们先不评价他做的主题精准性怎么样，有的人水平很高，绝对这个不应该算，那个不应该算，这个是另外一回事。但是人民社沈书记做的以主题形式连接资源的方式，这个我觉得是最近几年我们看到非常好的一个现象，就是出版机构在研究技术，在利用基础了，主题图就是我是哪个方向的我可以顺着这个主题摸到我需要的东西。中国理论是马列主义理论，对于社科也是一个很好的例子。

　　第二个是本体库，主题是简单的属性的关系，和实体可以连接的关系，而本体不是，本体是概念之间整体与部分的关系，概念的继承关系，概念实例和概念之间关系，某一个概念和另一个概念的属性。能够具像到一个具体的领域或者完整事件构建本题库。还有主题图库是概念关联、概念实体关联，本题库具有四种关联关系，所以主题图也成为轻量本体。主题图库不能做逻辑推理，只能物理关联关系跟踪，本体库除了物理关联跟踪以外，还可以逻辑推理。主题图和本体，对于科技类和教育类的都是非常好的利用方式。

　　其他类型数据库很多，教育类的综合数据库、课件库、视频库和题库，这不是出版物，甚至包括判题方法，甚至包括视频和文献的关联，包括课件和文献的关联，然后是专利数据库，科技类出版将会关联在一起，然后科学数据库、科技资源数据库与科技出版关联在一起。下面一个库大家可以知道的，就是数字对象唯一标识数据库，就是检索结构与分布式可以连接的标准方法。就是内容一定是分布的，谁也不要想内容大而全集中在一家，这个特别是在中国行不通。所以，大家一定要想被检索部分可以集中，但是真正数据内容的东西还是可能会放在每个出版商自己手上。我们现在跟方正这样的，所有的（英文）这条体系、（英文）体系是在（英文），但是所有（英文）体系是在我的机房里面，就是每出去一个，我自己工程人员是知道的，我保证前面（英文）和（英文）不乱卖，或者卖了不报告我，我要保证这一条。所以，这也是有数据库的时候很重要的。还有就是关联数据库，其实我们不是说一定要做大而集中，而是按照一定的规范做数据，这样的话这种规范的数据就可以关联在一起，这就是标准和规范最主要的作用。因为不太可能会把所谓的东西集中在一家，这件事情基本上是不可行的。因为亚马逊相对来说只卖东西，其实很多东西不再他那，他只卖东西，他相当于只是卖东西的一个商店，他仅仅如此，只是用户量很大而已。所以，关联数据库，我们可以看到图书馆关注了三到四年了，关联数据这块，大数据可能没有到大家说得那么悬，因为我们对大数据的定义是复杂度和现有工具不能用。一个是复杂，太复杂的数据，现在获取是很困难的，还有就是现在工具方法是不能用的。在计算机界把这个东西叫大数据。所以，我认为出版界的数据，因为我做了这么多年下来，我一直做数字图书馆，我认为出版界的数据现有的技术是可以解决的。但是，我非常同意云因的观点，就是我们出版人的观念，在互联网做这个事情的观念一定要非常注意，就是内容为基础、服务为王，如果光有内容不服务，互联网是不认这个帐的。互联网一定是为服务付钱的，不是因为你有内容而付钱。

　　第二大点就是服务，一个互联网有卖东西的，这是没错的，但是最主要是服务，服务有几种服务，最主要是检索工具，然后有查询类的，包括你的工具书，然后有评价分析和仿真分析，有统计、比对、报告类的。第一种就是检索类的，可以做元数据检索、索引，显示元数据内容、连接到对象数据。我们把这个东西叫做检索服务。卖东西，通过网站卖东西是一个服务，但是这种检索也是一种服务。第二，查询类工具，就是你的工具书、你的知识点和知识库，是不是能够让你这个专业的人，对你有兴趣的人能够很好利用起来，工具书就是能够很好的检索和显示，可以独立作为工具销售，也可以提供互操作接口，和其他的浏览器插件结合，这方面我们国家的工具书比较弱，但是我们科研社也在想一些东西，为什么？我们有大量的科技类的辞书，现在一本一本都是独立的。像（英文）的做法是做在一起了，我担心的是有没有接口，我和（英文）是有接口，和计算机是有接口，如果做到这种接口，这种工具书的利用率会很好，如果不能做接口的话，大家去找的时候就很方便，但是做了接口之后，操作起来是最简单的。然后评价分析、仿真分析的工具书。刚才我们看的检索工具主要是检索、排序，第二个也是检索、找到、现实，这块是汇聚、统计、可视化。比如现在到（英文）检一个作者名，他的刊就会被命中，他写过的文章就会被命中，这个文章命中后，你再看后面的可以看出来，有多少是被引的，有多少是被下载的。这个在传统来说，这个东西叫做统计，传统出版社没有经历这个，传统出版社卖完了书以后不管了，所有统计数据是（英文）我给的数据，自己不能分析数据。但是，在互联网时代你是可以很好的分析这些数据的，而这些数据很有帮助，比如我发检索词命中没有命中这篇文章，这篇文章是不是被别的文章引用了，这篇文章是不是被大量下载了。就是命中、下载和引用都是有价值的利用，不是说原来的评价分析方法只有引用是有价值的利用，而是有很多方法。所以汇集、统计、可视化是非常好的，可视化就是形象化的用现代的方法表示它的东西，而不是文字的方法表示。这里有一个概念，一般不单独卖，因为数据元很大，只有对于数据元使用权没有数据元版权，容易造成纠纷。一般是不含信息元的可以卖这种工具。这个话对于出版商比较新，但是像（英文），像万方、像中印所，这个东西不比国际上做这个东西的出版商落后很多，很多地方可能比他们做的还好。

　　统计报告类工具，把对于分布式资源检索、分析再报告模式转变成统计报告集中，资源检索、分析、分散的模式。就是我不要所有的内容集中，我只是要把结果集中回来，就是检完了命中结果集中，集中之后做分析和报告就行了，这个非常有意义。（英文）的学术部端检测和万方的相似性检测，已经给我们的研究生改变我们的学风，就是你抄一段东西你至少要改，你要原封不动的抄一段，很容易被这两个工具抓过来。所以我的研究生毕业之前大量都是用这两个工具检测，看是不是有抄袭度，哪些抄袭有问题，哪些没有问题，大量的做这个事情。所以，可以看到万方和（英文）的贡献，就是帮助我们提高学术水平是有帮助的，我们不敢说是肯定能提高，但是是有帮助的。反过来，我们图书也遇到这个问题，就是没有人对书做这种检测，我科学社做一本书，出了没两天被北师大出版社告到法院了，就是作者提供给我们出版社里面很多东西是北师大出版社出的，但是我没有手段检测。我们这种相似性的分析可以延伸到所有学术出版里面是有价值的。最近听说互联网有一个专门文学写作的工具，你进了这个工具，输入你的关键词，输入基本的关系连接，他自动就把书写出来，像这种东西很有意思你。慢慢可以看见一种是我们拿他检测相似性的东西，另外就是利用碎片资源可以写书了。上海信息化办公室专门到国图找过我，说有没有可能做到上海市政府拥有信息资源，通过计算机技术变成新的资源，我说不可能，一定要经过大脑。但是，现在我当初说的不可能比较武断了，现在文学作品可以不经过大脑，只要把想法写到这上面，他就可以自动把书写出来。针对机构、人物、主题、项目、引文的分布式检索，汇聚、统计、结果可视化、报告结构化、内容骨架填充的服务模式。我们可以看到他这种服务是通过工具体现的，比如卖书是通过人服务，他买一书我收钱，但是工具的服务也是互联网上每个出版机构需要思考的，独立的分析、报告工具是可以享受的，拥有知识产权的出版物资源是可以享受的，出版资源、数据库、互联网资源在一起，结合分析、报告的工具是无法销售的。比如百度很多官司，都是从网上抓过来的MP3，他再播出，就被告了。所以，就衍生到卖服务了。我们最近跟（英文）谈，他们正在往这方面走，我说你们看中国，他说中国在后两项工具方面已经走在比较前面了。然后是利用工具服务吸引用户，就是在线直接利用工具，培养用户获取点击率。就是说一个互联网的网站，你一个出版商的网站，你怎么利用服务黏住用户，这个工具是非常多的作用，大家可以去慢慢思考，这是非常有价值的一件事情。

　　下面一个问题是最关键的，大家建个网站，统计分析实在不好，我不知道刚才秦雯说的他目前的统计分析的算法和科学性，他刚才说了木马性放在里面，然后收。但是，我觉得如果收也只能收流出、流入的部分，在后台的东西做不到。所以，网站、电子商务、产品和服务，利用遗留的很多使用的痕迹，流量只是一个痕迹，这些痕迹是帮助我们改进网站、电子商务、产品和服务效率和质量的重要的基础。就是说我们怎么利用这些基础，这是非常关键的。专家调查与评价分析方法已经不再满足互联网时期对于信息服务评价分析的要求，就是用专家评判的方法，专家还是自己主观想象，比如你的单位大就认为你的单位好，这完全是主观的，他其实没有抽样数据，这是不科学的方法。利用好事实数据进行统计分析非常重要，而这些分析主要是针对数据库、日志文件结合。

　　大概是几块，第一块就是网站统计和分析，栏目是不是被利用过，你设计一个栏目，你的网页是不是被利用，利用次数、重复利用次数等统计分析。重复利用是什么？比如法规就是要被重复利用的。第二个是栏目更新和利用关心，栏目更新和利用时间分布关系，比如今天栏目第一次更新，什么时候是利用的更新。第三个就是网站推广采取什么方法最有效？自己网站宣传推介的计算，搜索引擎宣传推介计算，电子商务客户关系机构和个人数量变化的计算。还有收缩引擎，你可以看万方主要是靠Google，Google的搜索引擎，他可以把数据给Google用，这是一个很大的东西。还有看你的机构数和个人数量变化，你到底是在增还是在减还是在平衡，可以看到你的推介好不好。所以，改进网站栏目，宣传网站重要的依据就是对网站的分析，而不是专家评判。如果谁跟我讨论专家调查表的指标体系，我基本上都是否定，我说今天互联网不是这样干事了，你拿事实数据，这是很关键的。

　　第二个是电子商务统计分析，机构和个人用户的分布，按照出版内容分类与机构分类，个人职业或者专业分类关系，这是什么。我是一个计算机书，来这个人是学计算机的，也是用计算机的，他买这个计算机的书，这个匹配就是很好的。个人职业和专业分类关系，地区分类，哪些地方用你的书，比如有些书是地域性的，比如植物志有云南植物志，那基本上别的地方不用这个东西。还有产品的使用类型的分布，到底是用PDF为主还是（英文）为主，还是CBS为主。再就是客户的忠诚度，长期客户是哪些，是不是很稳定？第二就是新增客户，我新发展的客户，这个客户进来了，还有临时够来的客户，只买一个两个的客户，你要分析的很清楚。你要做的是什么？把新增用户数量统计，你有新产品让他每天看看你是不是有新产品你就赢了。然后是产品类型和服务质量客户满意程度。单位时间重复购买同一分类不同产品的数量和客户，新增产品日期和购置时间的距离，投诉退货数量原因等等。作者作品目标人群机构分析重要依据，市场有针对性的策略制定的重要依据。我讲一个笑话，我们是第一批中国移动的用户，我们做了中国移动的客户流失率分析，发现一个问题，他所有对策都是给要流失的用户的，他不给长期稳定在他中国移动用户以优惠。因为我是北京通信学会理事，我讨论这个问题，你中国移动这样做我们都跑了，你总关注这些要流失的，而不关注老用户，老用户对你的贡献是最高的，你应该关注的是长期用户，要把他们稳定，然后再关注怎么把短期客户变成长期客户。所以，你的市场策略不是传统那样每年卖多少书，包销多少来做的，互联网时代不是这样的，有很多新的地方大家需要学。

　　然后是产品和服务的统计，产品类型和服务适应范围是什么，机构使用产品类型和数量统计，个人使用产品类型和数据统计，产品细分类与机构、用户特点统计。这个非常重要，我们上次跟亚马逊谈，我们问他书定价，他说他的书定价从来不是按照印张和字数定价，他是按照这种类型书在市场平均价和响应程度，如果平均价高、响应程度也高，这本书就高定价。如果这本书在市场响应情况不好，这书即使字再多也是比较低的定价。所以，我觉得这是我们要跟亚马逊学的，但是我最不接受的就是他的格式的转换，保证我出版质量太费劲了，但是他的这个定价是很重要的。对于我们的作者怎么写一本好书，怎么让编辑挑出一个好书，这个分析很重要。

　　机构产品的特点，分类针对性统计，使用方式针对性统计，定价策略针对性统计。我们要把每个分类对应每个用户群，我们市场部成立之后也指导我们市场部统计这些数据。再就是我们是以办公室为主，还是以研究阅读为主，还是移动阅读为主。还有就是定价策略，比如明人专著，本来数量就少，但是基本上这本书一定他会买。但是有些大众类型的书，特别是市场上这种书你不是首发，你就带来很大的问题，你是属于杀价竞争还是怎么竞争。然后是个人产品特点，分类针对性统计，格式针对性统计、定价策略针对性统计。加了一个格式针对统计，我们发现一个问题，我们出版商跟格式能力最差，当一个新的格式出来之后，我们出版商没有人可以跟上，都是滞后很多年以后，开始出了有这个格式、有哪个格式的，但是这个东西已经掉了。所以这种格式分析也是很重要。然后是网站服务有效性，很多人关注的跟我们关注的也不一样，第一个就是提供工具的利用率，就是你哪个工具利用率最高，网络客户的增长率，就是利用你的工具，利用互联网采购你的率最高。然后网络同类用户的覆盖率，我们社是去年开始网络营销，今年就铺的比较大，我们遇到一个最大的问题就是当当、卓越和京东三家杀价，他们三家杀价最后亏的是我们的出版商，因为他们所有人都要求出版商压价，他并不是在他的分成里面压价。但是，亚马逊对于我们比较放心，我跟亚马逊定价是1的话，亚马逊加入给我5，他给我5，他所有杀价是从他的5里面杀，不准杀我的5，但是跟国内这些是很困难的。这就是怎么双赢和共赢，就在于你怎么让用户覆盖率比较高，你不要做这种杀价竞争。然后产值增加和传统产值来源比例关系，我们现在网络营销产值比较低，我们有期望值。

　　借今天中国新闻出版研究院给这个平台，也是把数据库跟网站的关系，跟你产品，跟你服务的关系做一个介绍。如果有兴趣的话，专门办怎么建数据库的班，我们要花的时间比较多，我要讲主题图怎么建，我们会另外跟中国新闻出版研究院讨论。谢谢大家。