数字化加工管理办法文档格式.docx
- 文档编号:3053507
- 上传时间:2023-05-01
- 格式:DOCX
- 页数:10
- 大小:20.47KB
数字化加工管理办法文档格式.docx
《数字化加工管理办法文档格式.docx》由会员分享,可在线阅读,更多相关《数字化加工管理办法文档格式.docx(10页珍藏版)》请在冰点文库上搜索。
1.3纸书拆装要求
(1)加工如需对样书进行裁切,裁切后的图书要进行还原,还原后的图书不得伤及和损坏内文,不得丢页、混页。
(2)样书还原要恢复原有装订形式。
2各类资源的加工范围
2.1纸质图书
双层PDF文件:
图像层包括从封面到封底的所有页;
文字层包括除封面、封底的所有页内容,其中正文的书眉、装饰性的底纹、花边等不做加工。
单层纯图像PDF文件(供按需印刷使用):
包括从封面到封底的所有页。
XML文件:
包括从封面到封底的所有页,广告页、装饰页、宣传页除外。
2.2电子文件
矢量PDF文件:
其中封面、封底、勒口需要扫描(出版社提供实体书)。
XML文件:
包括文前、文后及正文的所有页内容。
说明:
单纯纯图像PDF文件:
指通过扫描录入后,经过去污、纠偏后生成的纯图像PDF文件。
指通过扫描录入后,经过去污、纠偏、OCR识别,并辅以人工校对,生成可以检索的PDF文件,这个PDF文件是双层的,上层是原始图像,下层是识别结果,保留原始版面效果,并且支持选择/复制/检索等功能。
指由电子文件直接转制生成的PDF文件。
该文件保有原始版面效果,并且保有完整的文字和图片信息,支持选择/复制/检索等功能。
3成品数据规格及质量要求
3.1原始图像文件
(1)图像文件的规格
1)书的封底、封面、勒口及书中的含有彩色插图的页,整页扫描成600DPI的彩色图像;
2)书中的含有灰度插图的页,整页扫描成600DPI的灰度图像;
3)对于原书中的其他页,整页扫描成600DPI的黑白图;
4)图像文件以无损压缩TIF格式提供。
(2)图像文件的质量要求
1)图像清晰,版心居中,无倾斜,无污点,无颜色失真现象;
2)同一本书的每一页图像版心大小要统一,图像尺寸要相同;
3)图像完整无残缺。
3.2PDF文件
3.2.1PDF文件规格
纸质书:
将图像和文本制成双层PDF文件,图在上,文本在下。
其中图像所使用的图像格式为JPG,精度为300DPI。
同时制作单层纯图像PDF文件,图像精度为600DPI,可供按需印刷使用。
电子文件:
制作矢量PDF文件,“印刷质量”(按AdobePDF规格)和“标准”(按AdobePDF规格)各一份。
3.2.2PDF文件质量要求
3.2.2.1纸质书制作的PDF文件
(1)PDF文件的数据要完整,无缺页、重页,页码顺序颠倒等情况发生。
(2)双层PDF文件中所使用的图像要求压缩后符合JBIG2、JPEG2000标准的压缩比为7。
文字使用黑白图,灰度图像使用灰度图,彩色图像使用彩色图。
一页中既有文字也有图像的,做拼图处理。
(3)双层PDF文件的图像层和文字层的文字对位准确,保证反显区域与文字区域相差1/3字符以内。
文字层的外文数字、标点、符号等均应采用半角。
(4)书签制作。
1)PDF文件制作书签,确保电子书的目录,内容和原书中目录一致。
书签的功能是用户点击书签的某一章节,电子书会自动显示为相应页。
打开PDF文件时,自动显示书签,书签只展开到第一级目录。
2)在图书的封面、封面后的折页、第一次出现书名的地方、版权页、封底前的折页、封底,添加书签“封面、前折页、书名页、内容提要、版权页、后折页、封底”,其它出现与章节平级的(如序,前言,后记等)内容,必须在图书PDF文件出现的地方按原书内容添加书签。
所有书签均按原书实际顺序排列。
(5)PDF文件初始放大率设置为“适合页面”,书签动作缩放比例设置为“承前缩放”。
(6)打开一本电子书阅览并对文字放大时,保证在放大到百分之二百的时候,字迹清晰,笔画连续,无断裂、缺块的现象,倾斜度不能超过0.5。
(7)每个双层PDF文件综合差错率小于万分之一。
(8)同时制作的单层纯图像PDF文件所使用图像为600DPI,除无文字层外其他要求与双层PDF文件相同。
3.2.2.2电子文件制作的PDF文件
(1)电子文件转换的PDF文件,应纠正内码错误(原文文字错误可以除外,特殊情况经协商,可以调整加工方式),确保所有文字内容能够被正确检索和拷贝,其中外文数字、标点、符号等均应采用半角。
每个PDF文件的文本内容与电子数据一致。
(2)数据内容完整,无缺页、多页、重页、页码顺序颠倒等情况发生。
(3)书签制作。
1)PDF文件制作书签,确保电子书的目录,内容和原始数据中目录一致。
2)在图书的封面、封面后的折页、第一次出现书名的地方、版权页、封底前的折页、封底,添加书签“封面、前折页、书名页、内容提要、版权页、后折页、封底”,其它出现与章节平级的(如序,前言,后记等)内容,必须在图书PDF文件出现的地方按原书内容添加书签。
3)所有书签均按原书实际顺序。
(4)PDF文件初始放大率设置为“适合页面”,书签动作绽放比例设置为“承前缩放”。
(5)对于不完整的电子数据,内容补充完整后按照以上要求加工。
对于无法补充完整的,经协商,可以调整加工方式。
(6)对于规程规范类图书,补扫的封面应该做文字层。
(7)电子文件转制的PDF文件,其CIP部分如果为图片格式,应补做文字层。
3.3XML文件
本项目数字化加工,要提供符合数据库提取标准的XML格式文件。
其中:
工具书按照比较精细化的颗粒度要求拆分,一般要求拆分至条目;
普通图书(包括科技书、论文集、规程规范等)拆分至章(节)。
具体要求如下:
3.3.1格式良好
(1)大小写正确。
(2)嵌套正确。
(3)除CDATA字段外,<
和&
和>
和’和”须使用字符引用。
3.3.2规范、可读性强
(1)通过缩进使得逻辑结构清晰。
(2)凡不能一行内结束标签的,需开始标签和结束标签在同一列。
(3)必要时添加注释。
(4)因XML不自动合并换行和空格,因此不应有多余换行和空格,尤其是段首和英文同一单词的字母中间。
(5)文中原有的空格一律保留。
3.3.3正确性
标引完成后,需:
(1)利用XML自动提取目录,然后与PDF目录进行比对,应无误。
(2)核对版权页,应无误。
(3)核对页码,应无误。
(4)XML文字内容应与电子文件(纸质图书)应一致。
(5)元数据与正文要求拆分准确;
元数据位置填写准确、文字正确。
3.4各种附件加工的具体要求
(1)图片。
对于排版文件中的图片采用原生提取,不得采用截图等方式,致使原始图片丢失。
纸书扫描的除外。
(2)表格。
非特殊要求,一般均按图片处理,表格中的文字整体作为一个字段,用于检索。
(3)公式。
除甲方另行与乙方协商的情况外,较复杂的公式均可按图片处理。
(4)行内公式。
行内的较复杂公式可作为行内图处理。
(5)造字。
GB18030字符集以内的字符均转化为编码字符,以外的字符按行内图处理。
4成品数据的检验标准与要求
4.1数据完整性
(1)以出版社的制作要求进度范围为准,低于进度计划约定量95%,视为无效提交(出版社要求或事先征得出版社书面同意除外),加工方须在规定时间内全部重新提交。
(2)以出版社的制作要求范围为准,图书品种如有缺少,加工方须在2个工作日内补充提交所缺图书的数据。
如缺少册数超过本次约定册数的2%,视为无效提交。
加工方须在规定时间内补充提交缺少的图书。
(3)提交的每册图书如缺少图像、PDF、XML、EPUB排版文件(如果出版社提供原始排版文件,则中标方应提供整理后的排版文件;
如出版社未提供原始排版文件,则该项不需提供)中的任何一项,该册图书视为不完整。
加工方须在规定时间内补充提交缺少的部分。
(4)每册图书的图像文件如有缺少(纸质书本身缺页、残页除外),加工方须在2个工作日内补充提交所缺图像文件。
如一本书有缺少图片情况,该册图书按不合格处理。
(5)每册图书的PDF文件如有缺页(纸质书本身缺页、残页除外),加工方须在2个工作日内补充该页内容重新提交该书的PDF文件。
如一本书有缺页情况,该册图书按不合格处理。
(6)无效提交,不能算成果交付,以最终补充完整时间为正式交付时间。
正式交付超过进度要求时间,按逾期处理。
(7)少量缺失部分如在2个工作日内未补充完整,超出时间按逾期处理。
4.2数据规范性
(1)数据以硬盘形式提交,同时提交文件清单,文件清单应包括文件路径、文件名、文件创建日期、文件修改日期、文件的哈希值(16进制的MD5)。
所有文件的以上信息记录在一个txt格式文档中,然后对该txt文档再次提取哈希值,并将该哈希值打印,加盖乙方公章。
此将作为后期检验中标方文件是否被购出版社改动过的唯一凭证。
(2)每册图书建立一个文件夹,该书的图像文件、PDF文件、XML文件、EPUB文件和排版文件等都存放在此文件夹中。
(3)双层PDF文件、矢量PDF文件、XML文件、EPUB文件名要求相同。
(4)对于有电子文件的图书,须在图书文件夹下另建“source”文件夹,将整理后的排版文件放在此文件夹下,电子文件中缺页、少页补扫的图像文件也存放于此。
(5)对于纸书扫描制作的图书,每页的图像文件须在图书文件夹下另建“tif”文件夹,每页图像文件都放在此文件夹下。
每页图像文件名命名在以文件名称排序条件与图书页的顺序完全一致。
(6)在图书文件夹下的XML文件夹下另建“插图”文件夹,里面存放书内页插图、图表等非文本信息单独提供的扫描图文件。
文件名中能够体现页码信息。
(7)对于因电子文件版本较老而改为纸质扫描制作的图书,加工时其相应的电子排版文件应同时保存到附件的数据包内。
(8)提交文件的数据结构须完全符合本招标文件要求的数据结构。
(9)如未按以上条件提交的,视为无效提交,中标方须按规范调整后重新提交。
以最终符合规范的提交时间为正式交付时间。
4.3数据质量
4.3.1图像质量
(1)图书每页的图片(包括扫描TIF图、双层PDF文件图像层所使用的图片和纯图片PDF文件所使用的图片)只要有一项未满足约定技术和质量要求,该张图片为质量不合格。
(2)每册图书不合格的图片数量超过1%,则该书质量不合格。
4.3.2PDF文件质量
每册图书出现以下任何一种情况,则确定书不合格。
(1)差错页数超过PDF文件总页数0.5%。
差错页包括缺页、多页、错页、页序错误、图像未满足约定技术和质量要求的页。
(2)综合差错率大于万分之一。
每册书的综合差错率计算公式:
每册图书综合差错率=该书总差错数/该书总字数
总字数计算方法为=每行字数*每页行数*有效页数
差错计算方法如下:
(1)文字层的汉字错误(错字、漏字、多字、重复、角标等)每一个字计算一个差错。
(2)文字层外文、数字、页码每一个字符计算0.5个差错。
(3)文字层标点符号和其他符号每一处算0.2个差错。
(4)书签漏作、文字错误、链接错误、动作缩放比例设置错误,每一处计一个差错。
(5)书签打开PDF文件未自动显示或展开层级错误,计一个差错。
(6)PDF文件初始放大率设置错误计一个差错。
(7)图像层和文字层的文字对位不准确,每一处计0.5个差错。
(8)其他差错按0.5个计,出版社可根据实际情况进行调整。
4.3.3XML质量
(1)XML格式不符合要求,该书XML文件不合格。
(2)XML差错率(含章节目录XML)超过万分之一,该书XML文件不合格。
XML差错率=该书总错误数/该书总字数
1)汉字错误(错字、漏字、多字、重复、角标等)每一个字计算一个差错。
2)外文、数字每一个字符计算0.5个差错。
3)标点符号和其他符号每一处算0.2个差错。
4)影响正文内容文字连续性的内容未剔除,每一处计算一个差错。
5)段尾未回车,段首非两个全角空格,段落间除回车和两个全角外有其他符号,每出现一次计算一个差错。
(3)XML元数据只要有一项错误,则该条所属图书元数据不合格。
不合格图书册数超过该批总册数1%,则该批图书元数据不合格。
4.3.4纸书质量
(1)出版社注明不得拆书的图书,加工方不得拆书。
(2)允许拆书的图书,拆后必须重新装订,并保持图书页的完整,页排序正确。
装订后不得掉页。
保持每页面积大小一致,无明显歪斜。
书脊保留完整。
以上规定和要求主要是面向数据外包的管理办法;
对于出版社内部自主加工处理的数据,所有技术参数和要求参照以上规定执行。
成品数据提交要求参照以上规则,由数字出版中心负责直接对加工人员进行监督检查。
WelcomeTo
Download!
!
欢迎您的下载,资料仅供参考!
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数字化 加工 管理办法