我的博文
简单说一下把200多万字的《诊断病理学》文本整理出来的过程
2013-03-19 19:58 阅读(690) 评论(6) 分类:随笔
是为了记录一下自己做的这个事的过程,留下一点也许对别人可能有用的信息,特写此篇。
首先,把厚厚的一本《诊断病理学》整理成纯文本,其实更多的是一件体力活!
其次,做这件事的目的有几个:①为了能方便在电纸书上看。②通过这种方式强迫式地让自己系统的研读一下整个病理体系。③制作一个自己能够学习使用的电子参考资料库,原书配图太少,我可以在网上查找更多更丰富的图片制成图文并茂的网络版学习参考书。④我想精读这本书,我想成为一个专家,所以我要下一些死功夫,用一些笨办法。⑤最后一点,把它放在网上,可以让别人也能利用、学习,满足一点虚荣心。
简单介绍一下我把《诊断病理学》(第二版,刘彤华 主编)文字整理出来的过程,其中也涉及到一下自己思考后找到的一些小技巧和方法。
完成整个工作,大约花了我3个多月的闲暇时间!
介绍一下过程和方法。
第一步 | “拆书” | 将《诊断病理学》按章拆成十几册,即是方便携带供零散阅读,也是为了为下一步提供方便。 | 耗时约一天(个把小时就能搞定) |
第二步 | “扫描” | 用扫描仪扫取各章节书页,按原书页码命名扫描文档。 扫描仪设置成“300dpi”“灰度”、连续扫描模式 可利用Acdsee视图软件中的“批量更名”功能为图片命名。 | 粗略估计一下,大约花了半个月的闲暇时间 |
第三步 | “识别” | 利用OCR软件识别所有扫描图片,形成的相应TXT文件。 可利用OCR软件中的“自动识别”“批量处理”功能快速完成识别工作。 | 九百多个页面,耗时最长,将近花了一个月的时间 |
第四步 | “编制” | 对照原书,把TXT文档内容重新整理,按章建立文件夹,按节、段编辑制成单个文档,为各文档编上章节段落的序号。 | 用时最多,最耗精力,大约花了一个半月的时间还多。 |
共0条评论