设为首页收藏本站繁体中文

轻之国度

 找回密码
 注册(右键在新窗口打开)

QQ登录

只需一步,快速开始

查看: 5346|回复: 4
收起左侧

关于图片式轻小说的文字录入

 关闭 [复制链接]
发表于 2008-2-28 16:27 | 显示全部楼层 |阅读模式
  大致看了一下论坛分区,不太清楚发在这里是否算作错区,如果有其他更合适的地方,烦劳版主帮忙移动。


  本文内容是讲解如何将自己的轻小说录入成文本格式,当然你可以“手打”,不过一来速度有限,二来大部分人的拼音打快了容易出现错字,不如用软件读取,然后改错,这样反而往往比较方便。有些朋友不想直接看书打,有些直接扫描出图片分享。我觉得还是文本方式比较小,图片往往很大,字小了太费眼,图片大屏幕小,翻页什么的也很不方便,况且文本格式可以方便的让大家快速转载,文字也方便搜索收录,让更多人找得到,而且文字还很灵活,喜欢各种字体的朋友可以根据喜好调整,比图片强不少。


  我自己没有大量尝试过使用软件,有这方面经验的朋友看到我讲的有什么不对或者补充,不妨跟个帖子给点意见。

  这里打算抽空分几次,将我应用软件的一点经验分享一下。

第一讲:ORC软件应用配合PS处理图片的技巧

关键词:orc软件
  ORC软件就是“识别图片上的文字”软件
  我用的是“汉王文本王-专业版(文豪7600绿色简洁专业版小版)”。估计是汉王配合扫描仪的一款软件,识别方面还可以,对竖排的繁体文字支持的不错,这正是轻小说的主要形式。有兴趣的朋友可以找PM我要一份。

关键词:photoshop
  这款软件是著名的图片处理软件,相信不少朋友经常用它。我推荐用PS(PHOTOSHOP)来提升图片质量。网上我搜了一下,部分用ORC的朋友也提出了这个概念,用PS把图片放大,让不易识别的文字更容易识别。

  关于PS对ORC识别图片的优化,特别是对轻小说的图片优化,我个人在应用方面有一些经验提供——
  1、轻小说书页的图片有很多地方是相同的,比如每页的“页数”、扫描书脊的痕迹、书页周边的一些花纹和固定的文字等等,这些都有可能对识别带来问题,应该设法用白色覆盖,去掉其影响。
  2、扫描质量模糊的,可以进行“锐化”处理。轻小说以黑白文字为主,扫描时,书面调整“色阶”能让白的地方更白,黑得地方更黑,是有效的去处杂色,加深文字的方法,是创造清晰的文字的最佳办法。
  3、最简单的优化方法——就是放大图片。有的时候ORC就像没戴老花镜的老太太,文字大了,它才分辨的清楚。
  ——关于放大图片再多说一点,你可以多凭自己的经验来判断到底是否要放大,起码我建议放大的不要太多。
  放太大容易出现“拆字”现象。特别是上下结构的字。我们刚才也说了,轻小说原版扫图多是竖排繁体字,这样它往往会吧“章”这样的字拆成“立早”。字放得越大,这种可能性就相对越大。特别是在能够识别“手写体”的软件中,这类软件每个字的大小确认不一定是“固定”的,容易出现这类错误。
  当然,如果放不大,识别的不好,例如西方人名中间的那个点——“·”这样的符号,也许会当作“杂色”不识别。(当然,这个问题不大,就算能够识别,繁体小说中间的“·”比我们用的要小的多,往往识别成英文的句号“.”了,最后你还要改成“·”。)

  4、由于往往一部轻小说都是以相同的方式扫描,所以上两种操作在每一页处理时都差不多,你可以灵活运用PS的“动作”,来设定一组“动作”,达到批量处理图片的目的。这个能大大提高效率。

关键词:实践,初步设定。
  下面,我拿汉王文本王来做个例子,讲一下扫描繁体竖排的初步设置。

  安装等问题就不说了,进入软件后,首先将左上角的“一键OK”改为“打开识别”。将“扫描”改为“打开”。因为我们的图片一般都是需要PS处理的,处理完后再打开图片就可以了。
  另外需要注意的是,PS处理图像的时候,如果图像是PNG或GIF的,一定要变成BMP或者JPG格式否则“文本王”不能读取(JPG比较小一些,推荐)。
  简体横排字默认设置即可,繁体竖排字要特别设置一下“繁简识别”。
  识别完毕后,对于软件“智能”觉得识别的不好的字,会特别“标红”,但我建议你还是都读一次,因为很多东西识别的并不是很好,比如繁体的“亞”往往忽略了上下两横,识别成“中”了。
  这个问题如果经常出现,你可以使用软件的“手写学习”功能,具体可以参阅软件帮助的“操作指南”中“文本王专业版”中的相关内容,这里就不赘述了。
  识别软件肯定不是好的文字编辑软件,你编辑一个文字的时候,同时为了方便显示图片中该文字的样子,和一般编辑软件并不一样,模式大概相当于点了“insert”键后在电脑中输入文字的感觉,就是插入文字会覆盖后面的文字,这样是为了方便修改,用惯了就好。
  修改完后,选中所有文本,然后选择“到出到WORD”,可以进行繁简转换,顺便在word中检查一下还有没有文法错误也是很好的。
  我用的是word2007,选择导出后只把WORD程序打开,然后显示错误,之后我新建了一个WORD文档,全部文字选中再点才算成功导出。

====================
最后送个“彩蛋”:TXT表格也很漂亮,把你做好的表格用ORC软件“表格识别”一下,然后导出为TXT文本,得到的TXT表格文件,可以发到论坛来,呵呵。(当然,论坛显示的空格和文本中不同,最好用全角空格替换一次)
====================



  至此,大致就完成了一页的录入,说起来麻烦,但用多了批量其实很快。大家有兴趣可以试试。

  这次时间仓促,有一定PS基础的朋友比较容易理解,下次会做一段视频,详细讲解一下每步的操作步骤。

  本人文字功底有限,这里分享的仅为个人的一点经验,算是原创,如果承蒙转载,不妨文前加一句“原产地/贪婪大陆论坛轻小说区(http://bbs2.greedland.net/forum_forumId85.html ) 文/电子芒果”
发表于 2008-2-28 16:46 | 显示全部楼层
楼主原创的啊,不错不错,我来学习下,PS我一窍不通。
发表于 2008-3-9 19:35 | 显示全部楼层
原来还有这样的方法呀,长知识了
发表于 2008-3-30 15:58 | 显示全部楼层
长见识了啊,LZ自己写的么,很厉害捏
发表于 2012-3-31 14:20 | 显示全部楼层
不用这么麻烦了。试试这个吧。新科技ocr 简单易用
下面是华军的下载点
http://www.onlinedown.net/soft/266446.htm

本版积分规则

手机版|Archiver|轻之国度

JS of wanmeiff.com and vcpic.com Please keep this copyright information, respect of, thank you!JS of wanmeiff.com and vcpic.com Please keep this copyright information, respect of, thank you!

  

GMT+8, 2024-4-30 22:42

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表