udn数位典藏历程
如何把已经泛黄的数十年旧报纸,转换为信息时代可用的知识?如何把每天生成数十万字报纸新闻有效地分类整理?即使信息科技发展至今,仍没有一项技术可以满足上述需求。联合知识库集成国内外多项技术,克服各项技术障碍,自行开辟一条新途径,造就最大的华文新闻数据库。
(1)、OCR光学辨识技术
联合知识库以光学辨识技术(OCR)进行报纸的整版扫描,再用图文切割方式,将报纸版面上的内容分区切块辨识保存,然后再以新开发的系统进行「自动为主、人工为辅」的两套循环校对除错,最后在使用上辅以人工智慧资料加值与搜寻引擎技术。
(2)、大量文字辨识校对及管理系统
在这条报纸数位化的生产线上,先透过大尺寸的数位扫描仪将报纸图象扫入计算机中,后端的图象处理服务器进行去除图象杂讯,接着切割报纸标题与内文区块,校对版面,并逐版把切割完成的报纸图象登入数据库中。文字条稿图象登入数据库后,接着将依照定做的文字辨识核心进行辨识,此阶段的正确率可以达到98%以上。制作过程,每篇文章错误不到一个字。
新闻内文的部分可以直接登入数据库,但标题的部分却需要人工输入。这是因为报纸标题的域、字体、字体非常多元化。 下一步则是困难度甚高的「校对」,利用集字校对工具软件将辨识出的相同文字排列,进行计算机自动比对,约可过滤出2%辨识上有疑问的文字及符号,然后进行人工确认,此阶段的正确率约98.88%。接着再使用切字及难字校对,完成后的正确率约为99.62%。最后,还要进行─「逐字校对」,校对计算机挑选出来的可疑字。
更详细的生产流程

(3)、技术效益

 速度正确率
人工打字48K/人日99.6%
UDN系统3M/人日99.91%

根据研究与统计,人工打字每人每天约可产出四万八千字,一般错误率为千分之四至千分之五。

联合知识库当前采用的解决方案,单机每日可以产出一百卅六万字,没有进行校对前的正确率已达98%,经过两次循环校对后,正确率可高达99.91%,在成本效益与执行绩效上,可说是相当成功。在当前中文辨识的相关技术中,也已是辨识成功率最高的办法。

联合报系报纸数位化的工程,正以一步一脚印的精神,逐日逐月地、由近至远回溯过去的报纸,每天新增资料量共有6,500笔,其中包括当天联合报系国内五份报纸的约1,500则新闻,回溯资料约5,000则。

UDN数位典藏经验
UDN数位典藏服务
UDN数位典藏成果
FAQ
客户需求
相关网站