2024年3月9日发(作者:)
计算机文本素材的获取和编辑方法
作者:丁小峰 王长丰
来源:《理财·经论版》 2015年第7期
丁小峰① 王长丰②
文本是文字、字母、数字和各种功能符号的集合。在现实生活中,人们对事情的讲述、逻
辑的推理、数学公式的表述等都主要用文字和数字来准确地表达。
一、文本的特点和作用
文本指的是在计算机中运用文本编辑软件编写的,并以文本格式存储的文字信息。文本是
计算机办公自动化和多媒体应用中最重要的媒体元素之一,并且具有丰富的表现形式,如文字
叙述、图形图像的文字注释、提问与解答、片头片尾的字幕等。
与其他媒体相比,文本素材具有以下特点:编码形式简单;容易处理、占用存储空间最少、
最方便利用计算机输入和存储;处理和传输容易;文本传播信息时最为准确、有效;通过字体、
字形、颜色等格式改变可以使表现形式丰富多样;可以配合其他媒体的应用提高作品表现力;
很方便建立超文本链接功能。
鉴于以上特点,办公自动化和多媒体应用中行文、表述、标题、菜单、按钮、导航、超链
接等方面往往都用到文本信息。在多媒体应用系统中,虽然有图形、声音、视频影像等多种媒
体形式,但是对于一些复杂而抽象的事件,文本表达却有它不可替代的独到之处。
二、文本素材的常见存储格式
目前流行的文字处理软件种类很多,不同的软件生成的文件格式各不相同。当使用不同的
文本编辑软件编辑文本时,系统通常会采用默认的文本文件格式来保存文档。在Windows 系统
平台下,使用文字素材时应尽可能采用Windows平台上的文字处理软件,选用文字素材文件格
式时要考虑开发工具是否能识别这些格式,以避免准备的文字素材无法插入到开发工具软件中。
常见的文字素材格式主要有:
TXT 格式: 文件扩展名是“.txt”, 是纯ASCII 码文本文件。纯文本文件除了换行、回
车、文字大小、字体外,没有颜色、位置、间距和更多的其他格式化信息,是Windows 系统的
“记事本”中默认的文本存储格式。
WRI 格式: 文件扩展名是“.wri”, 是Windows 系统下的写字板应用程序默认支持的文
件格式。
DOC 格式: 文件扩展名是“.doc”, 是Microsoft Word 字处理软件所使用的默认文件
格式,其中可以包含不同的字符格式和段落格式。
RTF 格式:文件扩展名是“.rtf”,是RichText Format 文件格式,可以包含文字、图片
和超文本等多种媒体的文档。写字板、MicrosoftWord 字处理软件中能将文档保存为RTF 文件
格式。
WPS 格式:文件扩展名是“.wps”,是金山中文字处理软件默认的格式,与Microsoft
Word字处理软件的“.doc”格式类似,可以对字符和段落很方便地设置不同格式。
三、文本的获取
文本获取的方法很多,常见的有以下几种:
(一)键盘输入法
键盘输入法即利用键盘按照一定的编码规则来输入汉字。这是最早采用的文本输入方法,
也是目前计算机进行文字输入最普遍的方式。其中,英文字符可以直接从键盘输入,无须编码;
汉字输入则必须对汉字编码,可以根据汉字的读音或基本形状编码,常用的有“智能ABC
输入法”“微软拼音输入法”“五笔字型输入法”“搜狗拼音输入法”等。汉字输入法种类繁
多,而且新的输入法还在不断涌现,各种输入法各有特点,功能也不断增强。
(二)扫描仪+OCR 识别输入法
在实际办公中,如果需要进行大量文字录入,如书稿、资料等,仍用手工录入,无疑会浪
费许多时间,用“扫描仪+OCR 识别( 光学字符识别)”的方法,可以大大加快文字录入速度,
提高工作效率。
“扫描仪+OCR 识别” 输入法就是将印刷品类纸张上的文字以图像的方式扫描到计算机中,
再用OCR 软件将图像中的文字识别出来,并转换为文本格式的文件。扫描仪是OCR 技术中必备
的配置。被扫描的原稿印刷质量越高,识别的准确率就越高。
需要注意的是,扫描仪本身并没有文字识别功能,它只能将文稿扫描到计算机中后以图片
的方式保存,文字识别则由OCR 软件处理完成。常见的OCR 软件种类比较多,清华THOCR、汉
王OCR、尚书OCR、蒙恬识别王、丹青中英文辨识软件等都具有较高的声誉。
(三)语音输入法
语音输入法是将声音通过话筒输入计算机后直接转换成文字的一种输入方法。利用语音识
别技术,计算机能迅速、自然地把读入计算机的声音信息转换成计算机中的文本。
语音输入法在硬件方面要求电脑必须配备能正常录音的声卡和录音设备,安装语音识别软
件。在调试好麦克风后,即可以对着麦克风进行朗读录入。因为每个人的发音情况不同,可用
语音识别软件提供的语音训练程序,进行一段时间的训练,让软件熟悉和适应您的口音后,就
可以通过讲话来实现文字输入。识别软件将录入的语音信号识别转换为数字文本,实现语音文
字输入。
常用的语音识别软件有IBM 公司的VIAVoice、Dutty ++ 语音识别系统、天信语音识别系
统、世音通语音识别系统等。
(四)手写识别输入法
手写输入法是一种便捷的文本输入方式,将手写板与计算机连接,通过特制的感应书写笔
来完成文本输入。它符合人们用笔写字的习惯,只要将手写板接入计算机,在手写板上按平常
的习惯写字,电脑就能将其识别显示出来。
手写识别输入的优点是,不用专门学习训练,即写即得,并且识别率较高,其录入速度取
决于书写速度。
(五)从电子书籍、网页中获取
由于目前电子书籍和相关网站中有很多可以利用的文本素材,因此可以从电子书籍、网页
中很方便地获取。当然,在获取文本素材以及其他多媒体素材时,一定要注意遵守版权法的规
定,尊重他人的知识产权。
一般情况下从电子书籍、网页中获取文本可以采用复制粘贴的方法,网页也可以直接用
“保存网页”的方法保存下来,以备后用。从网页上下载的文字资料一般都包含有格式控制符,
如果直接下载到“Microsoft Word”等字处理软件中,常常会带有一些不需要的格式符号或含
有表格形式,通过 “记事本”等工具,将下载的文本资料转换为纯文本后再导入Word中,会
使排版变得轻松快捷。
实践探究任务之一:从网页中获取文本
1. 打开一个网页,拖动鼠标左键选中需要的文本。点击鼠标右键,选“复制”,或在“编
辑”菜单中选“复制”,或按快捷键“Ctrl+C”。
2. 打开“记事本”软件窗口,点击鼠标右键,选“粘贴”,或在“编辑”菜单中选“粘
贴”,或按快捷键“Ctrl+V”,把网页文本放入“记事本” 中,去掉不必要的格式。
3. 在“记事本”软件窗口,点击鼠标右键,选“全选”,或在“编辑”菜单中选“全选”,
或按快捷键“Ctrl+A”,把 “记事本” 中文本全部选中,点击鼠标右键,选“复制”。
4. 打开“Microsoft Word”字处理软件,点击鼠标右键,选“粘贴”,把文本粘贴到窗口
中进一步编辑处理。
也有一些网页上的文本内容不能被选择和复制,也不能被保存为网页文件或文本文件。为
了获得这些文本素材,通常可采用下面的方法。
实践探究任务之二:从网页源文件中获取文本
1. 在网页的空白处用鼠标右击,在快捷菜单中选择“查看源文件”菜单项,弹出网页源文
件编辑窗口。该窗口一般是记事本窗口。
2. 查看该文件的内容,将有用的文本内容复制下来即可。
(六)从其他素材转换得到
为了方便电子阅读和网络传播, 现在很多文本都放在了一些特殊文件格式中,例如PDF、
CAJ、NH、KDH 格式和SWF 格式等。但是在编辑文章时使用这些文本时不太方便,我们可以从
这些格式中把有用的文本提取出来。
PDF、CAJ、NH、KDH 格式中的文本可以安装CAJViewer 或Adobe Reader 等阅读器软件打
开,其中附带有基本的文字选择和复制功能,把需要的文本复制出来。
实践探究任务之三:用CAJViewer 阅读器提取PDF 格式文件中的文本
1. 如图1,在CAJViewe7.0 软件中打开“AO现场审计实施系统数据处理”PDF 格式文件。
2. 拖动滚动条,定位到需要的文本页面。
3. 鼠标移到常用工具栏“选择文本”按钮上点击。
4. 选择需要的文本,使之变为高亮,点击鼠标右键,选“复制”。
5. 下面步骤与“实践探究任务之一”中(2)到(4)步相似。
6. 也可以使用“工具”菜单或工具栏中的“文字识别”功能获取相关需要的文本。
SWF 格式中的文本可以用“硕思闪客精灵”反编译或者“SWF 文本提取工具”等工具软件
提取出来。
四、文本的编辑处理
文本的加工处理软件很多,最常见的有“写字板”“Microsoft Word”“金山WPS”等软
件,“Ulead COOL 3D”等软件则可以很方便地制作三维文字素材,大多数集成工具软件中也都
自带有文字编辑功能。
如果已经在文字编辑软件中通过编辑得到了文字的特殊效果,现在需要原样呈现,该怎么
办呢?如果开发时应用了一些很特殊的字体,但运行在没有装这些字体的机器中时经常出现字
体找不到,无法原样正常显示的问题,又该怎么办呢?我们可以把编辑好的文本内容用图像方
式保存下来,或者在某些图像处理软件如Photoshop 中把文字直接做成特殊的效果图片,插入
到文档中。这种图像化的文字保留了原始的风格(字体、颜色、形状等), 并且可以很方便地
调整尺寸。
实践探究任务之四: 应用“MicrosoftWord”制作特殊文字效果
1. 启动Word 应用程序,在默认新建的文档窗口中, 依次点击菜单“插入” →“文本
框”→“横排”,在编辑窗口中拖曳出一文本框,并调整大小。
2. 在绘图工具栏中的“填充颜色”按钮下拉列表中选择“填充效果”命令,打开“填充效
果”对话框,在“渐变”选项卡中,选择“预设”单选按钮,预设颜色选项设为“金色年华”,
“底纹式样”选区中单选“中心辐射”,最后按下“确定”按钮完成设置。
3. 设置文本框的边框线型和边框颜色:按下绘图工具栏中的“线型”按钮 ,在弹出线型
列表中选择“6 磅”值选项,再单击绘图工具栏中的“线条颜色”按钮旁的箭头,在弹出的线
条颜色列表中选择“金色”。
4. 设置文本框的阴影:按下绘图工具栏中的“阴影” 按钮,在弹出的列表中选择一种
“阴影”样式,完成设置后效果如图2 所示。
5. 按下绘图工具栏中的“艺术字”按 钮,打开艺术字库对话框,选择所需的艺术字样式
并按下“确定”按钮,在打开的 “编辑艺术字文字”对话框中输入文字“AO 现场审计实施系
统”,单击“确定”按钮,完成艺术字插入;
还可以在艺术字工具栏中,设置艺术字的其他格式。
6. 可以进一步利用绘图工具栏中一些工具设置艺术字的填充效果、边线颜色及阴影、绘制
各种图形等特效来美化艺术字,最后效果如图3 所示。
7. 按下键盘上的“Shift”键,用鼠标选定图3 中的艺术字、文本框等对象,然后单击鼠
标右键快捷菜单,选择“组合”选项的下级菜单中的“组合”命令,完成对象的组合。
8. 将组合好的艺术字以图片的格式保存。
选定上面已经组合好的图像化文字对象,单击常用工具栏上的“复制”按钮,放入
Windows系统的“剪贴板”中。
9. 打开一个图像处理软件, 如AdobePhotoshop 或者Windows 系统的画图软件,“编辑”
菜单中的“粘贴”命令,将剪贴板中的内容粘贴到编辑窗口中。
10. 选择“文件”菜单的“另存为”命令,打开“保存为”对话框,在其中设定好图片文
件的保存路径、文件类型及文件名,单击“保存”按钮完成图像文件的保存。
(作者单位:①河南省沁阳市审计局 ②焦作师范高等专科学校)


发布评论