第5章5[1][1]1 文本與文本處理
![第5章5[1][1]1 文本與文本處理_第1頁](https://file4.sobing.com/fileroot4/2022-6/8/719f171f-5bfd-45bc-a9ad-007965ea7480/719f171f-5bfd-45bc-a9ad-007965ea74801.gif)
![第5章5[1][1]1 文本與文本處理_第2頁](/images/s.gif)
![第5章5[1][1]1 文本與文本處理_第3頁](/images/s.gif)
《第5章5[1][1]1 文本與文本處理》由會員分享,可在線閱讀,更多相關《第5章5[1][1]1 文本與文本處理(67頁珍藏版)》請在裝配圖網上搜索。
1、專轉本計算機基礎輔導專轉本計算機基礎輔導 第第5章章數(shù)字媒體及應用數(shù)字媒體及應用5.1文本與文本處理文本與文本處理5.2圖像與圖形圖像與圖形5.3數(shù)字聲音及應用數(shù)字聲音及應用5.4數(shù)字視頻及應用數(shù)字視頻及應用專轉本計算機基礎輔導專轉本計算機基礎輔導 本章考題題型分布本章考題題型分布年年份份單選單選多選多選填空填空判斷判斷小計小計2005年年112152006年年313292007年年411392008年年511292009年年511292010年年51129專轉本計算機基礎輔導專轉本計算機基礎輔導 5.1文本與文本處理文本與文本處理5.1.1字符的編碼字符的編碼5.1.2文本準備文本準備5.1
2、.3文本的分類文本的分類5.1.4文本編輯、排版與處理文本編輯、排版與處理5.1.5文本的展現(xiàn)文本的展現(xiàn)專轉本計算機基礎輔導專轉本計算機基礎輔導 文字處理是計算機應用的基礎文字處理是計算機應用的基礎計算機應用使用計算機進行信息處理計算機應用使用計算機進行信息處理其中,其中,文字信息處理是涉及面最廣的一種文字信息處理是涉及面最廣的一種計算機應用,幾乎與任何領域任何人都有計算機應用,幾乎與任何領域任何人都有關。關。文字文字數(shù)值數(shù)值語言語言音樂音樂圖像圖像信息的形態(tài)有多種信息的形態(tài)有多種專轉本計算機基礎輔導專轉本計算機基礎輔導 寫作寫作編輯編輯排版排版印刷印刷發(fā)行發(fā)行寫作寫作傳統(tǒng)的文字處理過程傳統(tǒng)的
3、文字處理過程專轉本計算機基礎輔導專轉本計算機基礎輔導 計算機文字處理過程計算機文字處理過程文字信息在計算機中稱為文字信息在計算機中稱為“文本文本”(text),文本是),文本是計算機中最常用的一種數(shù)字媒體計算機中最常用的一種數(shù)字媒體文本由一系列文本由一系列“字符字符”(character)組成,每個字)組成,每個字符均使用二進制編碼表示符均使用二進制編碼表示文本在計算機中的處理過程是:文本在計算機中的處理過程是:(文本編輯器文本編輯器)文本編輯文本編輯與排版與排版格式化的格式化的電子文本電子文本(2)文本文本展現(xiàn)展現(xiàn)(文本閱讀器文本閱讀器)(5)文本處理文本處理(文本處理軟件文本處理軟件)(3
4、)文本準備文本準備電子文電子文本本(1)(文字與圖表文字與圖表 的輸入的輸入)文本存儲文本存儲與傳輸與傳輸(4)(存檔存檔/通信軟件通信軟件)專轉本計算機基礎輔導專轉本計算機基礎輔導 5.1.1.字符在計算機中的表示字符在計算機中的表示專轉本計算機基礎輔導專轉本計算機基礎輔導 字符、字符集及其編碼表字符、字符集及其編碼表文字的基本元素是字母和符號,統(tǒng)稱為文字的基本元素是字母和符號,統(tǒng)稱為“字符字符”(character),它包括:字母、數(shù)字、標點、,它包括:字母、數(shù)字、標點、符號等符號等字符集:一組特定字符的集合字符集:一組特定字符的集合不同的字符集包含的字符數(shù)目與內容不同,如:不同的字符集包
5、含的字符數(shù)目與內容不同,如:中文字符集、西文字符集、日文字符集等中文字符集、西文字符集、日文字符集等字符的編碼:字符的編碼:字符集中每個字符的二進位表示,稱為該字符的編碼字符集中每個字符的二進位表示,稱為該字符的編碼或代碼或代碼(code)不同的字符其編碼各不相同不同的字符其編碼各不相同字符集中所有字符的編碼的一覽表,稱為該字符集的字符集中所有字符的編碼的一覽表,稱為該字符集的碼表碼表專轉本計算機基礎輔導專轉本計算機基礎輔導 一、西文字符的編碼一、西文字符的編碼ASCII碼碼西文是表音文字西文是表音文字(拼音文字拼音文字),它由拉丁字母、數(shù)字、,它由拉丁字母、數(shù)字、標點符號以及一些特殊符號所組
6、成標點符號以及一些特殊符號所組成美國標準信息交換碼美國標準信息交換碼(ASCII碼碼):ASCII字符集包含字符集包含96個可打印字符和個可打印字符和32個控制字符個控制字符采用采用7個二進位進行編碼個二進位進行編碼計算機中使用計算機中使用1個字節(jié)存儲個字節(jié)存儲1個個ASCII字符字符存在問題:存在問題:字符集太?。ㄖ挥凶址。ㄖ挥?28個字符)個字符)不同國家和地區(qū)使用不同的字符集及其編碼,互不兼容不同國家和地區(qū)使用不同的字符集及其編碼,互不兼容東亞地區(qū)使用的大字符集無法編碼東亞地區(qū)使用的大字符集無法編碼0X X X X X X X專轉本計算機基礎輔導專轉本計算機基礎輔導 一級漢字一級漢
7、字(3755個)個)二級漢字二級漢字(3008個)個)(擴充使用)(擴充使用)字母、數(shù)字和各種符號字母、數(shù)字和各種符號19423位號位號191655568794區(qū)區(qū)號號(按漢語拼音排列按漢語拼音排列)(按偏旁部首排列按偏旁部首排列)GB2312漢字編碼字符集漢字編碼字符集1980年頒布年頒布信息交換用漢字編碼字符集信息交換用漢字編碼字符集基本集基本集(我(我國第一個國家標準)國第一個國家標準)GB2312-1980GB2312字符集由三個部分構成:字符集由三個部分構成:拉丁字母、俄文、拉丁字母、俄文、日文平假名與片日文平假名與片假名、希臘字母、假名、希臘字母、漢語拼音等共漢語拼音等共682個個
8、共共6763個漢字和個漢字和682個符號,個符號,每個每個漢字和符號都有一漢字和符號都有一個確定位置個確定位置專轉本計算機基礎輔導專轉本計算機基礎輔導 區(qū)位碼:區(qū)位碼:GB2312國標字符集構成一個二維平面,它國標字符集構成一個二維平面,它分成分成94行、行、94列列,行號稱為,行號稱為區(qū)號區(qū)號,列號稱為,列號稱為位號位號。問題:問題:文本中的漢字與西文字符易與單字節(jié)的標準文本中的漢字與西文字符易與單字節(jié)的標準ASCII碼混淆不清。碼混淆不清。例如:例如:“大大”字的字的區(qū)號區(qū)號20,位號位號83,區(qū)位碼是,區(qū)位碼是2083,用,用2個字節(jié)表示為:個字節(jié)表示為:0001010001010011
9、(1453H)。)。解決方法:解決方法:把一個漢字看作兩個擴展把一個漢字看作兩個擴展ASCII碼,即每個碼,即每個漢字的區(qū)號和位號必須分別加上漢字的區(qū)號和位號必須分別加上32(即(即00100000),且),且使表示使表示GB2312漢字的兩個字節(jié)的最高位漢字的兩個字節(jié)的最高位(b7)都等于都等于“1”。11第第1字節(jié)字節(jié)第第2字節(jié)字節(jié)X X X X X X XX X X X X X X這種高位為這種高位為l的雙字節(jié)(的雙字節(jié)(16位)漢字編碼就稱為位)漢字編碼就稱為GB2312漢字的漢字的“機內碼機內碼”,又稱,又稱內碼內碼。例如:例如:“大大”字的內碼是:字的內碼是:10110100111
10、10011(B4F3)。)。專轉本計算機基礎輔導專轉本計算機基礎輔導 漢字的區(qū)位碼、國標碼、機內碼的關系:漢字的區(qū)位碼、國標碼、機內碼的關系:國標碼國標碼=區(qū)位碼區(qū)位碼+2020H機內碼機內碼=國標碼國標碼+8080H機內碼機內碼=區(qū)位碼區(qū)位碼+A0A0H漢字機內碼雙字節(jié),最高位是漢字機內碼雙字節(jié),最高位是1;西文字符機內碼單字節(jié),最高位是西文字符機內碼單字節(jié),最高位是0。專轉本計算機基礎輔導專轉本計算機基礎輔導 GBK漢字漢字內碼擴充規(guī)范內碼擴充規(guī)范GB2312的不足:的不足:漢字字數(shù)太少,缺少繁體字漢字字數(shù)太少,缺少繁體字,無法滿足無法滿足人名、地名、古籍人名、地名、古籍整理、古典文獻研究
11、整理、古典文獻研究等應用的需要;與等應用的需要;與ASCII碼不兼容碼不兼容GBK漢字漢字內碼擴充規(guī)范(內碼擴充規(guī)范(1995):):在在GB2312基礎上,增加了基礎上,增加了1萬多漢字萬多漢字(包括繁體字包括繁體字)和符號和符號共有共有21003個漢字和個漢字和883個圖形符號,如個圖形符號,如“計計算算機機”、冃冃、冄冄、円円、冇冇等繁體字和生僻字等繁體字和生僻字與與GB8312保持向下兼容,也使用雙字節(jié)表示,第保持向下兼容,也使用雙字節(jié)表示,第1字節(jié)最字節(jié)最高位必須為高位必須為“1”:1 X第第1字節(jié)字節(jié)第第2字節(jié)字節(jié)X X X X X X XX X X X X X X專轉本計算機基礎
12、輔導專轉本計算機基礎輔導 UCS/Unicode多文種大字符集多文種大字符集背景:為了實現(xiàn)全球數(shù)以千計的不同語言文字的統(tǒng)一編碼背景:為了實現(xiàn)全球數(shù)以千計的不同語言文字的統(tǒng)一編碼方案:方案:ISO將全球所有文字字母和符號集中在一個字符集中將全球所有文字字母和符號集中在一個字符集中進行統(tǒng)一編碼進行統(tǒng)一編碼(目前共收集了目前共收集了17x2161,114,112個個),稱為,稱為UCS/UnicodeUCS/Unicode的編碼方案:的編碼方案:先實現(xiàn)部分字符的編碼(共先實現(xiàn)部分字符的編碼(共107,361個字符)個字符)盡量與已有編碼標準兼容盡量與已有編碼標準兼容其中包含有中、日、韓統(tǒng)一整理出來的
13、近其中包含有中、日、韓統(tǒng)一整理出來的近3萬漢字(萬漢字(CJK漢字)漢字)允許有若干不同的編碼方案允許有若干不同的編碼方案,例如:例如:單字節(jié):單字節(jié):ASCII字符字符雙字節(jié):拉丁、希臘、阿拉伯,雙字節(jié):拉丁、希臘、阿拉伯,三字節(jié):三字節(jié):CJK漢字漢字四字節(jié):其他四字節(jié):其他Unicode:UTF-8單字節(jié)可變長編碼單字節(jié)可變長編碼應用:應用:Linux,Web網頁,電子郵件網頁,電子郵件雙字節(jié):雙字節(jié):ASCII字符、拉丁、希臘、字符、拉丁、希臘、阿阿拉伯,常用拉伯,常用CJK漢字,漢字,四字節(jié):非常用四字節(jié):非常用CJK漢字漢字Unicode:UTF-16雙字節(jié)可變長編碼雙字節(jié)可變長編
14、碼應用:應用:Windows,Mac,Java,專轉本計算機基礎輔導專轉本計算機基礎輔導 GB18030漢字編碼標準漢字編碼標準背景:無論是背景:無論是Unicode的的UTF-8還是還是UTF-16,其,其CJK漢字漢字字符集雖然覆蓋了我國已使用多年的字符集雖然覆蓋了我國已使用多年的GB2312和和GBK標準標準中的漢字,但它們的中的漢字,但它們的編碼并不相同編碼并不相同為了既能與為了既能與UCS/Unicode編碼標準接軌,又能保護我國已編碼標準接軌,又能保護我國已有的大量漢字信息資源,我國在有的大量漢字信息資源,我國在2000年和年和2005年兩次發(fā)布年兩次發(fā)布GB18030漢字編碼國家
15、標準漢字編碼國家標準。GB18030實質上是實質上是UCS/Unicode字符集的另一種編碼方案:字符集的另一種編碼方案:單字節(jié)編碼(單字節(jié)編碼(128個)表示個)表示ASCII字符字符雙字節(jié)編碼(雙字節(jié)編碼(23940個)表示漢字,與個)表示漢字,與GBK(以及(以及GB2312)保持向下)保持向下兼容,兼容,GBK不再使用不再使用四字節(jié)編碼(約四字節(jié)編碼(約158萬個)用于表示萬個)用于表示UCS/Unicode中的其他字符中的其他字符GB18030目前已在我國信息處理產品中強制貫徹執(zhí)行。目前已在我國信息處理產品中強制貫徹執(zhí)行。專轉本計算機基礎輔導專轉本計算機基礎輔導 標準名標準名稱稱GB
16、2312GBKGB18030UCS-2(Unicode)字符集字符集6763個漢字個漢字(簡體字簡體字)21003個漢字個漢字(包括(包括GB2312漢字在內)漢字在內)近近3萬漢字萬漢字(包括包括GBK漢漢字和字和CJK及其及其擴充中的漢字擴充中的漢字)包含包含10萬多字符,萬多字符,其中的漢字與其中的漢字與GB18030相同相同編碼方編碼方法法雙字節(jié)存儲和雙字節(jié)存儲和表示,每個字表示,每個字節(jié)的最高位均節(jié)的最高位均為為“1”雙字節(jié)存儲和雙字節(jié)存儲和表示,第表示,第1個字個字節(jié)的最高位必節(jié)的最高位必為為“1”部分雙字節(jié)、部分雙字節(jié)、部分部分4字節(jié)表字節(jié)表示,雙字節(jié)表示,雙字節(jié)表示方案與示方案
17、與GBK相同相同(1)UTF-8采采用單字節(jié)可變長編用單字節(jié)可變長編碼碼(2)UTF-16采用采用雙字節(jié)可變長編碼雙字節(jié)可變長編碼兼容性兼容性編碼編碼不兼容!不兼容!小結:幾種漢字編碼的對比小結:幾種漢字編碼的對比編碼保持向下兼容編碼保持向下兼容專轉本計算機基礎輔導專轉本計算機基礎輔導 例例:IE瀏覽網頁時文字編碼的選擇瀏覽網頁時文字編碼的選擇專轉本計算機基礎輔導專轉本計算機基礎輔導 5.1.2.文本準備文本準備文稿如何輸入計算機文稿如何輸入計算機專轉本計算機基礎輔導專轉本計算機基礎輔導 文字符號輸入計算機的方法文字符號輸入計算機的方法鍵盤輸入鍵盤輸入自動識別輸入自動識別輸入字符信息的輸入字符
18、信息的輸入人工輸入人工輸入(1)數(shù)字編碼數(shù)字編碼,如電報碼、區(qū)位碼等如電報碼、區(qū)位碼等,(2)字音編碼字音編碼,如智能如智能ABC等等(3)字形編碼,如五筆字形和表形碼等字形編碼,如五筆字形和表形碼等,(4)形音編碼形音編碼發(fā)發(fā)展展趨趨勢勢:基基于于統(tǒng)統(tǒng)計計和和學學習習功功能能的的以以詞詞語語(短短語語)或或句句子子作作為為輸輸入入單單位的輸入方法位的輸入方法專轉本計算機基礎輔導專轉本計算機基礎輔導 文字符號輸入計算機的方法文字符號輸入計算機的方法鍵盤輸入鍵盤輸入聯(lián)機手寫輸入聯(lián)機手寫輸入自動識別輸入自動識別輸入字符信息的輸入字符信息的輸入人工輸入人工輸入優(yōu)點:優(yōu)點:自然,流暢自然,流暢小型化,
19、適合移動計算小型化,適合移動計算不足:不足:識別速度和正確性還需提高識別速度和正確性還需提高書寫要求還要降低書寫要求還要降低專轉本計算機基礎輔導專轉本計算機基礎輔導 文字符號輸入計算機的方法文字符號輸入計算機的方法鍵盤輸入鍵盤輸入聯(lián)機手寫輸入聯(lián)機手寫輸入語音輸入語音輸入自動識別輸入自動識別輸入字符信息的輸入字符信息的輸入人工輸入人工輸入優(yōu)點:優(yōu)點:自然,方便,適合移動計算自然,方便,適合移動計算不足:不足:對說話人、說話方式、說話內容的對說話人、說話方式、說話內容的適應能力要大適應能力要大大增強大增強識別速度和正確性還需大大提高識別速度和正確性還需大大提高專轉本計算機基礎輔導專轉本計算機基礎輔
20、導 文字符號輸入計算機的方法文字符號輸入計算機的方法印刷體識別印刷體識別鍵盤輸入鍵盤輸入聯(lián)機手寫輸入聯(lián)機手寫輸入語音輸入語音輸入自動識別輸入自動識別輸入字符信息的輸入字符信息的輸入人工輸入人工輸入掃描儀掃描儀OCR數(shù)字數(shù)字文本文本紙介質紙介質文本文本文本的文本的映象映象(image)識別率已達到率已達到98%功能功能:簡、繁體字、繁體字混合識別混合識別中文、西文混合識別中文、西文混合識別文字、表格混合識別文字、表格混合識別智能校對功能智能校對功能專轉本計算機基礎輔導專轉本計算機基礎輔導 文字符號輸入計算機的方法文字符號輸入計算機的方法印刷體識別印刷體識別手寫體識別手寫體識別鍵盤輸入鍵盤輸入聯(lián)機
21、手寫輸入聯(lián)機手寫輸入語音輸入語音輸入自動識別輸入自動識別輸入字符信息的輸入字符信息的輸入人工輸入人工輸入技術上非常困難,還無法實用技術上非常困難,還無法實用目前準備先突破工整的楷書手寫體的識別目前準備先突破工整的楷書手寫體的識別!專轉本計算機基礎輔導專轉本計算機基礎輔導 漢字的鍵盤輸入漢字的鍵盤輸入漢字與鍵盤上的鍵無法一一對應,因此必漢字與鍵盤上的鍵無法一一對應,因此必須使用幾個鍵來表示一個漢字,這就稱為漢須使用幾個鍵來表示一個漢字,這就稱為漢字的字的“鍵盤輸入編碼鍵盤輸入編碼”優(yōu)秀的漢字鍵盤輸入編碼應具有的特點:優(yōu)秀的漢字鍵盤輸入編碼應具有的特點:易學習、易記憶易學習、易記憶效率高效率高(平
22、均擊鍵次數(shù)較少平均擊鍵次數(shù)較少)重碼少重碼少容量大容量大(可輸入的漢字字數(shù)多可輸入的漢字字數(shù)多)專轉本計算機基礎輔導專轉本計算機基礎輔導 漢字鍵盤輸入方法的比較漢字鍵盤輸入方法的比較類型類型原理原理舉例舉例優(yōu)點優(yōu)點缺點缺點數(shù)字數(shù)字編碼編碼使用一串數(shù)字來表示使用一串數(shù)字來表示漢字漢字電報碼電報碼區(qū)位碼區(qū)位碼僅使用僅使用10個數(shù)個數(shù)字鍵字鍵難記憶難記憶字音字音編碼編碼把漢語的拼音作為漢把漢語的拼音作為漢字的輸入編碼字的輸入編碼智能智能ABC紫光紫光微軟拼音輸入微軟拼音輸入簡單易學,適簡單易學,適合于非專業(yè)人合于非專業(yè)人員員重碼多,需增加選擇重碼多,需增加選擇操作,不會漢語拼音操作,不會漢語拼音或不
23、知道讀音時無法或不知道讀音時無法使用使用字形字形編碼編碼把漢字的部件或筆畫把漢字的部件或筆畫作為碼元,按照漢字作為碼元,按照漢字結構及其切分規(guī)則作結構及其切分規(guī)則作為編碼依據(jù),確定每為編碼依據(jù),確定每個漢字的輸入代碼個漢字的輸入代碼五筆字形五筆字形表形碼表形碼鄭碼鄭碼重碼少、輸入重碼少、輸入速度較快,適速度較快,適合于專業(yè)錄入合于專業(yè)錄入員、打字員使員、打字員使用用缺乏統(tǒng)一的規(guī)范,編缺乏統(tǒng)一的規(guī)范,編碼規(guī)則不易掌握碼規(guī)則不易掌握音形音形編碼編碼(或形音或形音編碼編碼)采用字音及字形兩種采用字音及字形兩種屬性作為碼元的漢字屬性作為碼元的漢字編碼輸入方法編碼輸入方法粵音輸入法粵音輸入法同上同上同時
24、要掌握音、形兩同時要掌握音、形兩種取碼方法或規(guī)則,種取碼方法或規(guī)則,對普通用戶比較困難對普通用戶比較困難專轉本計算機基礎輔導專轉本計算機基礎輔導 5.1.3文本的分類文本的分類專轉本計算機基礎輔導專轉本計算機基礎輔導 簡單文本簡單文本(純文本純文本)本本書書由由南南京京大大學學出出B1BECAE9D3C9C4CFBEA9B4F3D1A7B3F6版版社社(PublishingB0E6C9E7285075626C697368696E67HouseofNanjin20486F757365206F66204E616E6A696EgUniversity)出出版版 6720556E697665727369
25、747929B3F6B0E6文文本本的的內內容容文文本本在在計計算算機機中中的的表表示示沒有字體、字號的變化,不能插入圖片、表格,也不能建立超沒有字體、字號的變化,不能插入圖片、表格,也不能建立超鏈接,其文件后綴名是鏈接,其文件后綴名是.txt由一串用于表達正文內容的字符編碼所組成,幾乎不包含任何由一串用于表達正文內容的字符編碼所組成,幾乎不包含任何其他的格式信息和結構信息其他的格式信息和結構信息舉例:舉例:專轉本計算機基礎輔導專轉本計算機基礎輔導 豐富格式文本豐富格式文本本書由南京大學出版社本書由南京大學出版社(Publishing House of Nanjing University)出
26、版出版有字體字號等屬性變化、設置了段落和頁面排版格式的文本稱為有字體字號等屬性變化、設置了段落和頁面排版格式的文本稱為“豐富格豐富格式文本式文本”豐富格式文本中,除了正文內容之外,還使用了許多豐富格式文本中,除了正文內容之外,還使用了許多“標記標記”來描述字符來描述字符的屬性和格式的設置。的屬性和格式的設置。舉例:下面標題的格式為:中文用黑體,西文用舉例:下面標題的格式為:中文用黑體,西文用ArialBlack體,居中體,居中使用使用HTML語言描述為:語言描述為:本書由南京大學出版社本書由南京大學出版社(PublishingHouseofNanjingUniversity)出版出版用一對用一
27、對指出的是標記,如指出的是標記,如和和等,用于說明排版的格式和文字屬等,用于說明排版的格式和文字屬性,它們不屬于正文內容性,它們不屬于正文內容正文內容正文內容專轉本計算機基礎輔導專轉本計算機基礎輔導 超文本超文本若干文本或文本中的各個部分可按照其內容的若干文本或文本中的各個部分可按照其內容的關系互相鏈接起來,從而形成關系互相鏈接起來,從而形成“超文本超文本”ABCDEFGHa1a2b2c2f1d1c1b1e1g1h1a3“超鏈超鏈”實際上就是實際上就是一個指針,用于指向一個指針,用于指向其他文本塊,也可以其他文本塊,也可以指向同一文本塊中的指向同一文本塊中的其他部分其他部分 超鏈是有向的,起點
28、位置超鏈是有向的,起點位置稱為鏈源,它可以是文本稱為鏈源,它可以是文本塊中的一個標題、一句句塊中的一個標題、一句句子、一個關鍵詞、一幅畫、子、一個關鍵詞、一幅畫、一個圖標等一個圖標等文本塊可以是一個文本塊可以是一個網頁,一個文檔,網頁,一個文檔,一段文字,也可以一段文字,也可以是一張圖片,甚至是一張圖片,甚至一段聲音或視頻一段聲音或視頻 專轉本計算機基礎輔導專轉本計算機基礎輔導 小結:文本的分類小結:文本的分類文本文本類型類型特點特點在計算機內的表示在計算機內的表示文件文件擴展名擴展名用途用途簡單簡單文本文本沒有字體、字號和沒有字體、字號和版面格式的變化,版面格式的變化,文本在頁面上逐行文本在
29、頁面上逐行排列,也不含圖片排列,也不含圖片和表格和表格由一連串與正文內容對由一連串與正文內容對應的字符的編碼所組成,應的字符的編碼所組成,幾乎不包含任何其他的幾乎不包含任何其他的格式信息和結構信息格式信息和結構信息.txt網上聊天網上聊天短信短信文字錄入文字錄入OCR輸輸入入豐富豐富格式格式文本文本(線性線性文本文本)有字體、字號、顏有字體、字號、顏色等變化,文本在色等變化,文本在頁面上可以自由定頁面上可以自由定位和布局,還可插位和布局,還可插入圖片和表格入圖片和表格除了與正文對應的字符除了與正文對應的字符編碼之外,還使用某種編碼之外,還使用某種“標記語言標記語言”所規(guī)定的所規(guī)定的一些標記來說
30、明該文本一些標記來說明該文本的文字屬性和排版格式的文字屬性和排版格式等等.doc.rtf.htm.html.pdf公文公文論文論文書稿書稿網頁網頁豐富豐富格式格式文本文本(超文超文本本)除上述特征外,文除上述特征外,文本中還含有超鏈,本中還含有超鏈,使文本呈現(xiàn)為一種使文本呈現(xiàn)為一種網狀結構網狀結構同上,但還應包含用于同上,但還應包含用于指出指出“鏈源鏈源”和和“鏈宿鏈宿”的標記的標記.doc.rtf.htm.html.pdf.hlp同上,以同上,以及軟件的及軟件的聯(lián)機文檔聯(lián)機文檔(幫助文件幫助文件)專轉本計算機基礎輔導專轉本計算機基礎輔導 5.1.4文本的編輯與排版文本的編輯與排版專轉本計算機
31、基礎輔導專轉本計算機基礎輔導 使用使用Word的操作流程的操作流程創(chuàng)建新文檔或打開老文檔創(chuàng)建新文檔或打開老文檔文稿輸入文稿輸入編輯編輯排版排版文檔存盤、打印或發(fā)送文檔存盤、打印或發(fā)送輸入中西文字、符號輸入中西文字、符號和圖表和圖表進行增、刪、改操作,保進行增、刪、改操作,保證文本的正確性證文本的正確性滿足清晰、美觀、便滿足清晰、美觀、便于使用等要求于使用等要求專轉本計算機基礎輔導專轉本計算機基礎輔導 目的:確保文本內容正確無誤目的:確保文本內容正確無誤操作:對字、詞、句和段落進行添加、刪操作:對字、詞、句和段落進行添加、刪除、修改等操作除、修改等操作MSWord的功能:的功能:在文本的任何位置
32、都可以在文本的任何位置都可以插入插入新的文字新的文字從文本的任何位置都可以從文本的任何位置都可以刪除刪除不需要的文字不需要的文字將一段文字從一處將一段文字從一處移動移動到另一處到另一處將一段文字從一處將一段文字從一處復制復制到另一處到另一處在文本中自動在文本中自動查找查找指定的詞語指定的詞語用一個詞語自動用一個詞語自動替換替換文本中指定的詞語文本中指定的詞語文本編輯文本編輯(textediting)專轉本計算機基礎輔導專轉本計算機基礎輔導 目的:使文本清晰、美目的:使文本清晰、美觀、便于閱讀觀、便于閱讀操作內容:對文本中的操作內容:對文本中的字符、段落乃至整篇文字符、段落乃至整篇文章的格式進行
33、設計和調章的格式進行設計和調整,分成整,分成3個層次:個層次:對字符格式進行設置對字符格式進行設置對段落格式進行設置對段落格式進行設置對文檔頁面進行格式設置對文檔頁面進行格式設置文本排版文本排版(格式化格式化)專轉本計算機基礎輔導專轉本計算機基礎輔導 設置字符的格式設置字符的格式字號字號(八號八號初號初號,5磅磅72磅以上磅以上)1 1磅相當于磅相當于1/721/72英寸英寸 字體字體(宋體、宋體、楷體楷體、黑體黑體、仿宋仿宋、隸書隸書)字符的修飾字符的修飾字符的形狀字符的形狀(字形字形):正常、加粗、加粗、傾斜、加粗傾斜加粗傾斜字形的修飾:字形的修飾:下劃線下劃線、著重號、上下標、刪除線、著
34、重號、上下標、刪除線字符的顏色字符的顏色字符的寬度字符的寬度字符的間距字符的間距字符的效果字符的效果字符的排列方向字符的排列方向Demo1專轉本計算機基礎輔導專轉本計算機基礎輔導 什么是段落?用什么是段落?用“回車回車”相互隔開的一組文字相互隔開的一組文字段落格式的設置:段落格式的設置:段落的對齊方式段落的對齊方式(兩端對齊、分散對齊、居中對齊、兩端對齊、分散對齊、居中對齊、左對齊、右對齊左對齊、右對齊)段落的縮進方式段落的縮進方式(首行縮進、懸掛縮進、左縮進、右縮首行縮進、懸掛縮進、左縮進、右縮進進)段間距和段內行距段間距和段內行距使用編號和項目符號使用編號和項目符號段落段落添加邊框和底紋添
35、加邊框和底紋首字下沉或懸掛首字下沉或懸掛段落與分頁的關系段落與分頁的關系設置段落的格式設置段落的格式Demo2專轉本計算機基礎輔導專轉本計算機基礎輔導 控制段落的縮進控制段落的縮進段落縮進是指段落中的文本到正文區(qū)左、右邊段落縮進是指段落中的文本到正文區(qū)左、右邊界的距離,包括段落左縮進、右縮進和首行縮界的距離,包括段落左縮進、右縮進和首行縮進。其縮進的距離可由水平標尺上對應的三個進。其縮進的距離可由水平標尺上對應的三個縮進標記來指示縮進標記來指示左縮進標記左縮進標記首行縮進標記首行縮進標記右縮進標記右縮進標記右縮進右縮進左縮進左縮進首行縮進首行縮進正文區(qū)正文區(qū)右邊界右邊界正文區(qū)正文區(qū)左邊界左邊界
36、懸掛縮進懸掛縮進標標記記專轉本計算機基礎輔導專轉本計算機基礎輔導 頁面格式的設置:頁面格式的設置:設置紙張大小和頁邊距設置紙張大小和頁邊距設置每頁的行、列數(shù)目設置每頁的行、列數(shù)目設置分欄數(shù)目與格式設置分欄數(shù)目與格式設置頁碼設置頁碼設置頁眉和頁腳設置頁眉和頁腳設置頁面的格式設置頁面的格式專轉本計算機基礎輔導專轉本計算機基礎輔導 設置頁面的分欄設置頁面的分欄專轉本計算機基礎輔導專轉本計算機基礎輔導“所所見見即即所所得得”(操操作作效效果果屏屏幕幕立立即即可可見見,打打印印結結果與屏幕所果與屏幕所見見完全相同)完全相同)撤銷撤銷(undo)和恢復和恢復(redo)操作操作格式刷格式刷多種視圖多種視圖
37、(大綱視圖與大綱編輯大綱視圖與大綱編輯)自自動動更更正正、自自動動套套用用格格式式、自自動動編編號號、自自動動圖圖文集文集自動保存功能和自動備份功能自動保存功能和自動備份功能樣式、模板和向導樣式、模板和向導(wizard)功能功能宏操作(宏操作(Macro)提高提高Word操作效率的若干措施操作效率的若干措施專轉本計算機基礎輔導專轉本計算機基礎輔導 文本處理初步文本處理初步專轉本計算機基礎輔導專轉本計算機基礎輔導 使用計算機對文本中的字、詞、短語、句子、篇章進行識別、轉換、分使用計算機對文本中的字、詞、短語、句子、篇章進行識別、轉換、分析、理解、壓縮、加密和檢索等有關的處理析、理解、壓縮、加密
38、和檢索等有關的處理文本處理內容:文本處理內容:字數(shù)統(tǒng)計,詞頻統(tǒng)計,簡字數(shù)統(tǒng)計,詞頻統(tǒng)計,簡/繁體相互轉換,漢字繁體相互轉換,漢字/拼音相互轉拼音相互轉換換詞語排序,詞語錯誤檢測,文句語法檢查詞語排序,詞語錯誤檢測,文句語法檢查自動分詞,詞性標注,詞義辨識,大陸自動分詞,詞性標注,詞義辨識,大陸/臺灣術語轉換臺灣術語轉換關鍵詞提取,文摘自動生成,文本分類關鍵詞提取,文摘自動生成,文本分類文本檢索(關鍵詞檢索、全文檢索),文本過濾文本檢索(關鍵詞檢索、全文檢索),文本過濾文語轉換(語音合成),文種轉換(機器翻譯)文語轉換(語音合成),文種轉換(機器翻譯)篇章理解,自動問答,自動寫作等篇章理解,自動
39、問答,自動寫作等文本壓縮,文本加密,文本著作權保護文本壓縮,文本加密,文本著作權保護什么是文本處理什么是文本處理?專轉本計算機基礎輔導專轉本計算機基礎輔導 例:例:Word2003的文本處理功能的文本處理功能英文拼寫檢查和英文拼寫檢查和英語同義詞檢查英語同義詞檢查字數(shù)統(tǒng)計字數(shù)統(tǒng)計自動編寫摘要自動編寫摘要中文簡繁體轉換和術語轉換中文簡繁體轉換和術語轉換中英詞語翻譯中英詞語翻譯語法和格式檢查語法和格式檢查語音識別(口授命令和聽寫)語音識別(口授命令和聽寫)文檔保護文檔保護(防止打開或修改文檔防止打開或修改文檔)專轉本計算機基礎輔導專轉本計算機基礎輔導 5.1.5文本的展現(xiàn)文本的展現(xiàn)(輸出輸出)專轉
40、本計算機基礎輔導專轉本計算機基礎輔導 文本的展現(xiàn)文本的展現(xiàn)(輸出輸出)目的:閱讀、瀏覽或打印文本目的:閱讀、瀏覽或打印文本使用的軟件:文本閱讀器使用的軟件:文本閱讀器/文本瀏覽器文本瀏覽器嵌入在文本編輯嵌入在文本編輯(處理處理)軟件中,如微軟的軟件中,如微軟的Word,獨立的軟件:如獨立的軟件:如Adobe公司的公司的AcrobatReader,微軟公司的微軟公司的IE等等文本展現(xiàn)的過程:文本展現(xiàn)的過程:1.1.對文本的格式描述進行解釋對文本的格式描述進行解釋2.2.生成文字和圖表的映像(生成文字和圖表的映像(bitmap)3.3.傳送到顯示器或打印機輸出傳送到顯示器或打印機輸出專轉本計算機基
41、礎輔導專轉本計算機基礎輔導 附:輸出過程中字形的生成附:輸出過程中字形的生成過程:過程:先根據(jù)字符的字體確定相應的字庫(先根據(jù)字符的字體確定相應的字庫(font),),再按照該字符的代碼從字庫中取出該字符的形狀描述再按照該字符的代碼從字庫中取出該字符的形狀描述信息信息然后按形狀描述信息生成字形,并按照字號大小及有然后按形狀描述信息生成字形,并按照字號大小及有關屬性(粗體、斜體、下橫線)將字形作必要的變換關屬性(粗體、斜體、下橫線)將字形作必要的變換最后將變換得到的字形放置在頁面的指定位置處最后將變換得到的字形放置在頁面的指定位置處2種不同的字庫:種不同的字庫:點陣點陣描述描述輪廓輪廓描述描述輪
42、廓點輪廓點直線直線二次曲線二次曲線專轉本計算機基礎輔導專轉本計算機基礎輔導 真題講解真題講解一、選擇題一、選擇題1、在下列字符中,其在下列字符中,其ASCII碼值最大碼值最大的一個是的一個是。(2005年)年)A、XB、6C、5 D、Y答案:答案:D專轉本計算機基礎輔導專轉本計算機基礎輔導 2、下列漢字編碼標準中,不支持繁體漢下列漢字編碼標準中,不支持繁體漢字的是字的是。(2007年)年)A.GB2312-80B.GBKC.BIG5D.GB18030答案:答案:A專轉本計算機基礎輔導專轉本計算機基礎輔導 3、在在ASCII編碼中,字母編碼中,字母A的的ASCII編碼編碼為為41H,那么字母,那
43、么字母f的的ASCII編碼為編碼為_。(2008年)年)A46HB66HC67HD78H答案:答案:B專轉本計算機基礎輔導專轉本計算機基礎輔導 4、不同的文本處理軟件使用的格式控制不同的文本處理軟件使用的格式控制和結構說明信息并不統(tǒng)一,不同的豐富格式和結構說明信息并不統(tǒng)一,不同的豐富格式文本互不兼容,因此一些公司聯(lián)合提出了一文本互不兼容,因此一些公司聯(lián)合提出了一種中間格式,稱為種中間格式,稱為_格式。格式。、(2008年)年)ADOCBPDFCHTMLDRTF答案:答案:D專轉本計算機基礎輔導專轉本計算機基礎輔導 5、根據(jù)根據(jù)ASCII碼值的大小,下列表達式碼值的大小,下列表達式中,正確的是中
44、,正確的是。(2009年)年)A.“a”“A”“9”B.“A”“a”“9”C.“9”“a”“A”D.“9”“A”“a”答案:答案:D專轉本計算機基礎輔導專轉本計算機基礎輔導 6、已知已知“江蘇江蘇”兩字的區(qū)位碼是兩字的區(qū)位碼是“2913”和和“4353”,則其機內碼是,則其機內碼是。(2009年)年)A.3D2D和和4B55B.4535和和535DC.6145和和7585D.BDAD和和CBD5答案:答案:D專轉本計算機基礎輔導專轉本計算機基礎輔導 7、若內存中相鄰若內存中相鄰2個字節(jié)的內容為十六個字節(jié)的內容為十六進制進制7451,則它們不可能是,則它們不可能是_。(2010年)年)A1條指令
45、的組成部分條指令的組成部分B1個漢字的機內碼個漢字的機內碼C1個個16位整數(shù)位整數(shù)D2個英文字母的個英文字母的ASCII碼碼答案:答案:B專轉本計算機基礎輔導專轉本計算機基礎輔導 二、多選題二、多選題1、設某漢字的區(qū)位碼設某漢字的區(qū)位碼(2710)D,則其,則其。(2005年)年)A.機內碼為機內碼為(BBAA)HB.國標碼為國標碼為(3B2A)HC.國標碼為國標碼為(4730)HD.機內碼為機內碼為(9B8A)H答案:答案:AB專轉本計算機基礎輔導專轉本計算機基礎輔導 2、文本編輯的目的是使文本正確、清晰、文本編輯的目的是使文本正確、清晰、美觀,下列美觀,下列_操作屬于文本處理而操作屬于文本
46、處理而不屬于文本編輯功能。不屬于文本編輯功能。(2006年)年)A.添加頁眉頁腳添加頁眉頁腳B.統(tǒng)計文本字數(shù)統(tǒng)計文本字數(shù)C.文本壓縮文本壓縮D.識別并提取文本中的關鍵字識別并提取文本中的關鍵字答案:答案:ABD專轉本計算機基礎輔導專轉本計算機基礎輔導 三、填空題三、填空題1、1KB的內存空間能存儲的內存空間能存儲512個漢字內碼,約存?zhèn)€漢字內碼,約存?zhèn)€個2424點陣漢字的字形碼。點陣漢字的字形碼。(2005年)年)2、在中文在中文Windows環(huán)境下環(huán)境下,西文使用標準西文使用標準ASCII碼碼,漢字采用漢字采用GB2312編碼編碼,現(xiàn)有一段文本的內碼為現(xiàn)有一段文本的內碼為:ABF4D1E37
47、8C2B755,則在這段文本中則在這段文本中,含有的含有的漢字和西文字符的個數(shù)分別是漢字和西文字符的個數(shù)分別是_。(2006年)年)答案:答案:14答案:答案:3、2專轉本計算機基礎輔導專轉本計算機基礎輔導 四、判斷題四、判斷題1、每個漢字的機內碼都用兩個字節(jié)存儲。每個漢字的機內碼都用兩個字節(jié)存儲。(2005年)年)2、只要是在同一個字符集下,文本的輸、只要是在同一個字符集下,文本的輸出所使用的字庫都是相同的。出所使用的字庫都是相同的。(2009年)年)答案:答案:T答案:答案:F專轉本計算機基礎輔導專轉本計算機基礎輔導 3、漢字輸入的編碼方法由數(shù)字編碼、字漢字輸入的編碼方法由數(shù)字編碼、字音編
48、碼、字型編碼和形音編碼等音編碼、字型編碼和形音編碼等4種,在同種,在同一種漢字編碼字符集中,使用不同的編碼方一種漢字編碼字符集中,使用不同的編碼方法向計算機輸入的同一漢字,它們的內碼是法向計算機輸入的同一漢字,它們的內碼是不同的。不同的。(2008年)年)答案:答案:F專轉本計算機基礎輔導專轉本計算機基礎輔導 4、在、在ASCII碼表中,數(shù)字和英文字母按碼表中,數(shù)字和英文字母按照照ASCII碼值從小到大排列的順序為:數(shù)字、碼值從小到大排列的順序為:數(shù)字、大寫字母、小寫字母。(大寫字母、小寫字母。()(2008年)年)答案:答案:T專轉本計算機基礎輔導專轉本計算機基礎輔導 例題講解例題講解一、選
49、擇題一、選擇題1、下列有關我國漢字編碼標準的敘述中,錯誤、下列有關我國漢字編碼標準的敘述中,錯誤的是的是_。A.GB2312國標字符集所包含的漢字許多情況下國標字符集所包含的漢字許多情況下已不夠使用已不夠使用B.GBK字符集包括的漢字比字符集包括的漢字比GB18030多多C.GB18030編碼標準中所包含的漢字數(shù)目超過編碼標準中所包含的漢字數(shù)目超過2萬個萬個D.我國臺灣地區(qū)使用的漢字編碼標準是我國臺灣地區(qū)使用的漢字編碼標準是Big5。答案:答案:B專轉本計算機基礎輔導專轉本計算機基礎輔導 2、使用計算機進行文本編輯與文本處理、使用計算機進行文本編輯與文本處理是常見的兩種操作,下面屬于文本處理操
50、作是常見的兩種操作,下面屬于文本處理操作的是的是_。A.設置頁面版式設置頁面版式B.設置文章標題首行居中設置文章標題首行居中C.設置文本字體格式設置文本字體格式D.文語轉換文語轉換答案:答案:D專轉本計算機基礎輔導專轉本計算機基礎輔導 3、下列字符編碼標準中,既包含了漢字字、下列字符編碼標準中,既包含了漢字字符的編碼,也包含了如英語、希臘字母等其符的編碼,也包含了如英語、希臘字母等其他語言文字編碼的國際標準是他語言文字編碼的國際標準是_。A.GB18030B.UCS/UnicodeC.ASCIID.GBK答案:答案:A專轉本計算機基礎輔導專轉本計算機基礎輔導 4、漢字從鍵盤錄入到存儲,涉及漢字
51、輸、漢字從鍵盤錄入到存儲,涉及漢字輸入碼和漢字入碼和漢字_。A.DOC碼碼B.ASCII碼碼C.區(qū)位碼區(qū)位碼D.機內碼機內碼答案:答案:D專轉本計算機基礎輔導專轉本計算機基礎輔導 5、在計算機中,西文字符最常用的編碼、在計算機中,西文字符最常用的編碼是是_。A.原碼原碼B.反碼反碼C.ASCII碼碼D.補碼補碼答案:答案:C專轉本計算機基礎輔導專轉本計算機基礎輔導 二、填空題二、填空題1、為了既能與國際標準、為了既能與國際標準UCS(Unicode)接接軌,又能保護現(xiàn)有中文信息資源,我國政府軌,又能保護現(xiàn)有中文信息資源,我國政府發(fā)布了發(fā)布了_漢字編碼國家標準,它與以漢字編碼國家標準,它與以前的
52、漢字編碼標準保持向下兼容,并擴充了前的漢字編碼標準保持向下兼容,并擴充了UCS/Unicode中的其他字符。中的其他字符。答案:答案:GB18030專轉本計算機基礎輔導專轉本計算機基礎輔導 2、用計算機制作的數(shù)字文本若根據(jù)它們、用計算機制作的數(shù)字文本若根據(jù)它們是否具有排版格式來分,可分為簡單文本和是否具有排版格式來分,可分為簡單文本和豐富格式文本兩大類。豐富格式文本兩大類。Windows附件中的附件中的記記事本事本程序所編輯生成的程序所編輯生成的.TXT文件屬于文件屬于_文件。文件。答案:簡單文本答案:簡單文本專轉本計算機基礎輔導專轉本計算機基礎輔導 三、判斷題三、判斷題1、與文本編輯不同的是,文本處理是對文、與文本編輯不同的是,文本處理是對文本中包含的文字信息的音、形、義等進行分本中包含的文字信息的音、形、義等進行分析、加工和處理。析、加工和處理。答案:答案:T
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 裝配圖網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年作風建設學習教育開展情況的報告范文
- 在2025年民營企業(yè)座談會上的主持講話范文
- 在2025年全縣教育領域群眾身邊不正之風和腐敗問題集中整治調度會上的講話范文
- 工委副書記在2025年機關DeepSeek應用專題輔導培訓班開班儀式上的講話范文
- 在2025年DeepSeek大模型政務應用培訓會上的講話范文
- 在青年干部培訓結業(yè)典禮上的講話文稿
- 2025年副書記防汛工作會議上的講話范文
- 2025年主管商務部門黨組書記在理論學習中心組會上研討發(fā)言文稿
- 2025年國企黨委關于干部職工思想政治工作情況的報告范文
- 在機關單位作風建設學習教育突出問題專項整治工作部署會議上的講話范文
- 醫(yī)院領導2025年黨風廉政建設推進會上的講話范文
- 2025年關于開展“以案促改”工作實施方案供參考
- 在2025年安全生產專項整治暨化工行業(yè)風險防控部署會上的講話范文
- 領導干部在“十五五”發(fā)展規(guī)劃編制啟動會上的講話文稿
- 2025年書記在慰問老干部暨情況通報會上的主持講話提綱范文