數字機頂盒字幕解碼顯示系統設計 - 全文

　　摘要：本文通過對DVB 標準中的ETS 300 743 規范的字幕數據格式進行研究和分析，結合機頂盒平臺的解復用濾波、圖層處理和用戶接口模塊，給出一種能夠正確、完整、及時的字幕顯示實現方案。

　　1 引言

　　隨著數字電視的蓬勃發展，數字電視已逐漸進入千家萬戶，除了傳統的電視節目外，通過利用先進的數字電視技術為廣大用戶提供更多的信息服務，是廣播電視事業發展的必然趨勢。字幕（sub title）作為一種簡便而直觀的信息提供途徑，其重要性主要體現在兩個方面。一是字幕可以為聽力有障礙的人提供另一個“語音”信息途徑；二是字幕功能可以通過簡單的后期制作（如多語言顯示），配合電視節目的全球化推廣提供便捷的平臺。DVB 作為全球應用最廣泛的數字電視傳輸標準，也為多種語言的字幕提供了相應的規范，從而使字幕成為不同國家和地區電視節目交流的良好載體。

　　2 DVB 數字電視字幕規范

　　2.1 字幕控制信息規范

　　控制信息的規范主要包括有效數據的加載和提取索引信息的存放兩個方面。DVB 中規定，字幕信息要以節目的私有數據包形式復用到節目的基本流中，與音視頻數據加載形式類似。提取索引信息則是利用DVB 中的描述符（descriptor）語法插入到節目映射表（PMT）的私有數據段中。

　　流類型為0×06 的私有數據段，承載本節目私有數據提取的相關信息：私有數據包的PID 及其描述符。字幕描述符的標簽值（descriptor_tag）為0×59，語法如下：

　　分析字幕描述子可得出該字幕的語言代碼（ISO639_language_code）、字幕類型、合成頁及可選的輔助頁。這些信息在字幕數據的提取中將作為數據提取的索引信息。

　　2.2 字幕數據編碼規范

　　字幕顯示在終端是以頁的形式顯示出來，每一頁又分成多個區域，每一個區域里又關聯著多個圖形對象和區域的顏色。因此，字幕數據編碼是根據這些需求來定義的。字幕數據承載在PES 包的負載中，結構如圖1 所示。

　　圖1 字幕數據的數據結構

　　分析字幕的數據結構可知，前兩個字節是字幕數據的確定信息，包括一個數據定義字節（該字段定義該數據流為DVB 字幕，其值為0×20）和一個字節的字幕流識別id（其值為0×00）；最后一個字節為字幕數據結束標志（其值為0×ff）。中間填充的數據則是字幕段數據。在字幕段數據中前6 個字節為字幕段的頭信息，包括1 個同步字節（其值為0×0f）、1 個類型字節（用來確定data_field（）里攜帶的是哪種類型的數據分段）、2 個字節的頁ID （用來唯一標志一個字幕段）以及2 個字節的段長度標識（標識其后面攜帶負載的大小）。

　　字幕段類型主要有以下四種：

　　頁分段（page composition）。通過頁id（page_id）定義了該頁顯示終止時間、頁的狀態、該頁中區域數、各區域號、各區域的水平及垂直位置。

　　區域分段（region composition）。用于定義該區域的寬高、水平垂直位置、所使用的CLUT 表的CLUT_id值、對象的id、區域背景色以及像素深度等信息。

　　CLUT 分段（CLUT definition）。用于定義顏色，以便把傳輸的虛顏色轉換成實際色板中的顏色。

　　對象數據分段（object data）。用于定義對象的編碼方法和編碼數據。編碼方法包括像素編碼和字符編碼。每一個對象可以看作是一個可顯示的圖像單元。

　　每一頁數據的完整顯示都至少需要這四個數據分段，所以在解析字幕流時，需要利用各種結構體及鏈表對這幾個數據段數據進行解析并存儲。

　　3 機頂盒字幕解碼顯示系統設計

　　在STB 上實現字幕接收和顯示主要包括四大模塊：數據提取模塊、數據解碼模塊、圖層顯示模塊和用戶控制模塊。各模塊關系如圖2 所示。

　　圖中，用戶控制模塊用于響應用戶按鍵，并發送消息控制其它各模塊；數據提取模塊根據接收控制模塊發來的濾波啟動、停止或提取字幕數據等控制消息，并完成數據的提取工作；數據解碼模塊負責對數據提取模塊送來的字幕原始數據進行解碼，并將解碼后的數據送到指定的緩沖區內供圖層顯示模塊調用；圖層顯示模塊用于實現字幕界面的各種OSD 顯示操作。

　　圖2 字幕系統模塊關系圖。

　　3.1 字幕數據提取模塊

　　字幕數據提取模塊包括兩部分：字幕控制信息的提取和字幕數據包的提取。

　　用戶控制模塊發送字幕啟動請求時，提取模塊就啟動SI 引擎。首先，啟動本節目的PMT 表濾波工作，獲取PMT 數據并進行分析。若當前節目沒有字幕信息，則發送無字幕消息至用戶模塊；若當前節目帶有字幕信息，則根據PMT 中的私有數據段和字幕描述符，獲取字幕數據對應的PID、字幕的語言代碼、字幕類型、合成頁及可選的輔助頁，并存放到字幕索引信息表中。其次，根據字幕索引信息表啟動字幕有效數據的PES 濾波，提取對應字幕數據包。字幕數據提取總體流程如圖3 所示。

　　圖3 字幕數據提取流程

　　當獲得字幕的PID 及其它信息后，則按字幕語言的不同，把當前節目所攜帶的所有語言的字幕列表，供用戶選擇。當用戶選擇完一個條目后，可利用該條目相應的控制信息獲取字幕PES 包，把字幕PID，合成頁id 和輔助頁id 注冊進濾波通道，并啟動濾波器。

　　此時，若濾波器接收到相匹配的數據，則會產生相應的中斷，通知上層進程讀取數據；當獲取一個完整的PES 包后，就傳送給字幕解碼器進行解碼顯示。

　　3.2 字幕數據解碼模塊

　　字幕數據解碼模塊負責對字幕PES 包進行解碼。

　　字幕PES 包解碼流程如圖4 所示。

　　圖4 字幕PES 包解析流程

　　圖4 字幕PES 包解析流程。

　　字幕解碼主要是對PES 包進行分析，包括PES包頭的檢測，PES 包頭信息的提取和字幕段的分析。

　　濾波得到一個PES 包后，首先判斷包頭是否合法，包括判斷前四個字節是否為0×000001BD 和PES包長度是否合法。

　　PES 包頭信息提取包括提取PTS、PES 包頭長度等。PTS 是該分組中承載的所要顯示的數據的顯示時間。根據包頭長度可以定位到PES 的負載位置，進而分析PES 包的負載。

　　分析PES 包的負載，首先判斷前兩個字節（定義字節和字幕流id）是否分別為0×20、0×00.若都符合，則可以確定這個包就是所要的封裝有字幕數據的PES 包。然后進入字幕段分析，字幕字段的內容有四種情況。先找到同步頭字節0×0f，再往后分析8bit 的段類型（segment_type），通過判斷該字節值來確定data_field（）攜帶的是哪種類型的數據。當segment_type為0×10 時［3］，該段為頁分段；當segment_type 為0×11時，則該段為區域分段；當segment_byte 為0×12 時，該段為CLUT 分段；當segment_byte 為0×13 時，該段為對象數據分段。最后，根據不同的類型調用不同的函數對各種類型的分段進行下一步的分析。

　　在頁分段的解析中找到該頁的頁id、顯示終止時間、顯示狀態、該頁由幾個區域組成、每個區域的區域 id 和每個區域的水平垂直坐標，并把這些數據存儲起來。然后，根據從頁分段中獲取的區域的id 找到相應的區域分段，獲取該區域的寬高、像素深度、該區域填充的顏色、顏色表id（CLUT_id）、區域的數據對象個數、每個數據對象編號（object_id），并存儲這些數據。

　　最后，通過CLUT_id 找到顏色表，得到顏色的Y、Cr、Cb、T 值。通過object_id 找到對象數據的內容，包括編碼方式及編碼數據。用相應的解碼方式把這些相關的編碼數據解碼出來，并放入緩沖區。其中，在頁分析時，當解析出的該頁的顯示終止時間已經過了，則并不需要分析該頁，把跟與該頁相關的數據緩沖區進行清空操作。

　　由于一個PES 包可能包含多個字幕段（subtitling_segment），因此必須循環分析到最后一個字幕段。對每個字幕段分析完后，都要判斷下一個字節是下一個字幕段的同步頭（0×0f）還是字幕數據結束標志（0×ff）。若是下一個字幕段的同步頭則繼續分析，若是數據結束標志則代表該PES 包攜帶的負載分析完畢。最后，把得到的數據存放到顯示緩沖區，通過分析得到的PTS 創建一個定時時間，當時間到的時候從緩沖區中把數據讀出，并調用OSD 層驅動顯示數據。

　　在該解碼中，對于合成頁（composition_page_id）的處理分為兩種，這是因為同一個PID 可能傳送不同語言的字幕流，即語言不同的多個信息共享同一個PID流，所以在處理的時候可以把合成頁設置為濾波器的深度。當一路數據流進來的時候，對符合該PID 的PES 包中對應的頁ID 進行判斷，與頁ID 相同的就提取，不同的就丟棄，這是其中的一種解析提取方式。另一種方式是采用多種語言共用的PID 值去設置濾波器，把與該PID 值符合的字幕流提取出來，送去PES包解析。經過PES 解析出該頁ID，這時再判斷該頁ID是否與在PMT 表解析得到的頁ID 一樣。如果一樣的話，說明正是要找的包，反之則說明是一個無效的PES 包，則丟棄該包。

　　3.3 字幕圖層顯示模塊

　　當用戶在收看節目，啟動字幕功能時，用戶看到的是節目畫面和字幕畫面的疊加，OSD 界面顯示技術是指在圖像畫面上疊加圖文顯示，使屏幕提供更多附加信息。

　　為了控制字幕在屏幕上的正常顯示，需要利用OSD 驅動模塊提供的區域操作功能。在該字幕顯示實現中主要用到的OSD 函數接口有OSD 初始化函數、區域清除函數、OSD 區域創建函數、OSD 區域顯示函數和OSD 區域隱藏函數，在該系統中以回調函數的形式利用這些接口函數。在系統初始化中，必須先初始化字幕OSD 區域，獲取OSD 層的設備id，注冊字幕區域創建回調函數、字幕區域顯示回調函數、字幕清屏回調函數和字幕區域隱藏回調函數。把這些函數的地址加以保存，當需要相應的 OSD 服務時，就通過函數指針調用相應的函數。

　　字幕顯示可以根據分析PES 包得到時間信息，并通過這個時間信息與音視頻同步。在每區域數據解碼完畢后，顯示模塊創建相關的OSD 區域，分配內存空間，把解析完的數據連同該數據要顯示的時間PTS 送到顯示緩沖區。此時，根據當前系統時鐘STC 和存儲的PTS 創建一個定時器，如果顯示時間已經超過了系統時間，那么顯示緩沖區的數據就要清空掉；反之，當顯示時間到的時候，定時器被觸發，顯示內容輸出到OSD 緩沖區，并結合顯示持續時間來進行字幕的顯示。顯示狀態流程如圖5 所示。

　　圖5 顯示狀態流程

　　由于字幕的顯示和機頂盒菜單界面的顯示都是基于區域的，對于不同的應用，不能同時往同一個位置填充不同的數據。因此，在字幕顯示前要把菜單OSD 顯示區域隱藏起來。當字幕正在顯示又需要使用系統菜單時，調用字幕區域隱藏函數，設置顯示標志為非需要顯示狀態。在菜單顯示結束后，調用字幕區域顯示函數，恢復字幕顯示。采用這種方式可以解決字幕顯示和界面顯示的沖突。

　　3.4 字幕用戶控制模塊

　　控制模塊是人機交換模塊，主要負責用戶請求的處理。本模塊的首要任務是將用戶的請求進行消息分類，再根據不同的消息與相關的模塊進行通信，消息可分為以下幾種：獲取字幕控制信息消息、啟動及停止字幕數據濾波消息、字幕數據解碼及停止解碼消息、OSD 區域顯示消息、OSD 區域清除消息和OSD 區域隱藏消息。

　　在機頂盒系統軟件中，字幕的創建通過遙控器上的字幕鍵（SUBT）觸發，發送消息啟動數據控制信息提取模塊，解析完畢后顯示多語言字幕列表，供用戶選擇所要接收的語言（上下鍵選擇及OK 鍵觸發）。用戶一旦選擇后，啟動字幕數據提取模塊，進行字幕PES數據流的濾波和緩沖，同時啟動顯示模塊，根據各種時間進行顯示或者清屏。字幕的關閉由遙控器上的退出（EXIT）鍵觸發，進而控制停止濾波、停止數據解碼，釋放字幕功能創建的各內存空間，停止字幕顯示。

　　在顯示字幕的同時，進行界面菜單操作分成兩種情況。一種是菜單操作進行了調臺，用戶控制模塊發送消息關掉字幕功能、停止濾波、釋放字幕功能創建的各內存空間；另一種情況是非調臺的其他菜單操作，當界面操作結束后則發送字幕恢復顯示消息給圖層顯示模塊恢復顯示。

　　4 結束語

　　本文采用模塊化的設計思路，按照功能將機頂盒字幕解碼系統分為四個模塊，即數據提取、數據解碼、數據顯示和用戶控制模塊。在各個模塊的實現上按照中間件和驅動層兩個方面進行程序設計，使得編寫的代碼便于理解閱讀，同時又易于實現不同平臺間移植。

閱讀全文

上一頁 1 2 3全文