“把它們送回自己的祖國!”
近日,斯坦福大學的中國歷史教授托馬斯·穆拉尼(Thomas Mullaney)在 Tik Tok 上收到這樣一則信息。
前不久,他在 Tik Tok 上發視頻表示,斯坦福大學獲得了全球史上最大的現代中國信息技術收藏品,這些檔案收藏在斯坦福大學圖書館中,館藏檔案 2500 余件。
當地時間 6 月 6 日,托馬斯·穆拉尼在《南華早報》英文版,發表了題為“Why is the world’s largest collection on China’s modern IT history in the US?”《為什么世界上最大的中國現代 IT 歷史合集在美國》的文章,并成為該網站當天的頭版頭條。
他表示,斯坦福大學圖書館館藏藏品中,包括幾十臺珍稀的中文打字機、文字處理器和電腦,以及中文電報、打字機、油印、圖書制作、大型機、編碼系統、軟件、操作系統、打印機、顯示器、字體、照排、輸入系統、文字處理器、個人電腦等。
托馬斯·穆拉尼的個人首頁顯示,他從 20 世紀 90 年代開始研究東亞文化,并出版過多本和中國漢字發展相關的書籍。
當地時間 5 月 31 日,《麻省理工科技評論》英文版獨家發表了托馬斯·穆拉尼撰寫的文章“Behind the painstaking process of creating Chinese computer fonts”《制作中文電腦字體的艱辛背后過程》。
這篇文章并未體現他的全部研究領域,但卻最具有科技特征。可以說,目前你正在閱讀的這篇文章,離不來幾十年前中文電腦字體設計師們的辛勤付出。以下為該文章的譯文,個別地方有改動:
幾十年前,畢業于麻省理工學院的 Photography Systems 公司創始人路易斯?羅斯布魯姆(Louis Rosenblum),接到了位于馬薩諸塞州劍橋市的圖形藝術研究基金會(GARF)的一個訂單。
在該項目中,設計師們通過手工畫圖和編輯了數以千計的字符,使得中文的打字和印刷成為可能。
回憶最初他曾表示,其兒子布魯斯·羅森布魯姆(Bruce Rosenblum)打開了他的蘋果二代,此時電腦先是發出了一個高音的 F 音,然后是軟驅又發出了咔噠聲。
在一連串 “砰砰” 的按鍵聲后,12 英寸的三洋顯示器終于開始反應:在最開始的開機畫面上,顯示屏上出現了一個綠色的網格,寬 16 個單位,高 16 個單位。
而這個綠色的網格,就是 “Gridmaster”,這是羅森布魯姆建立的全球首批中文數字字體之一,也是用 BASIC 編程語言編寫的一個程序。
當時,他的任務是為一臺名為 Sinotype III 的實驗性機器開發字體,Sinotype III 機器也是史上首批能處理中文輸入和中文輸出的個人電腦之一。
在 20 世紀 70 年代末和 80 年代初,中國還沒有個人電腦。因此,為了制造一臺能處理 “中文” 的個人電腦,羅森布魯姆團隊需要對蘋果二代電腦進行重新編程,以便用中文操作。
這項任務十分艱巨,他必須從頭開始對一個操作系統進行編譯,因為蘋果 II 的 DOS 3.3 根本無法操作中文。同時,他還必須對中文文字處理器本身進行編程。就這樣,羅森布魯姆不知疲倦地工作了幾個月。
盡管在今天看來,Gridmaster 是一個簡單的程序,但它當時要處理的任務是創建成千上萬個漢字的數字位圖,在那時面臨的設計挑戰極大。
Sinotype III 機器是由圖形藝術研究基金會開發的機器。在 Sinotype III 身上,創建字體所用的時間遠超計算機編程的時間,因為沒有字體,就沒有辦法在屏幕上顯示漢字,也沒有辦法在機器的點陣打印機上輸出漢字。
對于每個漢字的設計,設計師都必須親自決定如何將漢字安排在由 256 個像素組成的位圖中。也就是說,對于每個漢字都需要做出 256 個決定。
位圖是一種數字存儲圖像的方式,每一個符號和圖像都是由許多像素填充的網格所組成的,目前常見的圖片存儲格式如 JPEG、GIF、BMP 等都屬于位圖存儲方式。因此,如果每個漢字需要 256 個決定,就要設計數以千計的漢字,相當于設計師需要在在兩年多的開發過程中作出數十萬個決定。
不過,事后羅森布魯姆回想到 Gridmaster 編程程序時,他卻將其描述為 "頂多是個笨拙的能用的程序",但就是靠著這個笨拙的程序,他的父親路易斯·羅森布魯姆(Louis Rosenblum)和圖形藝術研究基金會,得以讓數據輸入臨時人員遠程創建并保存新的漢字位圖。
對設計人員來說,只需擁有一臺 Apple II 電腦,通過在軟盤上運行 Gridmaster 程序,數據錄入員就能遠程創建和保存新的漢字位圖。一旦這些漢字的位圖被創建和存儲好,羅森布魯姆就能通過他設計的另一個程序,將設計好的漢字和它們相應的輸入代碼植入系統的數據庫,這樣就能把新設計好的漢字的數字位圖安裝到 Sinotype III 機器上。
盡管 Sinotype III 機器從未作為商業產品發布過。但是,為開發該系統所進行的艱苦工作內容比如開發位圖中文字體,卻正是一個需要全球共同努力才能解決的問題,而這一問題就是:如何使計算機能夠處理地球上使用最廣泛的語言之一 —— 中文。
當給西方字體做計算機和文字處理設計時,工程師和設計師們約定,在一個 5 乘 7 的位圖網格上,來創建一種低分辨率的數字英語字體。這樣,每個符號只需要五個字節的內存。
在美國信息交換標準代碼(ASCII)中存儲所有 128 個低分辨率字符,只需要640字節的內存,而且這 128 個字符已包括所有英語字母、數字 0 到 9 以及常見的標點符號。640 字節即使對于當時的蘋果 II 來說,也只是其 64 千字節板載內存的很小的部分。
與英文不同的是,漢字不僅在數目上以萬計,而且對于結構復雜的漢字來說,5 乘 7 的網格太小,很難讓這些漢字清晰可辨。設計人員發現,每個漢字需要 16 乘 16 或者更大的網格,這就要求每個字符至少有 32 字節的內存(256 比特)。
這種情況下,要想研發一個擁有 70000 個低分辨率漢字的字體庫,需要超過兩兆字節的內存量。即使對一個只包含 8000 個最常見的漢字的字體庫,僅存儲位圖就需大約 256 千字節的內存。對于 20 世紀 80年代初大多數個人電腦來說, 這已是電腦總內存容量的四倍。
盡管漢字字體庫給電腦內存帶來了巨大挑戰,但在當時更難的是如何把低分辨率的中文字體制作得美觀又好認。在 Gridmaster 這樣的程序被發明之前,大部分的設計工作都用筆、紙和修正液完成的。
為此,設計師們花了數年時間,以期設計出既能滿足低內存、又能保持一定書法美感的字體位圖。凌煥銘(Lily Huan-Ming Ling)和艾倫·迪·喬瓦尼(Ellen Di Giovanni)是創建這套字符集的人,他們通過手繪特定漢字的位圖草稿,并使用 Gridmaster 將其數字化。
對設計師們來說,最核心的問題是如何在兩種完全不同的中文書寫方式之間切換:一種是用鋼筆或毛筆書寫的手繪字,另一種是用排列在網格中的、由像素陣列書寫的位圖字。設計師們必須決定如何創造手寫中文的某些特征,比如入口筆畫、筆畫漸變和出口筆畫。
慶幸的是,把 Sinotype III 字體設計成低分辨率中文位圖的全過程得以記錄下來。其中最吸引人的檔案資料之一,是一個裝滿格子圖的冊子,這些手繪的散點符號就是漢字位圖的草稿圖。
每一個漢字都經過了精心設計,從手繪中也可看到,大多數情況下設計師都對圖形做了多次修改,路易斯·羅森布魯姆和圖形藝術研究基金會的設計師們,還會用修正液擦掉專業漢字編輯不同意的那些 "位"。
最初的標記是綠色的,紅色標記的才算是 "最終" 草案。只有經過最終確認,才能開始數據輸入工作。
考慮到團隊需要設計的字體的字數龐大,至少需要設計 3000 個以上的基本漢字。人們可能會猜測,設計師們會不會使用一些可以簡化設計工作的方法。
比如,通過復制中文偏旁部首來簡化設計,這樣當不同的字有同樣的偏旁時比如“女”字旁,就無需再次設計 “女” 字旁,而是直接復制之前設計好的 “女” 字旁。
但是,筆者從當時設計的檔案資料中,并未發現設計師們使用了任何類似上面所說的工作機制。與此相反,路易斯·羅森布魯姆堅持讓設計師親自對漢字的每一個細節進行設計和調整,為的是保證每個漢字的筆畫部首在整個漢字中的協調,盡管這種協調通常以十分細微、甚至難以察覺的調整來實現。
例如,在同樣包含了 “女” 字旁的 “娟”字和 “娩” 字的字體位圖中,這兩個字的 “女” 字旁部首并不完全一樣。在 “娟” 字中,“女” 字旁的寬度為 6 個像素,而在 “綿” 字中,“女” 字旁的寬度僅為 5 個像素。此外,在 “娩” 字中,“女” 字旁的右下角的筆畫向外延伸了一個像素,而在 “娟” 字中,該筆畫并沒有延伸。
在整個字體庫中,這種程度的精確度的要求十分常見,并非特例。當我們把位圖草稿和它們的最終形式放在一起對比時,就會發現更多有趣的變化。
比如,在 “羅” 字的草稿中,左下角的最后一撇是以一個 45° 角向下延伸的。但在最終版本中,這一撇被 "拉平" 了一些,先以 45° 開始向下,但之后這一撇的傾斜角度變小了一些,并且變得更平了。
盡管設計師的設計空間似乎很小,僅僅是 16 乘 16 的網格,但他們必須在小小的網格中做出數量驚人的決定。而這些決定中的每一個,都會影響到他們為特定漢字所做的其他決定,因為即使增加一個像素,也會改變整個漢字的水平和垂直平衡。
網格尺寸的無情限制,以其意想不到的方式影響了設計師的工作。這一點在為了實現對稱性這一“魔鬼”問題時表現最為明顯。
比如,在漢字中經常見到的對稱布局,在低分辨率的框架中卻尤其難以表現,因為根據數學規則,創造對稱性需要奇數的空間區域。
但偶數尺寸的位圖網格的局限(如 16 乘 16 的網格)讓對稱性變得不可能。在許多情況下,圖形藝術研究基金會通過只使用整個網格的一部分來實現對稱性:比如說在 16 乘 16 的網格中只使用 15 乘 15 的區域來設計,但這也進一步減少了可用空間的數量。
而當我們對比不同公司或不同創作者為不同項目創造的位圖字體時,情況變得更加復雜,差異也更多。
比如說下圖中出現在 Sinotype III 字體中的三點水偏旁:“氵”,與另一種由 H.C. Tien創造的早期中文字體中的三點水偏旁的對比。H.C. Tien 是一位華裔美國心理治療師和企業家,他曾在在 20 世紀 70 年代和 80 年代嘗試過漢字的計算機字體設計。
盡管上述例子看起來與本文的關系看上去不大,但從以上所說的每一個例子,我們能看出無論是在起草階段還是在數字化階段,圖形藝術研究基金會的設計團隊必須做出的一個又一個決定。
當然,漢字字體的分辨率并沒有長期保持在 "低" 的水平。計算技術的進步使得漢字的字體設計能使用越來越密集的位圖、越來越快的處理速度、以及越來越低的內存成本。
而在如今這個 4K 分辨率、視網膜顯示器等的時代,可能很難體會到早期中國位圖字體創作中的藝術性 —— 包括美學和技術上的。但是,正是通過這些人的艱苦工作和不含糊的解決問題的方式,使得全球六分之一的人口現今能夠使用計算機、新媒體和互聯網,而且非常活躍。
原文標題:2500余件中國IT技術收藏品“驚現”斯坦福大學,獨家解密中文電腦字體研發全過程
文章出處:【微信公眾號:DeepTech深科技】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
IT
+關注
關注
2文章
854瀏覽量
63469 -
編程
+關注
關注
88文章
3592瀏覽量
93597
原文標題:2500余件中國IT技術收藏品“驚現”斯坦福大學,獨家解密中文電腦字體研發全過程
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論