珍貴的紙質老照片該如何保存?《紐約時報》與谷歌云合作,利用AI將19世紀以來的500-700萬張歷史照片數字化。谷歌云的AI技術不僅可以將照片數字化,還能掃描照片上的筆記,分類它們包含的位置、日期等語義信息 。
紙質老照片記錄下了當時的珍貴時刻,其中的歷史意義也更為重要,但紙質極容易損壞,人類該怎么保存它們,讓它們恒久遠永流傳?
谷歌云(Google Cloud)利用AI將照片數字化。
在《紐約時報》位于美國時代廣場辦公室附近的地下室中存放了大約500萬張到700萬張的舊照片,存在這些照片的地方名為資料檔案室。
《紐約時報》不僅存放了這些照片,也存儲了有關它們是何時發(fā)布及其發(fā)布原因的相關信息。現(xiàn)在,該報正在與谷歌云合作,準備將其龐大的藏品數字化。
谷歌云官方發(fā)布博客稱,它將與紐約時報合作,將龐大的照片集數字化,利用谷歌云中的工具幫助《紐約時報》安全地存儲照片,提供更好的界面來查找照片,甚至可以通過照片背后的數字來獲得更多照片內蘊含的信息。
紙質實物易腐爛,通過AI保護珍貴的視覺遺產
“資料檔案室保存的照片可以追溯到19世紀末期,其中許多內容具有巨大的歷史價值——很多照片是世界上其他地方都沒有的。 2015年,一個破損的管道淹沒了檔案館 ,使整個館藏面臨風險。 幸運的是,當時只有輕微的損害,但這一事件引發(fā)了人們反思:這些最寶貴的實物資產該如何安全存儲?
《紐約時報》的資料檔案室
“資料檔案室是一個易腐文件的寶庫,不僅是《紐約時報》的歷史,而且是近一個多世紀以來影響我們現(xiàn)代社會的全球事件的無價編年史。”《紐約時報》新任首席技術官Nick Rockwell說。
不僅照片的圖像包含有價值的信息。 在許多情況下,照片的背面包括拍攝照片的時間和地點。Rockwell補充說:“照片部門和商業(yè)方面的工作人員多年來一直在探索將這些照片數字化的可能途徑。 但就像去年一樣,數字化存檔的想法似乎仍然遙不可及。”
《紐約時報》的老照片:1984年,蘋果創(chuàng)始人史蒂夫·喬布斯
為了保護這個無價的歷史,并讓《紐約時報》能夠通過更多的視覺敘事和歷史背景來增強其報道, 《紐約時報》正在對其檔案進行數字化,使用谷歌云來存儲資料檔案室內所有圖像的高分辨率掃描。
谷歌云是可用于存儲對象的系統(tǒng),它為紐約時報等客戶提供自動生命周期管理,不同區(qū)域的存儲以及易于使用的管理界面和API。
AI工作原理:Google Cloud中的技術可以處理和識別照片中的大量信息
僅僅存儲高分辨率圖像不足以創(chuàng)建照片管理者可以輕松使用的系統(tǒng)。
有效的資產管理系統(tǒng)必須允許用戶輕松瀏覽和搜索照片。《紐約時報》建立了一個存儲和處理照片的處理系統(tǒng),并將使用Google Cloud中的技術處理和識別圖像中可以找到的文本、手寫內容和其他細節(jié)。
以下它的工作原理:
將圖像提取到云存儲后, 《紐約時報》使用Cloud Pub / Sub啟動處理傳輸途徑以完成多項任務。 通過在Google Kubernetes Engine (GKE)上運行的服務調整圖像大小,圖像的元數據存儲在運行在谷歌完全托管數據庫產品Cloud SQL里的PostgreSQL數據庫中。
Cloud Pub / Sub幫助《紐約時報》創(chuàng)建其處理流程,而無需構建復雜的API或業(yè)務流程系統(tǒng)。它是一個完全托管的解決方案,因此沒有時間維護底層基礎架構。
谷歌云官方發(fā)布與《紐約時報》合作將照片數字化的宣傳片,講述了AI工作原理
為了調整圖像大小和修改圖像元數據, 《紐約時報》使用開源命令行程序“ImageMagick ”和“ ExifTool ”。 他們將ImageMagick和exiftool添加到Docker鏡像中,以便以最小的管理工作量、一種水平可擴展的方式在GKE上運行它們。 添加更多容量來處理更多圖像并不重要,當不需要服務時,《紐約時報》可以停止或啟動其Kubernetes集群。 這些圖片還存儲在云存儲的多區(qū)域位置創(chuàng)建的存儲桶中,以便在多個位置提供可用性。
存檔的最后一部分是在圖像及其元數據在“紐約時報”管理系統(tǒng)中移動時跟蹤它們。Cloud SQL是一個很好的選擇。對于開發(fā)人員,Cloud SQL提供了一個標準的PostgreSQL實例:作為完全托管的服務,無需安裝新版本、應用安全補丁或設置復雜配置。 Cloud SQL為開發(fā)者們提供了一種使用標準SQL解決方案的簡單方法。
不只是存儲圖像,機器學習可以獲取照片上的很多信息
存儲圖像只是這個故事的一部分。
為了使像《紐約時報》資料檔案室的圖片更加便于使用,利用額外的GCP功能是有益的。 在《紐約時報》的案例中,掃描照片的更大挑戰(zhàn)是添加有關老照片的內容數據。 Cloud Vision API可以幫助填補這一空白。
讓我們來看看《紐約時報》舊賓州車站的這張照片。 來看下這張照片的正面和背面。
這是一張漂亮的黑白照片,但沒有額外的背景,從照片的正面看不清楚它在講述什么。 照片背面包含大量有用信息,Cloud Vision API可以幫助我們處理、存儲和閱讀它的信息。 當谷歌將圖像的背面提交給API(無需額外處理)時,我們可以看到Cloud Vision API檢測到以下文本(譯者注:文本邏輯并非完全清晰,主要是照片上的碎片化內容):
1985年11月27日
1992年7月28日
時鐘懸掛在1942年賓夕法尼亞車站主要大廳的入口上方,右側是車站外部,然后于1963年拆除。
在紐約出版
存儲于1972年4月30日
《紐約時報》那時賦予這張照片的意義:1942年擁擠的賓州車站,這個時代“只有勇敢的飛行 - 到華盛頓,邁阿密和各種各樣的車站。”
背面信息:
賓州車站的好日子/懷舊之旅
(OCT 3194
RAPR 20072
攝影:紐時時報工作人員,1942年,紐約人大學城的舊賓夕法尼亞電視臺。該人士在現(xiàn)在的Postellgesikha將軍那里建立了一個發(fā)電臺
Pub NYT Sun 5/2/93 Metro
THURSDAY EARLY RUN o cos x ET RESORT
EB 11 1988
RECEIVED DEC 25 1942 + ART DEPT. FILES
The New York Times Business at rail terminals is reflected in the hotels;
OUTWARD BOUND FOR THE CHRISTMAS HOLIDAYS The scene in Pennsylvania Station yesterday afternoor afternoothe New York Times (Greenhaus)
這是我們的Cloud Vision API的實際輸出,無需對圖像進行額外的預處理。 當然,數字文本轉錄并不完美,但它比處理數百萬張圖像的替代品更快,更具節(jié)省成本。
谷歌云:將過去帶向未來,使所有信息都變得可用
這只是個開始。 類似于《紐約時報》的公司可以使用Vision API來識別對象、地點和圖像。 例如,如果我們通過帶有徽標檢測功能的Cloud Vision API傳遞上面的黑白照片,我們就可以看到賓州車站被識別出來了。
谷歌云的自然語言API可用于向已識別的文本添加其他語義信息。 例如,如果我們通過API,通過文本“紐約時報的方式 - 1942年擁擠的賓州車站,一個只有勇敢飛行的時代 - 華盛頓,邁阿密和各種各樣的車站。”正確地將“賓州車站”,“華盛頓”和“邁阿密”識別為位置,并將整個句子分類為“旅行”類別和子類別“公共汽車和鐵路”。
谷歌云在博客中聲稱,幫助《紐約時報》改造其照片檔案完全符合谷歌的使命,即組織世界范圍內的信息并使其普遍可用和有用。
-
谷歌
+關注
關注
27文章
6142瀏覽量
105110 -
AI
+關注
關注
87文章
30182瀏覽量
268441 -
數字化
+關注
關注
8文章
8619瀏覽量
61643
原文標題:留住老照片,谷歌用AI幫紐約時報講了500萬個故事
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論