機器學習是幫助計算機揭示數據模式與關系的科學。機器學習是一個強大的工具,可用于打造個性化的動態體驗。機器學習已經有力地推動了從 Netflix 建議到自動駕駛汽車等各項技術的發展。隨著使用機器學習打造的產品越來越多,產品的用戶體驗設計師則需要更多地了解如何讓用戶感覺自己能輕松駕馭科技。
正如移動革命以及之前網絡技術的興起一樣,機器學習將促使我們對我們構建的幾乎所有體驗進行反思、重構、置換和考量,從而開辟全新可能。在 Google 用戶體驗社區,我們啟動了一個“以人為中心的機器學習”(HCML - Human-centered machine learning) 項目,旨在幫助聚焦和引導上述對話。從這個角度出發,我們審視了各個產品,以查看機器學習如何能夠以人類需求為中心并以機器學習所獨有的方式來滿足這些需求。在 Google,我們團隊與公司內部用戶體驗設計者合作,探討如何加速核心機器學習概念的開發,了解如何將機器學習集成到用戶體驗工具腰帶中以及如何確保以包容的方式構建機器學習和人工智能。
如果您剛剛開始接觸機器學習,機器學習領域的復雜性以及無限的創新機遇可能讓您感覺無所適從。不必恐慌,先停下來,給自己留點時間適應一下。您并不需要從頭開始,也可以在團隊中發揮重要作用。
為了幫助設計師適應設計機器學習驅動的產品這一全新領域,我們提出了七個觀點。這些觀點源自我們與 Google 用戶體驗和人工智能團隊的合作(并進行了必要的試驗,允許合理的錯誤數量),將幫助您遵循用戶優先的原則,實現快速迭代,了解機器學習帶來的獨特機遇。
我們開始吧。
1. 不要指望機器學習去思考它要解決什么問題
現在,圍繞機器學習和人工智能的宣傳鋪天蓋地,天花亂墜。許多公司和產品團隊不是首先關注他們要解決什么重大問題,而是一開始就直奔以機器學習作為解決方案的產品戰略。
這種模式對純粹探索或了解某項技術的作用很有用,并且常常會啟迪對新產品的思索。然而,如果您并未瞄準人類需求,那么您只是在構建一套非常強大的系統來解決一個很小、也許根本不存在的問題。
因此,我們的第一個觀點便是您仍然需要一如既往地努力發掘人類的需求。這涉及到人種學、背景查詢、采訪、深入研究、調研、查閱客戶支持服務單據、日志分析并與人們接觸,以弄清楚您是否正在解決某個問題或是滿足某個未曾言明的人類需求。不要指望機器學習去思考它要解決什么問題。我們仍然需要定義問題。作為用戶體驗設計者,我們已經擁有指導我們團隊的工具,無論主流的技術范式為何。
2. 詢問自己機器學習是否能以獨特方式解決問題
一旦您確認您需要滿足哪些需求之后,您將需要評估機器學習是否能夠以獨特方式滿足這些需求。有許多符合前述條件的問題并不需要機器學習解決方案。
目前,產品開發中的一大挑戰是確定哪些體驗需要機器學習,哪些體驗可通過機器學習得到實質性增強,哪些體驗不能通過機器學習得到改善,甚至會反受其害。有很多產品無需使用機器學習,也可以讓人感覺很“智能”或“人性化”。不要想當然地認為只有機器學習才能解決問題。
Gmail 會查找包含類似“attachment”和“attached”之類詞語的短語,以便在您忘記插入附件時彈出提醒。啟發式設計在這里就很有效。盡管機器學習系統很可能能夠捕獲更多的潛在失誤,但其構建成本卻要高得多。
我們設計了一組練習來幫助團隊理解機器學習對于其用例的價值。為此,這些練習深入探究人們在與機器學習系統交互時可能提出的具體心智模式和期望以及該系統需要哪些數據。
以下是我們讓團隊圍繞他們要使用機器學習解決的用例進行研究和解答的三個示例練習:
描述理論上的人類“專家”目前執行此任務的方法。
如果您的人類專家要執行此任務,您如何為他們提供響應,以便他們在下一次能改進方法?對于混淆矩陣中的所有四個階段均執行上述步驟。
如果由人類來執行此項任務,用戶會希望他們做出哪些假設?
請花幾分鐘時間回答各個問題,了解人類能為機器學習驅動的產品提供的自動假設。這些假設如同產品團隊在探討產品時的提示一樣重要,或者如同用戶研究時的刺激一樣有用。我們稍后講解定義標簽和訓練模型時還會再講到這方面的內容。
在完成這些練習以及特定產品和功能的其他一些草圖和串連圖板后,我們將團隊關于產品的各種想法分別寫入一個簡單的2x2 網格中:
將想法寫入這個 2x2 網格中。讓團隊投票選擇哪些想法能夠給用戶帶來最大的影響,哪些想法通過機器學習解決方案可以得到最大程度的加強。
這有助于我們區分作用顯著的想法和作用不大的想法,區分能夠通過機器學習加以增強的想法和機器學習對其無甚幫助或幫助不大的想法。在這些對話期間,您應該已經開始與工程團隊合作,但如果您尚未開始合作,那現在正是參照機器學習的發展現狀衡量一下這些想法的好時機。您應當首先專注于機器學習能夠以獨特方式給用戶帶來最大影響(見上述矩陣右上角)的想法。
3. 利用個人數據和向導進行模仿
原型設計是機器學習系統面臨的一大挑戰。如果您的產品的所有價值在于使用獨特的用戶數據來打造專屬定制體驗,那就注定不能快速設計出貼近真實的原型。同樣,如果您等待建成一套齊全的機器學習系統來測試設計,那在測試完畢后再進行任何有意義的更改很可能都為時已晚。但有兩種用戶研究方法可以幫助您:使用參與者的個人案例和 Oz 研究向導。
在利用早期模型進行用戶研究時,讓參與者為課程提供一些他們自己的數據,例如個人照片、聯系人列表,或者他們收到的音樂或電影建議。請記住,務必明確完整地告知參與者在測試期間會如何使用這些數據以及何時刪除這些數據。您甚至可以將這作為參與者的趣味“家庭作業”,要求他們在課前完成(畢竟大家都喜歡討論自己喜歡的電影)。
您可以利用這些示例數據來模擬系統的正確或錯誤響應。例如,您可以模擬系統向用戶推薦不合適的電影來觀察其反應,了解用戶對系統返回該結果的原因做出的假設。相比使用虛擬數據或概念性說明,這種方法能夠幫助您更有效地評估這些可能性涉及的成本與收益。
第二種有效測試尚未成型的機器學習產品的方法是執行 Oz 研究向導。這種用戶研究方法曾經十分流行,但在過去約 20 年間漸失風頭。現在它們又卷土重來了。
適合使用 Oz 向導方法測試的最簡單的體驗之一便是聊天界面。只需安排團隊成員在聊天的另一端輸入“人工智能”提供的“回答”。
快速提醒:Oz 研究向導參與者認為自己是在與自主系統進行互動,但系統其實是由人控制的(通常由團隊成員控制)。
讓團隊成員模仿機器學習系統的操作(例如聊天回復,建議參與者應該給誰撥打電話,或者電影建議),可以模擬與“智能”系統互動。這些互動對于指導設計思路至關重要,因為參與者真正認為自己是在與人工智能互動時,他們會自然而然地形成系統的心智模式,并根據這些模式調整自己的行為。觀察他們的調整以及與系統的二階互動非常有助于啟迪設計靈感。
4. 權衡誤報和漏報的成本
機器學習系統出錯在所難免。了解這些錯誤的性質以及它們對產品用戶體驗的影響非常重要。我們在第 2 點的一個問題中提到了混淆矩陣這一概念。這是機器學習中的一個關鍵概念,描述了當機器學習系統判斷正確或出錯時的情況。
混淆矩陣的四個狀態,以及可能對用戶意味著什么。
所有錯誤對于機器學習系統而言沒什么不同,而對于人則不是這樣。例如,如果有一個“這是人類還是怪物?”的分類器,那么偶然地將一個人歸類為怪物對系統來說只是一個錯誤。它不會認為所做的分類會冒犯用戶或其文化背景。它也不會明白,與將怪物意外地標記為人相比,系統用戶對于被意外標記為怪物會感到更不舒服。但這可能就是我們以人為中心的偏見。:)
用機器學習術語來說,您需要有意識地在系統的準確率和召回率之間進行權衡。也就是說,您需要決定是包括所有正確答案重要,即使這意味著會加入較多錯誤答案(優化召回率),還是寧可遺漏一些正確答案也要最大程度減少錯誤答案(優化準確率)重要。例如,如果您在 Google 照片中搜索“游樂場”,您可能會看到如下結果:
這些結果包含幾個兒童玩耍的場景,但不是在游樂場上。在此案例中,召回率優先于準確率。與僅包含游樂場照片但可能排除了您要尋找的照片相比,獲取所有游樂場照片但包含幾個相似但不完全正確的照片更重要。
5. 規劃共同學習和調整
最有價值的機器學習系統應隨著時間的推移與用戶的心智模式交替進化。當人們與這些系統進行交互時,他們也在影響和調整著他們將來看到的各種系統輸出。這些調整反過來將改變用戶與系統的交互方式,從而改變心智模式,如此反復,形成一個反饋環路。這可能會導致“陰謀論”,人們使系統形成不正確或不完整的心智模式,并會遇到試圖根據這些虛構的規則操控輸出的問題。您需要使用明確的心智模式引導用戶,鼓勵他們提供有利于他們自己和模式的反饋。
這種良性循環的一個例子是 Gboard 能不斷進化,以預測用戶要輸入的下一個字詞。用戶使用系統建議的次數越多,系統給出的建議就越好。來自 https://research.googleblog.com/2017/05/the-machine-intelligence-behind-gboard.html 的圖像
機器學習系統是基于現有數據集訓練的,因此,我們通常無法預測系統將如何針對新輸入進行調整。因此,我們需要相應調整我們的用戶研究和反饋策略。這意味著我們需要在產品周期中提前規劃開展縱向的、人機交互頻繁的廣泛研究。隨著用戶和用例不斷增多,您需要預留充足的時間,通過定量分析準確率和錯誤率來評估機器學習系統的性能,并在用戶使用這些系統時與他們坐在一起,以了解他們的心智模式如何隨著每一次成功或失敗而發生變化。
此外,作為用戶體驗設計者,我們需要考慮如何能夠在整個產品生命周期內獲得用戶的真實反饋,以改進機器學習系統。機器學習系統是良好還是卓越,區別在于設計的交互模式是否方便提供反饋以及是否能夠快速顯示反饋的好處。
Google 應用每隔一會就會詢問某個特定卡片此刻是否有用,以獲取有關其建議的反饋。
用戶可以針對 Google 搜索自動完成提供反饋,包括為什么預測可能不合適。
6. 使用正確的標簽訓練算法
作為用戶體驗設計者,我們已經習慣于將線框、模型、原型和紅線作為我們的標志性交付成果。然而,蹊蹺的是:當談到通過機器學習增強的用戶體驗時,我們能夠侃侃而談的寥寥無幾。這時“標簽”就派上用場了。
標簽是機器學習不可或缺的一部分。有些人的工作就是查看大量內容并為內容添加標簽,回答一些類似“這張照片中是否有一只貓?”的問題。一旦將足夠的照片標記為“貓”或“非貓”,您就會獲得一個數據集,您可以用它來訓練模型識別貓。或者更準確地說,能夠讓模型以一定的置信水平預測一張它從未見過的照片中是否有貓。很簡單,對不對?
您能通過這個測驗嗎?
當您冒險進入模型目標定是預測一些對用戶來說很主觀的東西(如他們是否認為某篇文章很有趣或建議的電子郵件回復有意義)的領域時,挑戰就來了。而且模型需要長時間的訓練,獲得一個完全標記的數據集的成本可能非常高昂,更不用說標簽錯誤將給您的產品可行性帶來巨大影響。
以下是應采取的做法:首先進行合理的假設,然后與各種協作者對這些假設進行討論。這些假設通常應采用的格式為:“對于處于_______情況中的_______用戶,我們假設他們更喜歡_______而不是_______。”然后,盡快將這些假設置于使用最頻繁的原型里,以開始收集反饋并進行迭代。
聘請可以充當機器學習最佳老師的專家,即具有您嘗試預測的相關領域專業知識的人員。我們建議您聘請多名專家,或讓您團隊中的某人作為后備人員擔任該職位。在我們團隊,我們稱這些人為“內容專家”。
此時,您將會確定哪些假設看起來更加“真實”。然而,在您開始大規模收集數據和進行標記之前,您需要使用由內容專家從真實的用戶數據中挑選的示例進行關鍵的第二輪驗證。用戶應測試一個高保真的原型,并知道自己正與一個合法的人工智能交互(根據上面的第 3 點)。
通過實操驗證,讓您的內容專家針對您希望您的人工智能生成的內容創建大量手工設計的示例組合。這些示例將為您提供一個數據收集路線圖、一套用于開始訓練模型的強大標簽集,以及一個用于設計大規模標記協議的框架。
7. 拓展您的用戶體驗系列,機器學習是一個創造性過程
考慮您作為一個用戶體驗設計者所收到的最糟糕的微觀管理“反饋”。您能想象一個人靠在您的肩膀上,然后您每動一下就對您吹毛求疵嗎?好,現在繼續在您的頭腦中想象該畫面,您一定不想遇到這樣的人,您的工程師也是。
有許多潛在的方法都可以應對機器學習挑戰,因此,作為一個用戶體驗設計者,太過規范化或進度太快可能導致過程意外地停頓,從而削弱了您的工程師同事的創造力。相信他們的直覺,并鼓勵他們進行實驗,即使在完整評估框架到位之前他們可能對通過用戶進行測試猶豫不決。
與我們平常習慣的過程相比,機器學習是一個更具創造力和表現力的工程過程。訓練模型的過程很緩慢,并且可視化工具還不是很出色,因此,工程師最后在調整算法時,經常需要靠想象力(甚至有一種稱為“主動學習”的方法,手動“調整”每次迭代后的模型)。您的工作是在此過程中幫助他們做出卓越的以用戶為中心的選擇。
與工程師、產品設計師等合作,以整合出恰當的體驗。
因此,可以通過示例——?decks、個人經歷、視頻、原型、來自用戶研究的剪輯、作品等啟發工程師,讓他們觀看和感受什么是出色的體驗,熟悉用戶研究目標和結果,并禮貌地請他們加入精彩的 UX crits 世界和研討會,向他們介紹設計沖刺哲學,以幫助他們更深入地理解您的產品原則和體驗目標。工程師越早適應迭代,機器學習管道的穩健性就越好,您就越能有效地影響產品。
結論
以上就是我們在 Google 設計產品時與團隊強調的七個觀點。我們希望它們能幫助您思考您自己基于機器學習的產品。隨著機器學習開始支持越來越多的產品和體驗,讓我們堅守以人為中心的責任,為人們提供獨特價值和卓越的體驗。
-
人工智能
+關注
關注
1791文章
46896瀏覽量
237672 -
機器學習
+關注
關注
66文章
8382瀏覽量
132444 -
自動駕駛
+關注
關注
783文章
13694瀏覽量
166168
原文標題:機器學習產品交互設計原則 —— 以人為中心
文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論