情感分析是指根據文本數據(例如書面評論和社交媒體帖子)自動解釋和分類情感(通常是積極、消極或中立)的分析過程。
什么是情感分析?
情感分析是一個自然語言處理 (NLP) 的分支,它使用機器學習來分析和分類文本數據的情感基調。基本模型主要專注于積極、消極和中立的分類,但也可能包含發言者的潛在情感(愉悅、生氣、侮辱等)以及購買意圖。
上下文會增加情感分析的復雜性。例如,感嘆句“沒什么!” 取決于發言者對產品是否喜歡所做出的評價,其含義可能截然不同。為了理解“我喜歡它”這個短語,機器必須能夠理清上下文,并理解“它”指的是什么。諷刺和挖苦也具有挑戰性,因為發言者可能會說一些積極的內容,但其表達的是相反的意思。
情感分析有多種類型。基于層面的情感分析將深入一個層次,以確定哪些特定特征或層面正在產生積極、中立或消極的情感。企業可以使用這種見解來找出產品中的缺點,或反之,找出產品中產生意外熱情的特征。情感分析是一種變體,可試圖確定演講者圍繞主題的情感強度。意圖分析決定采取行動的可能性。
為什么要使用情感分析?
企業可以使用來自情感分析的見解來改進其產品、調優營銷消息、糾正誤解并確定積極的影響因素。
社交媒體革新了人們對于產品和服務的決策方式。在旅游、酒店和消費電子產品等市場中,現在人們通常認為客戶評價至少與專業評論家的評估同樣重要。TripAdvisor、Google 和 Yelp 上的 Amazon 評分和評價等來源可以切實決定產品的成敗。博客、Twitter、Facebook 和 Instagram 等低結構性的渠道還可提供有關客戶情感的有用見解,以及激發贊譽或譴責的產品特征和服務的反饋。
手動分析客戶或潛在客戶所生成的大量文本非常耗時。社交媒體、電子郵件、支持票證、聊天、產品評價和推薦的情感分析已成為幾乎所有垂直行業中的重要資源。它非常有助于幫助企業獲取見解、了解客戶、預測和增強客戶體驗、定制營銷活動,以及幫助決策制定。
情感分析用例
情感分析的示例用例包括以下內容:
產品設計師可使用情感分析,來確定哪些特征會與客戶產生共鳴,因此這些功能值得額外投資和關注。反之,他們也可以了解產品或特征何時下降,并對其進行調整以防止庫存進入折扣店。
營銷組織在很大程度上依靠情感分析來調優消息、發現在線影響因素,以及構建積極的口碑。
零售組織挖掘情感以確定可能銷售良好的產品,并相應地調整其庫存和促銷活動。
投資者可以識別在線對話中出現的新趨勢,這些趨勢可能預示著市場機遇。
政客可使用它對選民就重要問題的態度進行抽樣。
情感分析的工作原理
機器學習特征工程
特征工程是將原始數據轉換為機器學習算法輸入的過程。為了在機器學習算法中應用該過程,必須將特征輸入到特征向量中,而特征向量是代表每個特征值的數字向量。情感分析需要將文本數據輸入到詞向量中,這些詞向量是代表每個單詞值的數字向量。可以使用計數技術(如 Bag of Words (BoW)、bag-of-ngrams 或 Term Frequency/Inverse Document Frequency (TF-IDF))將輸入文本編碼為詞向量。
使用監督式機器學習進行情感分類。
將輸入文本轉換為詞向量后,分類機器學習算法可用于情感分類。分類是一系列監督式機器學習算法,基于已標記的數據(例如標記為積極或消極的文本)來識別物品所屬的類別(例如文本是消極還是積極)。
以下分類機器學習算法可用于情感分析:
Na?ve Bayes 是一系列概率算法,用于確定輸入數據類別的條件概率。
支持向量機在 N 維空間(N 為特征數)中查找對數據點進行明顯分類的超平面。
邏輯回歸使用邏輯函數對特定類別的概率進行建模。
使用深度學習進行情感分析
深度學習 (DL) 是機器學習 (ML) 的一個分支,其使用多層人工神經網絡精準完成 NLP 和其他任務。DL 詞嵌入技術(例如 Word2Vec)通過學習詞關聯、含義、語義和語法,以有意義地對詞進行編碼。DL 算法還支持 NLP 模型的端到端訓練,而無需手動從原始輸入數據中設計特征。
深度學習算法有許多不同的變體。時間遞歸神經網絡是解析語言模式和序列數據的數學工具。這些自然語言處理大腦,可為 Amazon Alexa 提供聽力和語音,也可用于語言翻譯、股票預測和算法交易。Transformer 深度學習模型,如 BERT (Bidirectional Encoder Representations from Transformers),是時間遞歸神經網絡的一個替代方案,它應用了一種注意力技術 – 通過將注意力集中在前后最相關的詞上來解析一個句子。BERT 通過在意圖識別、情感分析等基準上提供與人類基準相媲美的準確性,徹底改變了 NLP 的進展。它具有深度雙向的優勢,相比于其他文本編碼機制,它能夠更好地理解和保留上下文。訓練語言模型時,遭遇的一個關鍵挑戰是缺少標記數據。BERT 在無監督任務上接受訓練,通常使用書籍語料庫、英語維基百科等的非結構化數據集。
GPU:加速 NLP 和情感分析
自然語言處理中近年來不斷取得的進步和突破是驅動 NLP 增長的一個因素,其中重要的是部署 GPU 來處理日漸龐大且高度復雜的語言模型。
一個由數百個核心組成的 GPU,可以并行處理數千個線程。GPU 已成為訓練 ML 和 DL 模型及執行推理的首選平臺,因為它們的性能比純 CPU 平臺高 10 倍。
先進的深度學習神經網絡可能有數百萬乃至十億以上的參數需要通過反向傳播進行調整。此外,它們需要大量的訓練數據才能實現較高的準確度,這意味著成千上萬乃至數百萬的輸入樣本必須同時進行向前和向后傳輸。由于神經網絡由大量相同的神經元構建而成,因此本質上具有高度并行性。這種并行性會自然映射到 GPU,因此相比僅依賴 CPU 的訓練,計算速度會大幅提高。因此,GPU 已成為訓練基于神經網絡的大型復雜系統的首選平臺,推理運算的并行性質也有助于在 GPU 上執行。此外,像 BERT 這樣基于 Transformer 的深度學習模型不需要按順序處理連續數據,與 RNN 相比,可以在 GPU 上實現更多的并行化,并減少訓練時間。
NVIDIA GPU 加速 AI 庫
借助 NVIDIA GPU 和 CUDA-X AI 庫,可快速訓練和優化大量的先進語言模型,從而在幾毫秒或幾千分之一秒內運行推理。這是一項重大進步,可以結束快速 AI 模型與大型復雜 AI 模型之間的權衡。在與復雜語言模型協作時,NVIDIA GPU 的并行處理能力和 Tensor Core 架構可實現更高的吞吐量和可擴展性,從而為 BERT 的訓練和推理提供優異的性能。
NVIDIA GPU 加速的端到端數據科學
基于 CUDA-X AI 構建的 NVIDIA RAPIDS 軟件庫套件使您能夠自由地在 GPU 上執行端到端數據科學和分析流程。此套件依靠 NVIDIA CUDA 基元進行低級別計算優化,但通過用戶友好型 Python 接口能夠實現 GPU 并行化和高帶寬顯存速度。
NVIDIA GPU 加速的深度學習框架
GPU 加速 DL 框架為設計和訓練自定義深度神經網絡帶來靈活性,并為 Python 和 C/C++ 等常用編程語言提供編程接口。MXNet、PyTorch、TensorFlow 等廣泛使用的深度學習框架依賴于 NVIDIA GPU 加速庫,能夠提供高性能的多 GPU 加速訓練。
后續步驟
NVIDIA 提供經過優化的軟件堆棧,可加速深度學習工作流程的訓練和推理階段。如需詳細了解相關信息,請訪問 NVIDIA 深度學習主頁。
開發者、研究人員和數據科學家可以通過深度學習示例輕松訪問 NVIDIA 優化深度學習框架容器化,這些示例針對 NVIDIA GPU 進行了性能調整和測試。這能夠消除對軟件包和依賴項的管理需要,或根據源頭構建深度學習框架的需要。請訪問 NVIDIA NGC 了解詳情并開始使用。
NVIDIA Volta 和 Turing GPU 上的 Tensor Core 專門為深度學習而設計,能夠顯著提高訓練和推理性能。了解有關獲取參考實現的更多內容。
NVIDIA 深度學習培訓中心 (DLI) 能夠為開發者、數據科學家和研究人員提供有關 AI 和加速計算的實戰培訓。
原文標題:NVIDIA 大講堂 “520” 特別篇 | 什么是情感分析?(互動有獎)
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
審核編輯:湯梓紅
-
NVIDIA
+關注
關注
14文章
4946瀏覽量
102823 -
情感分析
+關注
關注
0文章
14瀏覽量
5234 -
自然語言處理
+關注
關注
1文章
614瀏覽量
13511
原文標題:NVIDIA 大講堂 “520” 特別篇 | 什么是情感分析?(互動有獎)
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論