Google 的攻擊性內容分類
已發表: 2020-05-06有時,根據使用方式,某些詞可能具有攻擊性或非攻擊性
在世界的某些地方,“Shag”這個詞描述了一些人可能會覺得冒犯的活動。 我在一個沒有使用這個詞的意思的家里長大,而且很多房間都鋪著粗毛地毯。 直到我看了一部 Austin Powers 的電影(Austin Powers: The Spy Who Shagging Me),我才意識到這個詞的另一個含義。
谷歌的一項專利是關於如何識別令人反感的內容,以及如何在向該軟件的最終用戶提供此類內容之前使用軟件來編輯(或混淆)潛在的令人反感的詞語。 如果在“預先定義的冒犯性術語列表”中找到該術語,則某些軟件將刪除該冒犯性術語的所有實例。 如果某個有時被認為具有攻擊性的術語出現在它被視為非攻擊性的上下文中,則可能不會對其進行編輯。
哪裡可能會編輯冒犯性內容?
該專利的描述涵蓋了很多方面,但並未以有用的方式總結其背後的過程。 當您瀏覽它時,您會看到它涵蓋社交媒體帖子、視頻抄本、短信、聊天、網頁、商業網站上的用戶生成內容。
沒有提到包含攻擊性內容的頁面可能會被認為比網絡上的其他頁面質量低,但是可以選擇在 Google 的索引中或在 Google 可能有一定控制權的地方混淆此類內容內容的發布(可能像已離開的 Google+ 或 Youtube),或者可能將論壇主題或用戶評論中的內容編入索引。
另一個可能對內容以及內容是否令人反感的問題存在疑問的地方,可能是當網站所有者引用他人或在其頁面上包含用戶生成的內容時。
專利圖紙中的一個示例涉及內容中的“血腥”一詞,以及如何在至少一個實例中對其進行編輯:

為什麼要對攻擊性內容進行分類?
某些內容可能不受 Web 訪問者或 YouTube 評論或轉錄本或社交媒體的讀者的歡迎。
有些詞具有多種含義,可能會冒犯某些地方的某些人,而在其他情況下可能會冒犯他人,例如當地毯商店的顧客添加評論時說他非常喜歡從商店購買的粗毛地毯。 混淆該評論可能會使一些潛在客戶感到困惑,因為在這種情況下它絕不是冒犯性的。
訓練分類器識別攻擊性內容
該專利背後的技術是訓練分類器以判斷何時以攻擊性或非攻擊性方式使用可能具有攻擊性的術語。
這樣做可以對潛在的冒犯性內容進行可能的編輯,如果沒有被冒犯性地使用,則無需將其刪除。
該專利告訴我們:
分類器可以被訓練成從整體上分析來自文本樣本的內容的一個或多個信號(例如,特徵)以確定該術語是否在文本樣本中被以褻瀆、貶損或其他冒犯性的方式使用。
我們還被告知,在確定文本樣本是否包含一定程度的冒犯性時,分類器可能會超越基於內容的信息來使用上下文。
該專利告訴我們,“粗毛在某些情況下可能令人反感,而在其他情況下則不然:
例如,“shag”這個詞在某些情況下可能令人反感,但在其他情況下則不然:
因此,“我希望我們今晚可以長毛”可能是冒犯性的,而“這條大羊毛的圖案很漂亮”可能不是。
來自這些文本樣本中的每一個的內容的單詞“shag”的上下文可用於確定第一個樣本是令人反感的而第二個樣本是非令人反感的。
此外,Google 可以查看外部上下文信息,例如樣品是否來自地毯零售商的客戶,這表明它指的是一種地毯。
機器學習訓練攻擊性語言分類器
除了查看文本樣本的內容或有關文本樣本的上下文信息外,Google 還可能使用機器學習技術來識別令人反感的內容:

本文檔進一步描述了可以使用半監督機器學習技術訓練分類器。
包含潛在攻擊性術語的第一組訓練樣本可以手動標記為攻擊性或非攻擊性。
第一組樣本可用於初始訓練攻擊性詞分類器。
我們被告知,分類器可能會“在多次訓練迭代中反復重新訓練,以提高分類器的準確性”。
我們了解到更多有關這種機器學習方法的信息,以及它如何從使用人工標記訓練數據轉變為標記訓練數據。
它還可以開發一個“標籤置信度分數”,它表明“相信標籤正確地表明特定的潛在攻擊性術語是否在第一個文本樣本中被冒犯使用”。
這種方法還可以使用有關 n-gram 的信息來幫助識別令人反感的內容。
我們還被告知可以查看“文本樣本中術語的分佈”的詞袋方法。
該專利將文本樣本描述為抄本中的話語,顯示了專利所涵蓋的內容範圍,並且不僅包括查看不同應用程序和網頁中頁面上的文本樣本,還包括查看視頻的抄本.
以下是專利中描述的攻擊性內容分類過程的快速概覽:
- 獲取多個文本樣本
- 從多個文本樣本中識別第一組文本樣本,每個文本樣本都包括特定的潛在攻擊性術語
- 獲取第一組文本樣本的標籤,該標籤指示特定潛在攻擊性術語是否在第一組文本樣本中的相應文本樣本中被冒犯使用
- 至少基於第一組文本樣本和第一組文本樣本的標籤,訓練分類器,該分類器被配置為使用與文本樣本相關聯的一個或多個信號來生成指示是否存在潛在攻擊性術語的標籤在文本樣本中被攻擊性地用於文本樣本
- 向分類器提供包含特定潛在攻擊性術語的第一個文本樣本
- 從分類器中獲取一個標籤,該標籤指示特定的潛在攻擊性術語是否在第一個文本樣本中被攻擊性地使用

遵循攻擊性語言分類過程的優勢
可以使用相對少量的預標記文本樣本來訓練標記具有一個或多個潛在攻擊性術語的文本樣本的分類器。
並非訓練集中所需的所有文本樣本(用於教授機器學習背後的算法)都需要手動標記。
經過訓練的分類器的輸出可用於從 Web 上的文本樣本中選擇和編輯令人反感的術語。
如果在特定文本樣本的上下文中不具有攻擊性的潛在攻擊性術語可能不被編輯。
這意味著分類器可以防止非攻擊性術語被不必要地編輯。
從好的方面來說,分類器基於文本樣本的整體內容而不是孤立地考慮該詞來確定文本樣本中的特定術語在文本樣本中是否被冒犯使用的可能性。
該專利可在以下網址找到:
攻擊性詞的分類
發明人:Mark Edward Epstein、Pedro J. Moreno Mengibar
受讓人:谷歌有限責任公司
美國專利:10,635,750
授予時間:2020 年 4 月 28 日
提交時間:2018 年 4 月 17 日
抽象的
計算機實現的方法可以包括識別包括特定潛在攻擊性術語的第一組文本樣本。 可以獲得第一組文本樣本的標籤,這些標籤指示特定的潛在攻擊性術語是否被攻擊性地使用。 可以至少基於第一組文本樣本和標籤來訓練分類器,分類器被配置為使用與文本樣本相關聯的一個或多個信號來生成指示文本樣本中的潛在攻擊性術語是否是在文本示例中被冒犯地使用。 該方法可以進一步包括向分類器提供包括特定潛在攻擊性術語的第一文本樣本,並且作為響應,從分類器獲得指示特定潛在攻擊性術語是否在第一文本中被攻擊性使用的標籤。樣本。
