Go語言實現(xiàn)敏感詞檢測（前綴樹）

一、前言

大家都知道游戲文字、文章等一些風控場景都實現(xiàn)了敏感詞檢測，一些敏感詞會被屏蔽掉或者文章無法發(fā)布。今天我就分享用Go實現(xiàn)敏感詞前綴樹來達到文本的敏感詞檢測，讓我們一探究竟！

二、敏感詞檢測

實現(xiàn)敏感詞檢測都很多種方法，例如暴力、正則、前綴樹等。例如一個游戲的文字交流的場景，敏感詞會被和諧成 * ，該如何實現(xiàn)呢？首先我們先準備一些敏感詞如下：

sensitiveWords?:=?[]string{
???"傻逼",
???"傻叉",
???"垃圾",
???"媽的",
???"sb",
}

由于文章審核原因敏感詞就換成別的了，大家能理解意思就行。

當在游戲中輸入 什么垃圾打野，傻逼一樣，叫你來開龍不來，sb， 該如何檢測其中的敏感詞并和諧掉

暴力匹配

sensitiveWords?:=?[]string{
???"傻逼",
???"傻叉",
???"垃圾",
???"媽的",
???"sb",
}
text?:=?"什么垃圾打野，傻逼一樣，叫你來開龍不來，sb"

for?_,?word?:=?range?sensitiveWords?{
???text?=?strings.Replace(text,?word,?"*",?-1)
}

println("text?->?",?text)

這樣采用的Go的內(nèi)置的字符串替換的方法來進行暴力替換結(jié)果如下：

text ->  什么*打野，*一樣，叫你來開龍不來，*

但暴力替換的時間復雜度太高了O（N^2），不建議這樣，而且和諧的字符只有一個 *，感覺像屏蔽了一個字一樣，因此改造一下并引出go中的 rune 類型。

sensitiveWords?:=?[]string{
???"傻逼",
???"傻叉",
???"垃圾",
???"媽的",
???"sb",
}
text?:=?"什么垃&圾打野，傻&逼一樣，叫你來開龍不來，s&b"

for?_,?word?:=?range?sensitiveWords?{
???replaceChar?:=?""
???for?i,?wordLen?:=?0,?len(word);?i??",?text)


>>>out
text?->??什么******打野，******一樣，叫你來開龍不來，**

為什么中文的和諧字符多了這么*？

因為Go中默認采用utf-8來進行中文字符編碼，因此一個中文字符要占3個字節(jié)

因此引出 Go 中的 rune 類型，它可以代表一個字符編碼的int32的表現(xiàn)形式，就是說一個字符用一個數(shù)字唯一標識。有點像 ASCII 碼一樣 a => 97， A => 65

源碼解釋如下

// rune is an alias for int32 and is equivalent to int32 in all ways. It is used, by convention, to distinguish character values from integer values.

type rune = int32

fmt.Println("a?->?",?rune('a'))
fmt.Println("A?->?",?rune('A'))

fmt.Println("暉?->?",?rune('暉'))
fmt.Println("霞?->?",?rune('霞'))

fmt.Println("暉霞?->?",?[]rune("暉霞"))

>>>out
a?->??97
A?->??65???????????????????????????????????????????????
暉?->??26198???????????????????????????????????????????
霞?->??38686???????????????????????????????????????????
暉霞?->??[26198?38686]???

因此將敏感詞字符串轉(zhuǎn)換成rune類型的數(shù)組然后來計算其字符個數(shù)

sensitiveWords?:=?[]string{
???"傻逼",
???"傻叉",
???"垃圾",
???"媽的",
???"sb",
}
text?:=?"什么垃圾打野，傻逼一樣，叫你來開龍不來，sb"

for?_,?word?:=?range?sensitiveWords?{
???replaceChar?:=?""

???for?i,?wordLen?:=?0,?len([]rune(word));?i??",?text)


>>>out
text?->??什么**打野，**一樣，叫你來開龍不來，**

正則匹配

//?正則匹配
func?regDemo()?{
???sensitiveWords?:=?[]string{
??????"傻逼",
??????"傻叉",
??????"垃圾",
??????"媽的",
??????"sb",
???}
???text?:=?"什么垃圾打野，傻逼一樣，叫你來開龍不來，sb"

???//?構(gòu)造正則匹配字符
???regStr?:=?strings.Join(sensitiveWords,?"|")
???println("regStr?->?",?regStr)
???wordReg?:=?regexp.MustCompile(regStr)
???text?=?wordReg.ReplaceAllString(text,?"*")

???println("text?->?",?text)
}


>>>out
regStr?->??傻逼|傻叉|垃圾|媽的|sb???????????
text???->??什么*打野，*一樣，叫你來開龍不來，*

再優(yōu)化下：

//?正則匹配敏感詞
func?regDemo(sensitiveWords?[]string,?matchContents?[]string)?{

???banWords?:=?make([]string,?0)?//?收集匹配到的敏感詞

???//?構(gòu)造正則匹配字符
???regStr?:=?strings.Join(sensitiveWords,?"|")
???wordReg?:=?regexp.MustCompile(regStr)
???println("regStr?->?",?regStr)

???for?_,?text?:=?range?matchContents?{
??????textBytes?:=?wordReg.ReplaceAllFunc([]byte(text),?func(bytes?[]byte)?[]byte?{
?????????banWords?=?append(banWords,?string(bytes))
?????????textRunes?:=?[]rune(string(bytes))
?????????replaceBytes?:=?make([]byte,?0)
?????????for?i,?runeLen?:=?0,?len(textRunes);?i??",?text)
??????fmt.Println("replaceText????->?",?string(textBytes))
??????fmt.Println("sensitiveWords?->?",?banWords)
???}
}

func?main()?{
???sensitiveWords?:=?[]string{
??????"傻逼",
??????"傻叉",
??????"垃圾",
??????"媽的",
??????"sb",
???}
???matchContents?:=?[]string{
??????"什么垃圾打野，傻逼一樣，叫你來開龍不來，sb",
???}

???regDemo(sensitiveWords,?matchContents)

}

>>>out
regStr?->??傻逼|傻叉|垃圾|媽的|sb????????????????????????????
srcText????????->??什么垃圾打野，傻逼一樣，叫你來開龍不來，sb
replaceText????->??什么**打野，**一樣，叫你來開龍不來，**????
sensitiveWords?->??[垃圾?傻逼?sb]???

這里是通過敏感詞去構(gòu)造正則表達式然后再去匹配。

本文重點是使用Go實現(xiàn)前綴樹完成敏感詞的匹配，具體細節(jié)都在這里實現(xiàn)。

三、Go 語言實現(xiàn)敏感詞前綴樹

前綴樹結(jié)構(gòu)

前綴樹、也稱字典樹（Trie），是N叉樹的一種特殊形式，前綴樹的每一個節(jié)點代表一個字符串（前綴）。每一個節(jié)點會有多個子節(jié)點，通往不同子節(jié)點的路徑上有著不同的字符。子節(jié)點代表的字符串是由節(jié)點本身的原始字符串，以及通往該子節(jié)點路徑上所有的字符組成的。

如上圖所示，就是一顆前綴樹，注意前綴樹的根節(jié)點不存數(shù)據(jù)。那么我們該如何表示一顆前綴樹呢？

可以參考一下二叉樹的節(jié)點結(jié)構(gòu)

type?BinTreeNode?struct?{
???Val????????string
???LeftChild??*BinTreeNode
???RightChild?*BinTreeNode
}

二叉樹，一個節(jié)點最多只能有兩個孩子節(jié)點，非常明確，而前綴是一顆多叉樹，一個節(jié)點不確定有多少子節(jié)點，因此可以用 切片Slice、Map 來存儲子節(jié)點，然后一般會設(shè)置標志位 End 來標識是否是字符串的最后一個節(jié)點。結(jié)構(gòu)如下

//?TrieNode?敏感詞前綴樹節(jié)點
type?TrieNode?struct?{
???childMap?map[rune]*TrieNode?//?本節(jié)點下的所有子節(jié)點
???Data?????string?????????????//?在最后一個節(jié)點保存完整的一個內(nèi)容
???End??????bool???????????????//?標識是否最后一個節(jié)點
}

這里采用 Map 來存儲子節(jié)點，更方便找字節(jié)點。key是rune類型（字符），value是子節(jié)點。Data則是在最后一個節(jié)點保存完整的一個內(nèi)容。

//?SensitiveTrie?敏感詞前綴樹
type?SensitiveTrie?struct?{
???replaceChar?rune?//?敏感詞替換的字符
???root????????*TrieNode
}

這里再用另一個結(jié)構(gòu)體來代表整個敏感詞前綴樹。

添加敏感詞

添加敏感詞用于構(gòu)造一顆敏感詞前綴樹。

相對每個節(jié)點來說 childMap 都是保存相同前綴字符的子節(jié)點

//?AddChild?前綴樹添加
func?(tn?*TrieNode)?AddChild(c?rune)?*TrieNode?{

???if?tn.childMap?==?nil?{
??????tn.childMap?=?make(map[rune]*TrieNode)
???}

???if?trieNode,?ok?:=?tn.childMap[c];?ok?{
??????//?存在不添加了
??????return?trieNode
???}?else?{
??????//?不存在
??????tn.childMap[c]?=?&TrieNode{
?????????childMap:?nil,
?????????End:??????false,
??????}
??????return?tn.childMap[c]
???}
}

敏感詞前綴樹則是一個完整的敏感詞的粒度來添加

//?AddWord?添加敏感詞
func?(st?*SensitiveTrie)?AddWord(sensitiveWord?string)?{
???//?將敏感詞轉(zhuǎn)換成rune類型(int32)
???tireNode?:=?st.root
???sensitiveChars?:=?[]rune(sensitiveWord)
???for?_,?charInt?:=?range?sensitiveChars?{
??????//?添加敏感詞到前綴樹中
??????tireNode?=?tireNode.AddChild(charInt)
???}
???tireNode.End?=?true
???tireNode.Data?=?sensitiveWord
}

具體是把敏感詞轉(zhuǎn)換成 []rune 類型來代表敏感詞中的一個個字符，添加完后再將最后一個字符節(jié)點的End設(shè)置True，Data為完整的敏感詞數(shù)據(jù)。

可能這樣還不好理解，舉個例子：

//?SensitiveTrie?敏感詞前綴樹
type?SensitiveTrie?struct?{
???replaceChar?rune?//?敏感詞替換的字符
???root????????*TrieNode
}

//?TrieNode?敏感詞前綴樹節(jié)點
type?TrieNode?struct?{
???childMap?map[rune]*TrieNode?//?本節(jié)點下的所有子節(jié)點
???Data?????string?????????????//?在最后一個節(jié)點保存完整的一個內(nèi)容
???End??????bool???????????????//?標識是否最后一個節(jié)點
}

//?NewSensitiveTrie?構(gòu)造敏感詞前綴樹實例
func?NewSensitiveTrie()?*SensitiveTrie?{
???return?&SensitiveTrie{
??????replaceChar:?'*',
??????root:????????&TrieNode{End:?false},
???}
}

//?AddWord?添加敏感詞
func?(st?*SensitiveTrie)?AddWord(sensitiveWord?string)?{

???//?將敏感詞轉(zhuǎn)換成utf-8編碼后的rune類型(int32)
???tireNode?:=?st.root
???sensitiveChars?:=?[]rune(sensitiveWord)
???for?_,?charInt?:=?range?sensitiveChars?{
??????//?添加敏感詞到前綴樹中
??????tireNode?=?tireNode.AddChild(charInt)
???}
???tireNode.End?=?true
???tireNode.Data?=?sensitiveWord
}

//?AddChild?前綴樹添加子節(jié)點
func?(tn?*TrieNode)?AddChild(c?rune)?*TrieNode?{

???if?tn.childMap?==?nil?{
??????tn.childMap?=?make(map[rune]*TrieNode)
???}

???if?trieNode,?ok?:=?tn.childMap[c];?ok?{
??????//?存在不添加了
??????return?trieNode
???}?else?{
??????//?不存在
??????tn.childMap[c]?=?&TrieNode{
?????????childMap:?nil,
?????????End:??????false,
??????}
??????return?tn.childMap[c]
???}
}

func?main()?{
????sensitiveWords?:=?[]string{
???????"傻逼",
???????"傻叉",
???????"垃圾",
????}
????
????st?:=?NewSensitiveTrie()
????for?_,?word?:=?range?sensitiveWords?{
???????fmt.Println(word,?[]rune(word))
???????st.AddWord(word)
????}
}

>>>out
傻逼?[20667?36924]
傻叉?[20667?21449]
垃圾?[22403?22334]

添加前兩個敏感詞傻逼、傻叉，有一個共同的前綴 傻、rune-> 200667

前綴的root是沒有孩子節(jié)點，添加第一個敏感詞時先轉(zhuǎn)換成 []rune（可以想象成字符數(shù)組）

遍歷rune字符數(shù)組，先判斷有沒有孩子節(jié)點（一開始root是沒有的），沒有就先構(gòu)造，然后把 傻（200667） 存到 childMap中 key 為傻(200667)，value 為 TrieNode 但沒有任何數(shù)據(jù)然后返回當前新增的節(jié)點

TrieNode{
????childMap:?nil
????End:??????false,
}

此時添加 逼（36924） ，同樣做2的步驟，傻逼這個敏感詞添加完成走出for循環(huán)，然后將End=true、Data=傻逼。

添加第二個敏感詞傻叉的時候又是從根節(jié)點開始，此時root有childMap，也存在傻（20667）節(jié)點，則是直接不添加把傻（20667）節(jié)點返回，然后再此節(jié)點上繼續(xù)添加叉（21449），不存在添加到傻節(jié)點的childMap中。

添加第三個敏感詞垃圾，又從根節(jié)點開始，垃（22403） ，根節(jié)點不存在該子節(jié)點，故添加到根節(jié)點的childMap中，然后返回新增的垃（22403）節(jié)點

在垃節(jié)點基礎(chǔ)上添加 圾（22334） 節(jié)點，不存在子節(jié)點則添加并返回。

由此一顆敏感詞前綴樹就構(gòu)造出來了。

總結(jié)：添加敏感詞字符節(jié)點存在不添加返回存在的節(jié)點，不存在添加新字符節(jié)點并返回新添節(jié)點，當敏感詞的所有字符都添加完畢后，讓最后一個節(jié)點，End=true，存儲一個完整的敏感詞。

匹配敏感詞

將待匹配的內(nèi)容轉(zhuǎn)換成 []rune 類型，然后遍歷尋找前綴樹種第一個匹對的前綴節(jié)點，然后從后一個位置繼續(xù)，直到完整匹配到了敏感詞，將匹配文本的敏感詞替換成 *

//?FindChild?前綴樹尋找字節(jié)點
func?(tn?*TrieNode)?FindChild(c?rune)?*TrieNode?{
???if?tn.childMap?==?nil?{
??????return?nil
???}

???if?trieNode,?ok?:=?tn.childMap[c];?ok?{
??????return?trieNode
???}
???return?nil
}

//?replaceRune?字符替換
func?(st?*SensitiveTrie)?replaceRune(chars?[]rune,?begin?int,?end?int)?{
???for?i?:=?begin;?i??0?{
??????//?有敏感詞
??????replaceText?=?string(textCharsCopy)
???}?else?{
??????//?沒有則返回原來的文本
??????replaceText?=?text
???}

???return?sensitiveWords,?replaceText
}

這樣需要注意的是在內(nèi)容的末尾匹配到了的敏感詞處理，因為j+1后，會等于textLen的從而不進入for循環(huán)從而沒有處理末尾，因此需要特殊處理下末尾情況。具體測試如下

//?AddWords?批量添加敏感詞
func?(st?*SensitiveTrie)?AddWords(sensitiveWords?[]string)?{
???for?_,?sensitiveWord?:=?range?sensitiveWords?{
??????st.AddWord(sensitiveWord)
???}
}

//?前綴樹匹配敏感詞
func?trieDemo(sensitiveWords?[]string,?matchContents?[]string)?{

???trie?:=?NewSensitiveTrie()
???trie.AddWords(sensitiveWords)

???for?_,?srcText?:=?range?matchContents?{
??????matchSensitiveWords,?replaceText?:=?trie.Match(srcText)
??????fmt.Println("srcText????????->?",?srcText)
??????fmt.Println("replaceText????->?",?replaceText)
??????fmt.Println("sensitiveWords?->?",?matchSensitiveWords)
??????fmt.Println()
???}

???//?動態(tài)添加
???trie.AddWord("牛大大")
???content?:=?"今天，牛大大去挑戰(zhàn)灰大大了"
???matchSensitiveWords,?replaceText?:=?trie.Match(content)
???fmt.Println("srcText????????->?",?content)
???fmt.Println("replaceText????->?",?replaceText)
???fmt.Println("sensitiveWords?->?",?matchSensitiveWords)
}


func?main()?{
???sensitiveWords?:=?[]string{
??????"傻逼",
??????"傻叉",
??????"垃圾",
??????"媽的",
??????"sb",
???}
???matchContents?:=?[]string{
??????"你是一個大傻逼，大傻叉",
??????"你是傻叉",
??????"shabi東西",
??????"他made東西",
??????"什么垃圾打野，傻逼一樣，叫你來開龍不來，SB",
??????"正常的內(nèi)容",
???}

???//fmt.Println("---------?普通暴力匹配敏感詞?---------")
???//normalDemo(sensitiveWords,?matchContents)
???//
???//fmt.Println("
---------?正則匹配敏感詞?---------")
???//regDemo(sensitiveWords,?matchContents)

???fmt.Println("
---------?前綴樹匹配敏感詞?---------")
???trieDemo(sensitiveWords,?matchContents)

}

結(jié)果如下：

---------?前綴樹匹配敏感詞?---------
srcText????????->??你是一個大傻&逼，大傻?叉
replaceText????->??你是一個大傻&逼，大傻?叉
sensitiveWords?->??[]

srcText????????->??你是傻叉
replaceText????->??你是傻叉
sensitiveWords?->??[]

srcText????????->??shabi東西
replaceText????->??shabi東西
sensitiveWords?->??[]

srcText????????->??他made東西
replaceText????->??他made東西
sensitiveWords?->??[]

srcText????????->??什么垃?圾打野，傻?逼一樣，叫你來開龍不來，傻?逼東西，S?B
replaceText????->??什么**打野，**一樣，叫你來開龍不來，**
sensitiveWords?->??[垃圾?傻逼]

srcText????????->??正常的內(nèi)容
replaceText????->??正常的內(nèi)容
sensitiveWords?->??[]

過濾特殊字符

可以發(fā)現(xiàn)在敏感詞內(nèi)容的中間添加一些空格、字符、表情都不能正確的在前綴樹中匹配到。因此我們在進行匹配的時候應(yīng)該過濾一些特殊的字符，只保留漢字、數(shù)字、字母，然后全部以小寫來進行匹配。

//?FilterSpecialChar?過濾特殊字符
func?(st?*SensitiveTrie)?FilterSpecialChar(text?string)?string?{
???text?=?strings.ToLower(text)
???text?=?strings.Replace(text,?"?",?"",?-1)?//?去除空格

???//?過濾除中英文及數(shù)字以外的其他字符
???otherCharReg?:=?regexp.MustCompile("[^u4e00-u9fa5a-zA-Z0-9]")
???text?=?otherCharReg.ReplaceAllString(text,?"")
???return?text
}

感覺這里去除空格是多余的步驟，正則以已經(jīng)幫你排除了。

u4e00-u9fa5a 代表所有的中文

a-zA-Z 代表大小寫字母

0-9 數(shù)字

連起來在最前面加上一個 ^ 就是進行一個取反

添加拼音檢測

最后就是添加中文的拼音檢測，讓輸入的拼音也能正確的匹配到，拼音檢測是把我們的敏感詞轉(zhuǎn)換成拼音然后添加到前綴樹中。

實現(xiàn)中文轉(zhuǎn)拼音可以用別人造好的輪子

go get github.com/chain-zhang/pinyin

查看源碼整體的思路就是用文件把文字的rune和拼音對應(yīng)上，具體細節(jié)自行查看

測試一下

//?HansCovertPinyin?中文漢字轉(zhuǎn)拼音
func?HansCovertPinyin(contents?[]string)?[]string?{
???pinyinContents?:=?make([]string,?0)
???for?_,?content?:=?range?contents?{
??????chineseReg?:=?regexp.MustCompile("[u4e00-u9fa5]")
??????if?!chineseReg.Match([]byte(content))?{
?????????continue
??????}

??????//?只有中文才轉(zhuǎn)
??????pin?:=?pinyin.New(content)
??????pinStr,?err?:=?pin.Convert()
??????println(content,?"->",?pinStr)
??????if?err?==?nil?{
?????????pinyinContents?=?append(pinyinContents,?pinStr)
??????}
???}
???return?pinyinContents
}

func?main()?{
???sensitiveWords?:=?[]string{
??????"傻逼",
??????"傻叉",
??????"垃圾",
??????"媽的",
??????"sb",
???}
???
???//?漢字轉(zhuǎn)拼音
???pinyinContents?:=?HansCovertPinyin(sensitiveWords)
???fmt.Println(pinyinContents)
?}
?
?
?>>>out
傻逼?->?sha?bi?????????????????????????????
傻叉?->?sha?cha????????????????????????????
垃圾?->?la?ji??????????????????????????????
媽的?->?ma?de??????????????????????????????
[sha?bi?sha?cha?la?ji?ma?de]?

然后再測試敏感詞匹配的效果

//?Match?查找替換發(fā)現(xiàn)的敏感詞
func?(st?*SensitiveTrie)?Match(text?string)?(sensitiveWords?[]string,?replaceText?string)?{
???if?st.root?==?nil?{
??????return?nil,?text
???}

???//?過濾特殊字符
???filteredText?:=?st.FilterSpecialChar(text)
???sensitiveMap?:=?make(map[string]*struct{})?//?利用map把相同的敏感詞去重
???textChars?:=?[]rune(filteredText)
???textCharsCopy?:=?make([]rune,?len(textChars))
???copy(textCharsCopy,?textChars)
???for?i,?textLen?:=?0,?len(textChars);?i??0?{
??????//?有敏感詞
??????replaceText?=?string(textCharsCopy)
???}?else?{
??????//?沒有則返回原來的文本
??????replaceText?=?text
???}

???return?sensitiveWords,?replaceText
}

//?前綴樹匹配敏感詞
func?trieDemo(sensitiveWords?[]string,?matchContents?[]string)?{

???//?漢字轉(zhuǎn)拼音
???pinyinContents?:=?HansCovertPinyin(sensitiveWords)
???fmt.Println(pinyinContents)

???trie?:=?NewSensitiveTrie()
???trie.AddWords(sensitiveWords)
???trie.AddWords(pinyinContents)?//?添加拼音敏感詞

???for?_,?srcText?:=?range?matchContents?{
??????matchSensitiveWords,?replaceText?:=?trie.Match(srcText)
??????fmt.Println("srcText????????->?",?srcText)
??????fmt.Println("replaceText????->?",?replaceText)
??????fmt.Println("sensitiveWords?->?",?matchSensitiveWords)
??????fmt.Println()
???}

???//?動態(tài)添加
???trie.AddWord("牛大大")
???content?:=?"今天，牛大大去挑戰(zhàn)灰大大了"
???matchSensitiveWords,?replaceText?:=?trie.Match(content)
???fmt.Println("srcText????????->?",?content)
???fmt.Println("replaceText????->?",?replaceText)
???fmt.Println("sensitiveWords?->?",?matchSensitiveWords)
}

func?main()?{
???sensitiveWords?:=?[]string{
??????"傻逼",
??????"傻叉",
??????"垃圾",
??????"媽的",
??????"sb",
???}

???matchContents?:=?[]string{
??????"你是一個大傻逼，大傻叉",
??????"你是傻叉",
??????"shabi東西",
??????"他made東西",
??????"什么垃?圾打野，傻逼一樣，叫你來開龍不來，SB",
??????"正常的內(nèi)容",
???}

???fmt.Println("
---------?前綴樹匹配敏感詞?---------")
???trieDemo(sensitiveWords,?matchContents)

}

結(jié)果如下：

---------?前綴樹匹配敏感詞?---------
srcText????????->??你是一個大傻逼，大傻叉??????????????????
replaceText????->??你是一個大**大**??????????????????????????
sensitiveWords?->??[傻逼?傻叉]???????????????????????????????
?????????????????????????????????????????????????????????????
srcText????????->??你是傻叉?????????????????????????????????
replaceText????->??你是**????????????????????????????????????
sensitiveWords?->??[傻叉]????????????????????????????????????
?????????????????????????????????????????????????????????????
srcText????????->??shabi東西?????????????????????????????????
replaceText????->??*****東西?????????????????????????????????
sensitiveWords?->??[shabi]???????????????????????????????????
?????????????????????????????????????????????????????????????
srcText????????->??他made東西????????????????????????????????
replaceText????->??他****東西????????????????????????????????
sensitiveWords?->??[made]????????????????????????????????????
?????????????????????????????????????????????????????????????
srcText????????->??什么垃圾打野，傻逼一樣，叫你來開龍不來，SB
replaceText????->??什么**打野**一樣叫你來開龍不來**??????????
sensitiveWords?->??[垃圾?傻逼?sb]????????????????????????????
?????????????????????????????????????????????????????????????
srcText????????->??正常的內(nèi)容???????????????????????????????
replaceText????->??正常的內(nèi)容???????????????????????????????
sensitiveWords?->??[]????????????????????????????????????????

srcText????????->??今天，牛大大挑戰(zhàn)灰大大
replaceText????->??今天***挑戰(zhàn)灰大大
sensitiveWords?->??[牛大大]

整體效果還是挺不錯的，但是一些諧音或者全部英文句子時有空格還是不能去除空格不然可能會存在誤判還是不能檢測出，要想充分的進行敏感詞檢測，首先要有完善的敏感詞庫，其次就是特殊情況特殊處理，最后就是先進行敏感詞匹配然后再進行自然語言處理NLP完善，訓練風控模型等檢測效果才更只能。

四、源代碼

敏感詞前綴樹匹配：gitee.com/huiDBK/sens…[1]

　　審核編輯：湯梓紅

閱讀全文

源代碼(65967) 源代碼(65967)
go語言(8912) go語言(8912)

如何運用Go語言實現(xiàn)人臉識別

但是，有一個非常酷的機器學習庫 —— dlib 庫，一下就吸引了我的注意力。首先，它是用 C ++ 語言編寫的，因此你可以使用 cgo 輕松地創(chuàng)建 Go 語言綁定。其次，在 Wild

2018-08-23 09:41:09

12741

C語言實現(xiàn)面向?qū)ο蟮姆绞?C++中的class的運行原理

這里主要介紹下在C語言中是如何實現(xiàn)的面向?qū)ο蟆Ｖ懒薈語言實現(xiàn)面向?qū)ο蟮姆绞剑俾?lián)想下，C++中的class的運行原理是什么？

2022-10-21 09:00:42

797

C語言實現(xiàn)：見縫插針游戲！代碼思路+源碼分享

見縫插圓我們昨天已經(jīng)用C語言實現(xiàn)了，今天將實現(xiàn)一個見縫插針的游戲。

2022-12-05 11:02:12

463

go語言用來開發(fā)嵌入式linux

”一詞，有兩層含義，“改變”和“革命”。一是要有所改變，不能守舊。守舊就是退步，就會逐漸跟不讓步伐。二是要敢于改變，敢于堅持，敢于嘗試新事物，排除非議，即敢于“革命”。選用go語言開發(fā)嵌入式li...

2021-11-05 07:49:29

ADUC7061如何使用C語言實現(xiàn)EEPROM功能？

我使用ADUC7061做的信號采集，現(xiàn)在客戶需要實現(xiàn)EEPROM功能來保存3-5個數(shù)據(jù)，請問如何使用C語言實現(xiàn)？不使用外部EEPROM 專用IC。

2024-01-12 06:56:45

C++語言實現(xiàn)火車排序功能.doc

C++語言實現(xiàn)火車排序功能.doc

2017-08-05 22:01:19

C語言實現(xiàn)FFT(快速傅里葉變換)

2013-10-25 21:33:41

C語言實現(xiàn)常用排序算法是什么？

2021-10-19 06:41:46

C語言實現(xiàn)數(shù)字信號處理算法

2012-08-16 23:17:38

C語言實現(xiàn)的泛型函數(shù)swap()

C語言實現(xiàn)的泛型函數(shù)swap()：交換兩個變量中的數(shù)據(jù).

2022-01-20 07:10:47

CRC算法和c語言實現(xiàn)

2012-08-20 19:21:44

MCU是怎樣用c語言實現(xiàn)查詢紅外解碼的

紅外的編碼格式是怎樣的？MCU是怎樣用c語言實現(xiàn)查詢紅外解碼的？

2022-02-25 07:44:34

PID控制算法的C語言實現(xiàn)

網(wǎng)上的資料，程序原理與實現(xiàn)上主要參考了“PID控制算法的C語言實現(xiàn).(絕對的好東西)”。本次PID主要是通過固態(tài)繼電器控制加熱片進行加熱，溫度探測使用的DS18B20，穩(wěn)定后在0.5

2022-01-14 09:01:15

PID控制算法的C語言實現(xiàn)(完整版)

2019-08-10 09:40:19

PID控制算法的C語言實現(xiàn)(完整版)

2020-02-06 17:08:52

PID控制算法的C語言實現(xiàn)(完整版)

2020-04-02 11:39:13

PID控制算法的C語言實現(xiàn)(完整版)

2020-05-01 11:03:55

SQL語言實現(xiàn)數(shù)據(jù)庫記錄的查詢

絕大部分DBMS都支持SQL語言，LabVIEW數(shù)據(jù)庫工具包實現(xiàn)的實質(zhì)也是基于SQL語言，它為不熟悉SQL語言的用戶把SQL語言封裝了起來，以方便他們使用。所以，我們也可以利用SQL語言實現(xiàn)數(shù)據(jù)庫記錄的查詢。

2014-07-01 21:25:32

TPYBoard是怎樣通過Python腳本語言實現(xiàn)單片機控制的

MicroPython是什么？TPYBoard是怎樣通過Python腳本語言實現(xiàn)單片機控制的？

2021-11-10 06:56:49

會go語言能做什么工作？

Go語言主要用作服務(wù)器端開發(fā)，其定位是用來開發(fā)“大型軟件”的，適合于很多程序員一起開發(fā)大型軟件，并且開發(fā)周期長，支持云計算的網(wǎng)絡(luò)服務(wù)。Go語言能夠讓程序員快速開發(fā)，并且在軟件不斷的增長過程中，它能

2018-03-22 15:03:02

凹槽凸輪輪廓線的解析設(shè)計及C語言實現(xiàn)

2013-06-04 10:44:03

利用函數(shù)計算實現(xiàn)網(wǎng)絡(luò)游戲或視頻直播中的敏感詞檢測

實現(xiàn)，至于是由客戶端和服務(wù)端發(fā)起函數(shù)調(diào)用看具體需求，在本示例中，我們把發(fā)起的敏感詞檢測過程放在客戶端發(fā)起，如下圖所示：優(yōu)勢：不會增加服務(wù)器的計算消耗，同時只需要更新下函數(shù)，就可以達到實時更新敏感詞目

2018-01-30 15:42:14

基于FPGA的圖像邊緣檢測系統(tǒng)設(shè)計，用VHDL語言實現(xiàn)該怎么做？

不知道有沒有大神做過：基于FPGA的圖像邊緣檢測系統(tǒng)設(shè)計，用VHDL語言實現(xiàn)

2018-05-10 00:22:07

基于Proteus和C語言實現(xiàn)

基于Proteus和C語言實現(xiàn)一共四個題目，有沒有人愿意嘗試一下？

2021-07-14 06:20:45

基于匯編語言實現(xiàn)最簡單的LED燈閃爍

匯編實現(xiàn)LED燈閃1. 本文目的基于匯編語言實現(xiàn)最簡單的LED燈閃爍。匯編語言（assembly language）是一種用于電子計算機、微處理器、微控制器或其他可編程器件的低級語言，亦稱為符號語言

2021-10-27 07:34:55

如何使用C語言實現(xiàn)模糊PID控制？

2021-09-24 08:54:18

如何使用c語言實現(xiàn)LED流水燈

單片機實驗：使用c語言實現(xiàn)LED流水燈目的：實現(xiàn)一個簡單的流水燈程序仿真軟件：Portues編程軟件：KeilPortues 原理圖繪制：需要用到的模塊：單片機：AT89C51電容

2021-11-30 07:52:33

如何利用FPGA和VHDL語言實現(xiàn)PCM碼的解調(diào)？

利用現(xiàn)場可編程門陣列（FPGA）和VHDL 語言實現(xiàn)了PCM碼的解調(diào)，這樣在不改變硬件電路的情況下，能夠適應(yīng)PCM碼傳輸速率和幀結(jié)構(gòu)變化，從而正確解調(diào)數(shù)據(jù)。

2021-05-07 06:58:37

如何利用VHDL語言實現(xiàn)FPGA與單片機的串口異步通信電路？

本文介紹利用VHDL語言實現(xiàn) FPGA與單片機的串口異步通信電路。

2021-04-29 06:34:57

如何利用c語言實現(xiàn)中文“大”字的顯示？

2021-11-02 06:25:39

如何利用單片機和C語言實現(xiàn)按鍵菜單程序的設(shè)計？

2021-10-14 07:58:24

如何用C語言實現(xiàn)OOP編程？

老大看到OOP編程很好，就讓我學，怎么用C語言實現(xiàn)OOP編程的，請大俠指點

2019-10-30 03:45:28

如何用C語言實現(xiàn)一款猜數(shù)字游戲

2021-01-06 07:10:06

如何用C語言實現(xiàn)字符數(shù)組轉(zhuǎn)換為16進制數(shù)組？

2021-11-03 07:47:14

如何用C語言實現(xiàn)顯示16只燈的狀態(tài)并開關(guān)燈？

2021-10-19 09:39:16

如何用C語言實現(xiàn)面向?qū)ο缶幊?/a>

1 用C語言實現(xiàn)面向?qū)ο缶幊蘂OF的《設(shè)計模式》一書的副標題叫做“可復用面向?qū)ο筌浖幕A(chǔ)”，從標題就能看出面向?qū)ο笫窃O(shè)計模式基本思想。由于C語言并不是面向?qū)ο蟮?b class="flag-6" style="color: red">語言，C語言沒有直接提供封裝、繼承

2021-07-12 07:24:18

如何用VHDL語言實現(xiàn)幀同步的設(shè)計？

幀同步是什么工作原理？如何用VHDL語言實現(xiàn)幀同步的設(shè)計？

2021-04-08 06:33:59

小白求助，求基于Proteus和C語言實現(xiàn)的程序和仿真

2021-10-19 06:20:34

快速傅里葉變換C語言實現(xiàn)

快速傅里葉變換C語言實現(xiàn) 模擬采樣進行頻譜分析FFT是DFT的快速算法用于分析確定信號(時間連續(xù)可積信號、不一定是周期信號)的頻率(或相位、此處不研究相位)成分，且傅里葉變換對應(yīng)的ω\omega

2021-07-20 06:01:26

求助：如何用C語言實現(xiàn)直接尋址

如何用C語言實現(xiàn)直接尋址，就像匯編里面的mov 0x80,0x60

2014-05-13 16:39:17

求助：用FPGA中的verilog語言實現(xiàn)BPSK調(diào)制！

最近在做個課題，需要用FPGA中的verilog語言實現(xiàn)BPSK調(diào)制，fpga不是很會，望大神指導下，急求代碼啊！謝謝

2013-03-06 18:12:36

用verilog語言實現(xiàn)電子鐘

各位大神求救啊用verilog語言實現(xiàn)電子鐘

2014-05-04 16:37:51

請問如何使用Verilog硬件描述語言實現(xiàn)AES密碼算法？

如何使用Verilog硬件描述語言實現(xiàn)AES密碼算法？

2021-04-14 06:29:10

請問怎么在DSP上用匯編語言實現(xiàn)復數(shù)濾波？

如題，我用的DSP開發(fā)板是TMSC5535，需要用到Hibert濾波，需要用匯編語言實現(xiàn)，但是濾波器的系數(shù)是復數(shù)，請問匯編語言要怎么實現(xiàn)？（匯編語言實數(shù)濾波我已經(jīng)會了），謝謝！

2018-07-31 07:24:29

CRC算法原理及C語言實現(xiàn)

CRC算法原理及C語言實現(xiàn):本文從理論上推導出CRC 算法實現(xiàn)原理，給出三種分別適應(yīng)不同計算機或微控制器硬件環(huán)境的C 語言程序。讀者更能根據(jù)本算法原理，用不同的語言編寫出獨特

2009-09-23 23:38:50

用JAVA語言實現(xiàn)RSA公鑰密碼算法

用JAVA語言實現(xiàn)RSA公鑰密碼算法:本文闡述了公開密鑰密碼體制RSA算法的原理及實現(xiàn)技術(shù)。并在此基礎(chǔ)上，給出了JAVA語言實現(xiàn)的RSA算法源代碼。關(guān)鍵詞：ILSA體制；公鑰；密鑰

2010-02-10 10:27:15

用VHDL語言實現(xiàn)3分頻電路

用VHDL語言實現(xiàn)3分頻電路標簽/分類：眾所周知，分頻器是FPGA設(shè)計中使用頻率非常高的基本設(shè)計之一，盡管在目前大部分設(shè)計中，廣泛使用芯片廠家集成的鎖相

2007-08-21 15:28:16

5527

用C語言實現(xiàn)DES算法

用C語言實現(xiàn)DES算法本DES算法，使用了效率很高的C完成。目前，國內(nèi)知名企業(yè)的POS終端中，單DES算法，均是采用這個函數(shù)完成。函數(shù)經(jīng)本站驗證過，可以

2008-01-16 10:09:55

3182

用C語言實現(xiàn)FFT算法

用C語言實現(xiàn)FFT算法 /*****************fft programe*********************/#include "typedef.h" #include "math.h" struct compx EE(struct compx

2008-10-30 13:39:56

6179

51系列單片機中模擬串行口的C語言實現(xiàn)_栗小寬

5 1 系列單片機中模擬串行口的C 語言實現(xiàn).pdf

2015-10-29 11:34:19

DSP算法的c語言實現(xiàn)

DSP算法的c語言實現(xiàn)，又需要的朋友下來看看。

2016-05-09 10:59:26

5402 C語言實例

TMS320LF5402 C語言實例源代碼分享

2016-05-23 18:21:16

FM收音機的解碼及控制器VHDL語言實現(xiàn)

Xilinx FPGA工程例子源碼：FM收音機的解碼及控制器VHDL語言實現(xiàn)

2016-06-07 14:13:43

C語言實現(xiàn)運算器的原理完整編程代碼

C語言實現(xiàn)運算器的原理完整編程代碼C language implementation of the principle of the operator complete programming code

2016-07-08 11:33:08

卡爾曼濾波算法C語言實現(xiàn)

卡爾曼濾波算法C語言實現(xiàn) 可以運行STM32 和 arduino上已測試成功

2016-09-27 16:34:16

PID控制算法的C語言實現(xiàn)（完整版）

PID控制算法的C語言實現(xiàn)一 PID算法原理

2016-11-05 15:45:14

C++語言實現(xiàn)火車排序功能

C++語言實現(xiàn)火車排序功能

2017-01-05 11:27:10

網(wǎng)易有道CEO周楓推薦Go語言并介紹Go語言的3個優(yōu)點

網(wǎng)易有道CEO周楓推薦Go語言。他認為Go很好地繼承了C語言靈活、簡單有效的思想；Go有很高的生產(chǎn)效率；Go精選了一些復雜事情的優(yōu)秀解決辦法，通過語言功能和標準庫提供出來。

2018-01-31 14:11:35

4937

C語言實現(xiàn)簡單的基數(shù)排序

本文主要闡述的類容是C語言實現(xiàn)簡單的基數(shù)排序。基數(shù)排序是一種分配排序，其基本思想是：排序過程無須比較關(guān)鍵字，而是通過“分配”和“收集”過程來實現(xiàn)排序。

2018-02-05 14:57:50

1672

4個重要算法C語言實現(xiàn)源代碼

2018-06-10 08:00:00

如何使用C語言實現(xiàn)軟復位詳細資料說明

本文檔的有內(nèi)容詳細介紹的是如何使用C語言實現(xiàn)軟復位詳細資料說明。

2019-06-14 17:44:00

如何使用C語言實現(xiàn)一個比較簡單的猜數(shù)游戲的程序免費下載

本文檔的主要內(nèi)容詳細介紹的是如何使用C語言實現(xiàn)一個比較簡單的猜數(shù)游戲的程序免費下載

2019-04-24 18:31:00

使用C語言實現(xiàn)抽獎系統(tǒng)的設(shè)計資料和源代碼說明

本文檔的主要內(nèi)容詳細介紹的是使用C語言實現(xiàn)抽獎系統(tǒng)的設(shè)計資料說明。

2019-11-21 14:09:34

使用C語言實現(xiàn)靜態(tài)網(wǎng)頁的代碼免費下載

本文檔的主要內(nèi)容詳細介紹的是使用C語言實現(xiàn)靜態(tài)網(wǎng)頁的代碼免費下載。

2019-11-22 16:20:15

使用C++語言實現(xiàn)的解題的實例說明

本文檔的主要內(nèi)容詳細介紹的是使用C++語言實現(xiàn)的解題的實例說明。

2020-04-21 11:50:45

使用Quartus和VHDL語言實現(xiàn)的LPC時序的工程文件

本文檔的主要內(nèi)容詳細介紹的是使用Quartus和VHDL語言實現(xiàn)的LPC時序的工程文件免費下載。

2020-09-18 16:49:00

使用單片機實現(xiàn)8位LED右移的C語言實例免費下載

本文檔的主要內(nèi)容詳細介紹的是使用單片機實現(xiàn)8位LED右移的C語言實例免費下載。

2020-11-09 17:24:00

使用單片機實現(xiàn)花樣燈的C語言實例免費下載

本文檔的主要內(nèi)容詳細介紹的是使用單片機實現(xiàn)花樣燈的C語言實例免費下載。

2020-11-09 17:24:46

使用單片機實現(xiàn)PWM調(diào)光的C語言實例免費下載

本文檔的主要內(nèi)容詳細介紹的是使用單片機實現(xiàn)PWM調(diào)光的C語言實例免費下載。

2020-11-09 17:24:00

使用單片機實現(xiàn)99累加的C語言實例免費下載

本文檔的主要內(nèi)容詳細介紹的是使用單片機實現(xiàn)99累加的C語言實例免費下載。

2020-11-12 17:33:57

使用單片機實現(xiàn)99累減的C語言實例免費下載

本文檔的主要內(nèi)容詳細介紹的是使用單片機實現(xiàn)99累減的C語言實例免費下載。

2020-11-12 17:33:00

使用單片機實現(xiàn)數(shù)碼管消隱的C語言實例免費下載

本文檔的主要內(nèi)容詳細介紹的是使用單片機實現(xiàn)數(shù)碼管消隱的C語言實例免費下載。

2020-11-13 18:06:43

使用單片機實現(xiàn)定時器的C語言實例免費下載

本文檔的主要內(nèi)容詳細介紹的是使用單片機實現(xiàn)定時器的C語言實例免費下載。

2020-11-16 17:48:59

使用單片機實現(xiàn)8位端口檢測8獨立按鍵的C語言實例免費下載

本文檔的主要內(nèi)容詳細介紹的是使用單片機實現(xiàn)8位端口檢測8獨立按鍵的C語言實例免費下載。

2020-11-20 16:49:00

詳解GO語言的趨勢與使用情況

Go 語言簡單易學、性能優(yōu)良。JetBrains Blog 發(fā)布了Go 語言的調(diào)查報告，看看GO 語言當前趨勢吧！

2021-03-17 11:05:27

2770

使用單片機實現(xiàn)串口通訊的C語言實驗文件

本文檔的主要內(nèi)容詳細介紹的是使用單片機實現(xiàn)串口通訊的C語言實驗文件

2021-03-25 14:53:24

使用單片機實現(xiàn)獨立按鍵的C語言實例免費下載

本文檔的主要內(nèi)容詳細介紹的是使用單片機實現(xiàn)獨立按鍵的C語言實例免費下載。

2021-04-02 10:28:32

使用單片機實現(xiàn)矩陣鍵盤的C語言實例免費下載

本文檔的主要內(nèi)容詳細介紹的是使用單片機實現(xiàn)矩陣鍵盤的C語言實例免費下載。

2021-04-02 10:28:00

go語言枚舉類型怎么用

go 語言枚舉類型是這么用的？在什么場景下會用到枚舉？本文對 go 語言枚舉做了詳細講解。枚舉，是一種重要的數(shù)據(jù)類型，由一組鍵值對組成，通常用來在編程語言中充當常量的標識符。在主流行編程語言

2021-09-02 09:43:36

4843

go語言實現(xiàn)的簡單im即時通信系統(tǒng)

? 本文介紹了一個 go 語言實現(xiàn)的簡單 im 即時通信系統(tǒng)。簡介純go實現(xiàn)的im即時通訊系統(tǒng)，各層可單獨部署，之間通過rpc通訊，支持集群，github地址 https

2021-10-20 16:02:22

3060

詳細介紹go語言中的閉包的實現(xiàn)

，沒有研究過函數(shù)式語言的用戶可能很難理解閉包的強大，相關(guān)的概念超出了本書的范圍。Go語言是支持閉包的，這里只是簡單地講一下在Go語言中閉包是如何實現(xiàn)的。 func?f(i?int)?func()?int

2021-10-20 16:18:05

1659

go語言實現(xiàn)的簡單im即時通信系統(tǒng)解析

【導讀】本文介紹了一個 go 語言實現(xiàn)的簡單 im 即時通信系統(tǒng)。簡介純go實現(xiàn)的im即時通訊系統(tǒng)，各層可單獨部署，之間通過rpc通訊，支持集群，github地址 https

2021-10-26 09:22:17

3797

帶你了解go語言中的閉包

中的概念，沒有研究過函數(shù)式語言的用戶可能很難理解閉包的強大，相關(guān)的概念超出了本書的范圍。Go語言是支持閉包的，這里只是簡單地講一下在Go語言中閉包是如何實現(xiàn)的。 func?f(i?int)?func

2021-11-02 15:27:41

2157

CRC校驗算法原理及c語言實現(xiàn)

2021-11-30 10:04:07

累加校驗和C語言實現(xiàn)

2021-11-29 18:06:11

Go并發(fā)模型的實現(xiàn)原理

Go語言是為并發(fā)而生的語言，Go語言是為數(shù)不多的在語言層面實現(xiàn)并發(fā)的語言；也正是Go語言的并發(fā)特性，吸引了全球無數(shù)的開發(fā)者。

2022-04-15 08:49:54

1032

怎么用C語言實現(xiàn)多態(tài)

這里我想主要介紹下在C語言中是如何實現(xiàn)的面向?qū)ο蟆Ｖ懒薈語言實現(xiàn)面向?qū)ο蟮姆绞剑覀冊俾?lián)想下，C++中的class的運行原理是什么？

2022-10-12 09:12:27

1578

C語言實現(xiàn)《別碰白塊》小游戲！全部代碼+思路注釋

今天我們將用C語言實現(xiàn)一個小球跳躍躲避方塊的游戲。

2022-12-08 09:06:34

702

一個使用Java語言實現(xiàn)的向量化BLAS庫VectorBLAS

VectorBLAS是一個使用Java語言實現(xiàn)的向量化BLAS高性能庫，目前已在openEuler社區(qū)開源。

2023-08-16 10:40:54

491

基于VHDL語言實現(xiàn)遠程防盜報警設(shè)計

電子發(fā)燒友網(wǎng)站提供《基于VHDL語言實現(xiàn)遠程防盜報警設(shè)計.pdf》資料免費下載

2023-11-08 14:33:11

使用go語言實現(xiàn)一個grpc攔截器

在開發(fā)grpc服務(wù)時，我們經(jīng)常會遇到一些通用的需求，比如：日志、鏈路追蹤、鑒權(quán)等。這些需求可以通過grpc攔截器來實現(xiàn)。本文使用go語言來實現(xiàn)一個 grpc一元模式(Unary)攔截器，上報鏈路追蹤信息。

2023-12-18 10:13:56

196

已全部加載完成

搜索歷史

Go語言實現(xiàn)敏感詞檢測（前綴樹）

評論