等保2.0下,安全審計技術大起底
1等保2.0關于安全審計的規(guī)定
等保2.0標準在2019年5月正式發(fā)布,將于2019年12月開始實施。等保2.0標準中對安全審計做了詳細要求,下面表格中列出了等保2.0對安全審計的技術要求,黑色字體表示是針對上一安全級別增強的要求。
在等級保護體系中,級別越高,對安全性要求
越高。在“附錄C(規(guī)范性附錄)等級保護安全框架和關鍵技術使用要求”中,特殊強調(diào)應在較高級別等級保護對象的安全建設和安全整改中注重使用一些關鍵技術,其中包含審計追查技術:“應立足于現(xiàn)有的大量事件采集、數(shù)據(jù)挖掘、智能事件關聯(lián)和基于業(yè)務的運維監(jiān)控技術,解決海量數(shù)據(jù)處理瓶頸,通過對審計數(shù)據(jù)快速提取,滿足信息處理中對于檢索速度和準確性的需求;同時,還應建立事件分析模型,發(fā)現(xiàn)高級安全威脅,并追查威脅路徑和定位威脅源頭,實現(xiàn)對攻擊行為的有效防范和追查。”
等保2.0中主要在安全區(qū)域邊界、安全計算環(huán)境和安全管理中心的要求中提到審計要求。安全區(qū)域邊界的審計內(nèi)容主要指網(wǎng)絡和設備的重要安全事件、用戶行為等;安全計算環(huán)境的審計內(nèi)容主要是用戶行為、安全事件、主客體的訪問行為等;管理中心的審計內(nèi)容主要指管理員的各種操作日志。在“工業(yè)控制系統(tǒng)安全擴展要求”中,專門指出:“控制設備自身應實現(xiàn)相應級別安全通用要求提出的身份鑒別、訪問控制和安全審計等安全要求,如受條件限制控制設備無法實現(xiàn)上述要求,應由其上位控制或管理設備實現(xiàn)同等功能或通過管理手段控制”。安全審計是我們大多數(shù)人都很熟悉的安全技術,平常大家耳熟能詳?shù)臋嘞薹峙鋾r的“三權分立”原則,通常就是指系統(tǒng)管理員、業(yè)務操作員、審計管理員。很多廠家關于“三權分立”的實現(xiàn)和解釋都不一致,但是審計員的角色和職責都相對比較明確。等保2.0的“安全管理機構(gòu)”中,明確要求:“應設立系統(tǒng)管理員、審計管理員和安全管理員等崗位,并定義部門及各個工作崗位的職責。……應配備一定數(shù)量的系統(tǒng)管理員、審計管理員和安全管理員等”。
2安全審計的基本概念
在討論信息領域的安全審計之前,我們先來了解一下審計的歷史和概念。審計的歷史非常悠久,我國從西周時期就存在專門從事審計工作的部門,一直延續(xù)至今,現(xiàn)在各個體制的國家機構(gòu)中都存在審計部門。我國審計部門的歷史發(fā)展如下表所示:
審計的主要目的是檢查人的行為、資源的分配、事情的發(fā)展是否符合規(guī)范要求。按照現(xiàn)代偵查學理論,“犯罪必留痕跡”——這也從另一方面論證了審計的價值,只要違反了法律或規(guī)范,一定會留下相關證據(jù),就應該可以審計出來。合規(guī)性檢查也隱藏著審計的一個潛在前提,即審計必須基于預定的規(guī)范標準,如果沒有規(guī)范標準,也就無從審計。審計的核心特征是獨立性,主要表現(xiàn)為機構(gòu)獨立、人員獨立、工作獨立、經(jīng)濟獨立。獨立性是審計工作順利開展的基礎,有了獨立性,才能保證審計的權威性、公正性。審計的過程就是收集、整理和分析審計證據(jù)的過程,審計證據(jù)可能是過往文件、書信、賬薄、人員名單等各種材料。審計的證據(jù)必須真實可靠、完整充分,證據(jù)是審計的基石,審計的整個過程就是圍繞著證據(jù)展開,首先根據(jù)審計的目的,選擇合適的證據(jù);然后整理分析所有采集的證據(jù),找出其中的關聯(lián)和脈絡;最后給出分析結(jié)論。審計的職能是監(jiān)督、鑒證和評價。監(jiān)督,即監(jiān)控某個項目或某個人的運作行為是否合法合規(guī),可及時提醒告誡;鑒證,即為某種目的提供事實證據(jù)或證明,鑒證結(jié)果可能是一個證明報告;評價,即對某件事、某個部門或某個人進行評價,評價結(jié)果可能是合格、優(yōu)秀、不合規(guī)等。前一段時間熱播的電視劇《長安十二時辰》中,靖安司(這是小說中虛構(gòu)的一個機構(gòu))的徐賓發(fā)明的“大案牘術”很是火了一把。靖安司匯聚了唐朝全國的卷宗,“大案牘術”就是利用這些卷宗中的各種記錄和數(shù)字,通過對紛繁復雜的文卷進行分析,從蛛絲馬跡中抽絲剝繭,能找到矛盾點,準確推斷事情的真相,成為處理事務的殺手锏。比如通過對懷遠坊的人員戶籍對比,發(fā)現(xiàn)有一個人數(shù)據(jù)異常。他是新來的租戶,名叫龍波,還帶來了一個女人。而這個龍波,恰恰是恐怖行動的關鍵人物。所以本質(zhì)上講,“大案牘術”就是基于大數(shù)據(jù)的審計系統(tǒng)。
現(xiàn)在我們回頭再來看等保2.0中提到的安全審計,其本質(zhì)是針對信息系統(tǒng)的審計,和傳統(tǒng)的審計概念一脈相承,主要體現(xiàn)在:◇ 主要目的不變,仍然是合規(guī)性檢查。具體講就是通過數(shù)據(jù)分析,檢查用戶行為、進程行為、通信行為、系統(tǒng)運行等是否符合相關規(guī)范要求。◇ 核心特征不變,仍然是獨立性。具體講就是審計角色獨立、審計賬號獨立、審計工作獨立、審計設備/系統(tǒng)獨立。◇ 審計過程不變,仍然是收集、整理和分析審計證據(jù)的過程,區(qū)別在于審計證據(jù)變?yōu)閿?shù)字證據(jù),即日志、事件、報文等。信息系統(tǒng)的發(fā)展導致了大量的信息數(shù)據(jù),包括各種操作日志、流量日志、原始報文、會話日志等,證據(jù)收集相對比較簡單。因為這些證據(jù)來源不同、格式不同、用途不同、數(shù)量巨大,所以針對信息系統(tǒng)的安全審計,核心難點和關鍵技術是大數(shù)據(jù)的整理和分析技術。◇ 審計職能不變,仍然是監(jiān)督、鑒證和評價。具體講,監(jiān)督就是實時監(jiān)控系統(tǒng)運行或人員行為等,及時發(fā)現(xiàn)異常狀況產(chǎn)生告警,比如;鑒證就是提供數(shù)字證據(jù),防止抵賴,比如提供入侵攻擊事件的證據(jù);評價就是分析研判系統(tǒng)運行和用戶行為的合規(guī)性,提供審計報表。隨著技術的發(fā)展,預測也逐漸發(fā)展成為審計的輔助職能。
所以,安全審計就是收集和記錄信息系統(tǒng)的各種日志、事件和流量信息,對這些信息進行比較分析,檢查用戶或系統(tǒng)是否按照要求正常運行的工作過程。
3安全審計主要技術
3.1 安全審計通用架構(gòu)
安全審計系統(tǒng)本質(zhì)是一個數(shù)據(jù)采集處理系統(tǒng),包括采集、處理、分析、存儲、查詢等過程,其中審計數(shù)據(jù)分析是核心功能點。
3.2 數(shù)據(jù)采集與處理技術
數(shù)據(jù)采集技術有多種形式,每種技術都有其優(yōu)缺點,很多審計場景是綜合采用多種技術來采集數(shù)據(jù)。數(shù)據(jù)采集技術的分析如下表所示:
數(shù)據(jù)處理也分多個步驟,一般順序是數(shù)據(jù)過濾、數(shù)據(jù)去重、數(shù)據(jù)范化。數(shù)據(jù)過濾是接收到審計數(shù)據(jù)后的第一步工作,主要目的是基于審計要求和審計目的,去除不相干的數(shù)據(jù),保留必要的數(shù)據(jù)。比如日志上報和原始報文解析,一般都會有大量無關的數(shù)據(jù)信息,這些數(shù)據(jù)如果進入后續(xù)的處理流程,將極大的增加后續(xù)的處理壓力。數(shù)據(jù)過濾一般使用的技術:1、按某個字段過濾,比如某個IP地址;2、按某個類型過濾,比如某種日志類型;3、按正則表達式過濾,適用于字符串類型的文本信息。數(shù)據(jù)去重是指去重重復的數(shù)據(jù),一般方案是對重復數(shù)據(jù)計數(shù)后只記錄統(tǒng)計數(shù)字,不需要記錄原始的大量重復數(shù)據(jù),也是為了減少后續(xù)流程的處理壓力。數(shù)據(jù)去重一般使用內(nèi)存計算、哈希校驗等相關計數(shù)。數(shù)據(jù)范化是指對數(shù)據(jù)進行規(guī)范化處理,同類數(shù)據(jù)格式統(tǒng)一、含義一致。原始采集的數(shù)據(jù)來自各個不同的設備和系統(tǒng),數(shù)據(jù)格式多種多樣,為了方便后續(xù)的存儲和統(tǒng)計分析,才需要進行數(shù)據(jù)范化的工作。數(shù)據(jù)范化一般使用內(nèi)存計算,采用字段映射、字段拆分、字段合并等方法使得數(shù)據(jù)格式統(tǒng)一、含義一致。
3.3 數(shù)據(jù)存儲與備份技術
審計數(shù)據(jù)格式多種多樣,可能是文件(比如圖片、或其他上傳的文件)、結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù),需要采樣不同的存儲技術。早期的審計產(chǎn)品主要以文件和關系數(shù)據(jù)庫為存儲載體,近些年隨著非關系數(shù)據(jù)庫和大數(shù)據(jù)技術的發(fā)展,大部分審計產(chǎn)品都會融合使用這些技術。
存儲技術如下表說明:
數(shù)據(jù)備份不等同于雙機熱備或容災系統(tǒng),這些概念一定要區(qū)分開。雙機熱備或容災系統(tǒng)的目的在于保證系統(tǒng)數(shù)據(jù)和業(yè)務服務的“在線性”,即當系統(tǒng)發(fā)生故障時,仍然能夠正常地向網(wǎng)絡系統(tǒng)提供數(shù)據(jù)和服務,以使系統(tǒng)業(yè)務不致停頓。雙機熱備和容災系統(tǒng)中,但是如果一個節(jié)點誤刪除了數(shù)據(jù),也會同步到另一個節(jié)點,即大家一起犯錯,無法恢復。數(shù)據(jù)備份則可以糾正這種錯誤,數(shù)據(jù)備份按照一定的策略,定期把數(shù)據(jù)存儲到獨立的設備或介質(zhì)上,比如硬盤或磁帶、光盤等,能確保這些數(shù)據(jù)的可靠性。如果系統(tǒng)的數(shù)據(jù)存儲發(fā)生故障,可以恢復到某一個歷史時間點。數(shù)據(jù)備份的根本目的是歷史留存和重新利用,所以對于審計系統(tǒng)來說,數(shù)據(jù)備份是必不可少的重要組成部分。數(shù)據(jù)備份都會涉及三種備份策略:全量備份、增量備份、差量備份,一般需要綜合使用。三種策略的主要區(qū)別如下:
3.4 數(shù)據(jù)快速查詢技術
快速準確檢索到符合要求的數(shù)據(jù)是審計系統(tǒng)的基本要求,直接對應審計三大職能中的“鑒證”,也是“監(jiān)督”和“評價”的基礎。隨著數(shù)據(jù)量的增大,查詢性能一般都會越來越慢,甚至急劇下降,各個廠商的審計產(chǎn)品在使用過程中都會遇到查詢性能問題。大家知道,計算機體系結(jié)構(gòu)中,數(shù)據(jù)主要保存在硬盤上,而硬盤的存取速度要遠遠落后于內(nèi)存,內(nèi)存的存取速度又遠遠落后于高速緩存。所以數(shù)據(jù)快速查詢技術的關鍵點都在于減少硬盤操作時間,盡量使用內(nèi)存操作。目前查詢性能優(yōu)化方案可以分為2類:1、硬件方案,即更換機械硬盤為SSD固態(tài)硬盤,增加內(nèi)存。機械硬盤的主要結(jié)構(gòu)是一個高速旋轉(zhuǎn)的盤片和在盤片上來回讀寫數(shù)據(jù)的磁頭,而固態(tài)硬盤則是以電子存儲的方式來儲存數(shù)據(jù)的,完全減去了旋轉(zhuǎn)尋道的操作,也就極大的減少了硬盤操作時間。另外,目前主流的64位操作系統(tǒng)和數(shù)據(jù)庫都支持幾乎無限的內(nèi)存,增大內(nèi)存后,就可以把大批的數(shù)據(jù)轉(zhuǎn)移到內(nèi)存進行處理,速度會有明顯提升。這個方案主要是花錢,然后調(diào)整一下數(shù)據(jù)庫的參數(shù)配置,但是效果非常好,可以立竿見影看到成效。2、軟件方案,即優(yōu)化數(shù)據(jù)結(jié)構(gòu)和算法。這是最體現(xiàn)碼農(nóng)價值的方案,好的數(shù)據(jù)結(jié)構(gòu)和算法,能達到事半功倍的效果。下面我們主要討論這一類的查詢優(yōu)化技術。前面提到,所有查詢技術的關鍵點都在于“減少硬盤操作時間,盡量使用內(nèi)存操作”,但是數(shù)據(jù)量這么大,又不可能都放到內(nèi)存中,怎么解決這個問題呢?答案就是“索引”——目前所有的數(shù)據(jù)庫在數(shù)據(jù)查詢方面最主要的武器都是索引。數(shù)據(jù)庫索引就類似一本書的目錄,能幫助我們快速找到相應的數(shù)據(jù),是加速查詢操作的輔助文件結(jié)構(gòu)。傳統(tǒng)的查詢方法,是按照表的順序遍歷的,不論查詢幾條數(shù)據(jù),都需要將表的數(shù)據(jù)從頭到尾遍歷一遍。添加完索引之后,一般通過Hash、B-Tree或其他算法生成一個索引文件,在查詢數(shù)據(jù)庫時,首先通過索引文件進行查找,哈希或折半查找等算法可以大幅提升查詢效率,找到相應的鍵從而獲取數(shù)據(jù)。比如,MySQL支持的2種主要的索引結(jié)構(gòu)如下圖所示:
從該圖中可以看到,InnoDB引擎支持的聚簇索引,依靠索引找到主鍵Key,再根據(jù)Key找到對應的原始數(shù)據(jù);MyISAM引擎支持的非聚簇索引,則直接依靠索引就找到了原始數(shù)據(jù)。
數(shù)據(jù)文件很大,但是索引相對就小很多。但是,索引并不像大家想象那么小,下圖就是一個實驗表(MySQL數(shù)據(jù)庫,InnoDB引擎)的數(shù)據(jù)和索引的實際大小:
所以,不能因為索引能提升查詢效率就猛建索引,索引在提升查詢性能的同時,也會帶來一些問題:◇ 索引會降低更新表的速度,如對表進行INSERT、UPDATE和DELETE。因為更新表時,MySQL不僅要保存數(shù)據(jù),還要保存一下索引文件。◇ 索引會占用磁盤空間,一般情況這個問題不太嚴重,但如果你在一個大表上創(chuàng)建了多種組合索引,索引文件的會膨脹很快。另外,即使建立了索引,也不能保證就可以提升查詢性能,索引必須和SQL語句正確配合才能發(fā)揮應有的作用。有些場景下索引會失效,主要失效場景如下:◇ 如果列的值為NULL,或者SQL語句使用IS NULL或者IS NOT NULL,將導致索引失效。◇ 在一個SQL語句中,索引只能使用一次,如果在Where中使用了,那么在Order By中就會失效。◇ 在LIKE操作中,'%aaa%'匹配不會使用索引,但是‘a(chǎn)aa%’可以使用索引。◇ 在索引的列上使用表達式或者函數(shù)會使索引失效。◇ 在查詢條件中使用<、>和!=會導致索引失效。◇ 在查詢條件中使用OR連接多個條件會導致索引失效,除非OR鏈接的每個條件都加上索引,這時應該改為兩次查詢,然后用UNION ALL連接起來。◇ 在Order By中不要多列排序。
上述所講的索引主要是針對關系數(shù)據(jù)庫,審計系統(tǒng)的數(shù)據(jù)很多是非結(jié)構(gòu)化數(shù)據(jù),很多文檔和日志都屬于長字符串,字符串模糊匹配是數(shù)據(jù)查詢很常見的場景,同時也是查詢效率最低的查詢類型。針對這種長字符串的搜索,很多關系數(shù)據(jù)庫廠商推出了全文搜索引擎,其核心技術是“倒排索引”(inverted index)。倒排索引是一種索引方法,其基本原理是建立單詞到文檔的索引。倒排索引并不是關系數(shù)據(jù)庫廠商的發(fā)明,最早應用于搜索引擎,目前所有的搜索引擎都采用了這種技術,可以稱為搜索引擎的基石。倒排索引結(jié)構(gòu)示例圖如下:
有了倒排索引,就可以根據(jù)用戶輸入的查詢詞快速找到對應的文檔,而不需要在文檔中遍歷查找,極大的加快了查詢速度。倒排索引非常適合信息系統(tǒng)安全審計方面的數(shù)據(jù)查詢,主要原因:◇ 審計數(shù)據(jù)量大、格式多樣,很難統(tǒng)一格式化。這意味著傳統(tǒng)的關系數(shù)據(jù)庫索引不足以支撐審計數(shù)據(jù)的查詢。◇ 審計數(shù)據(jù)的屬性有限,即經(jīng)過數(shù)據(jù)范化后的數(shù)據(jù),字段種類有限,主要信息包括:基于TCP/IP協(xié)議的網(wǎng)絡通信信息、賬號密碼信息、主體客體操作信息等。這意味著倒排索引相對容易構(gòu)建,索引數(shù)量不至于太龐大。ElasticSearch就是典型的采用倒排索引技術的文檔數(shù)據(jù)庫,它的前身是一個搜索引擎,現(xiàn)在也經(jīng)常被用來作為NoSQL數(shù)據(jù)庫,存儲非結(jié)構(gòu)化的數(shù)據(jù)。ElasticSearch與Logstash(數(shù)據(jù)收集和日志解析引擎)以及Kibana(數(shù)據(jù)分析和可視化平臺)一起被稱為“ELK”,是一套成熟的數(shù)據(jù)采集分析解決方案,可以用來搭建審計系統(tǒng)的基礎框架。
3.5 數(shù)據(jù)智能分析技術
審計的三大職能中,“監(jiān)督”和“評價”都需要依靠數(shù)據(jù)分析技術,主要區(qū)別是:“監(jiān)督”重點關注事中的實時監(jiān)測反饋,“評價”重點關注事后的總結(jié)分析。原始審計數(shù)據(jù)只能發(fā)現(xiàn)少量明顯的違規(guī)或異常數(shù)據(jù),只有對大量數(shù)據(jù)做關聯(lián)分析,建立安全事件分析模型,才可能發(fā)現(xiàn)那些潛在的威脅和違規(guī)行為,追查威脅路徑和源頭,并幫助進行安全預防。梳理數(shù)據(jù)分析技術的歷史,大致經(jīng)歷了這么幾個過程:
>>> 關聯(lián)查詢
關聯(lián)查詢這是關系數(shù)據(jù)庫時代重點采用的分析技術,SQL語句可以方便的支持多表的關聯(lián)查詢,從而可以把相關的數(shù)據(jù)篩選出來,這樣就比較方便找到多種數(shù)據(jù)一起來作為分析評價的證據(jù)。關聯(lián)查詢依賴數(shù)據(jù)庫的數(shù)據(jù),主要用于事后分析取證,基本無法用于事中監(jiān)督。
>>> 關聯(lián)分析
這里專指用于流數(shù)據(jù)的事件關聯(lián)分析技術,屬于事中分析的技術。關聯(lián)分析主要通過定制關聯(lián)規(guī)則,對采集的數(shù)據(jù)進行實時分析,在內(nèi)存中進行規(guī)則匹配。如果匹配成功,就按照規(guī)則產(chǎn)生相應的動作,比如生成告警等。 不管是外部違規(guī)還是內(nèi)部違規(guī),從來都不是獨立的行為,都會有時序或者邏輯上的聯(lián)系,單看某個設備的日志可能無法發(fā)現(xiàn)問題,但是將所有這些信息合到一起,就可能發(fā)現(xiàn)其中的隱患,而這正是關聯(lián)分析的目的所在。例如,一個簡單的典型的關聯(lián)規(guī)則可能是這樣的:“在5分鐘內(nèi),事件A發(fā)生3次,并且事件B發(fā)生2次,則生成C告警”。這些關聯(lián)分析的規(guī)則就是審計中所說的已知的規(guī)范要求。
>>> 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是針對大量數(shù)據(jù)的深層次關聯(lián)分析,直接用于事后分析,挖掘出來的規(guī)則模型也可以用于事前預測和事中監(jiān)督,屬于事后分析的技術。數(shù)據(jù)挖掘是按既定業(yè)務目標,對大量數(shù)據(jù)進行挖掘分析,揭示隱藏的、未知的規(guī)律或驗證已知的規(guī)律性,并進一步將其模型化的方法。
前面我們講過,審計的一個基本前提是基于已知規(guī)范或要求,因為沒有評價標準就沒辦法監(jiān)督和評價。但是數(shù)據(jù)挖掘卻可能揭示未知的規(guī)律,這和審計的概念是有矛盾的。所以,數(shù)據(jù)挖掘最初并不能直接應用于審計的監(jiān)督和評價。那么數(shù)據(jù)挖掘是怎么成為安全審計領域重要的數(shù)據(jù)分析技術呢?
傳統(tǒng)的技術手段無法勝任現(xiàn)代信息系統(tǒng)的安全審計工作,主要原因在于,現(xiàn)在的入侵和攻擊手段越來越高明、越來越隱蔽,而且在不斷發(fā)生變化,人們已經(jīng)無法準確定義信息系統(tǒng)里面安全行為或異常行為,傳統(tǒng)的安全規(guī)則也很難清晰描述對應的規(guī)范,基于傳統(tǒng)安全規(guī)則或異常規(guī)則的判斷往往產(chǎn)生大量的誤報。數(shù)據(jù)挖掘的主要功能是從大量數(shù)據(jù)中挖掘規(guī)律,尋找數(shù)據(jù)之間的關系和模式,即大家常說的數(shù)據(jù)建模或知識發(fā)現(xiàn)。數(shù)據(jù)挖掘技術可以幫助我們學習或挖掘一個系統(tǒng)在正常工作時的潛在規(guī)律,也就是建立數(shù)據(jù)模型,然后再基于這個模型判斷和評價實時的網(wǎng)絡行為或用戶行為。數(shù)據(jù)挖掘本質(zhì)是統(tǒng)計學的范疇,統(tǒng)計學要想獲得比較理想的結(jié)果,就必須有大量的統(tǒng)計樣本。所以數(shù)據(jù)挖掘首先依賴數(shù)據(jù)量,數(shù)據(jù)越豐富、數(shù)據(jù)量越大,越有可能獲得更合理的判斷。而現(xiàn)代信息系統(tǒng)的安全審計工作剛好為數(shù)據(jù)挖掘提供了良好的數(shù)據(jù)基礎,有了海量的、質(zhì)量也比較高的數(shù)據(jù)。所以,數(shù)據(jù)挖掘技術就發(fā)展成為安全審計的拳頭武器了。數(shù)據(jù)挖掘技術的主要能力包括:分類、估值、關聯(lián)分析、聚類、預測。(1)分類:首先根據(jù)已經(jīng)分好類的數(shù)據(jù)集進行訓練,建立分類的數(shù)據(jù)模型,然后利用該模型對于其他數(shù)據(jù)進行分類。該能力可以用于審計監(jiān)督和評價。(2)估值:估值與分類相似,主要區(qū)別在于分類描述的是確定的離散型變量,而估值則是不確定的連續(xù)變量。該能力可以用于審計監(jiān)督和評價。(3)關聯(lián)分析:通過分析數(shù)據(jù)或記錄間的關系,決定哪些事情將一起發(fā)生(橫向關聯(lián)),哪些事情將先后發(fā)生(縱向關聯(lián)),從而發(fā)現(xiàn)異常行為。該能力可以用于審計監(jiān)督。(4)聚類:聚集是對數(shù)據(jù)分組,把相似的數(shù)據(jù)放在一個聚集里。聚集和分類的區(qū)別是聚類不依賴于預先定義好的類,不需要訓練集。該能力可以用于審計監(jiān)督和評價。(5)預測:預測一般通過分類或估值的模型,預測未來趨勢。預測已經(jīng)逐漸成為審計系統(tǒng)的輔助職能。因為數(shù)據(jù)挖掘是基于統(tǒng)計學的技術,所以其最后分析的結(jié)論更多是以概率的形式體現(xiàn),比如,根據(jù)當前信息檢測到服務器A對服務器B發(fā)起網(wǎng)絡攻擊的概率為80%。這也決定了數(shù)據(jù)挖掘更適合承擔審計的“監(jiān)督”和“評價”職能,而不是“鑒證”。另外,數(shù)據(jù)挖掘和基于規(guī)則的關聯(lián)分析可以結(jié)合起來使用,數(shù)據(jù)挖掘根據(jù)大量數(shù)據(jù)發(fā)現(xiàn)異常點,然后再依靠規(guī)則或者人工排查確認,可以用來幫忙尋找“鑒證”。現(xiàn)代科技的發(fā)展已經(jīng)證實,現(xiàn)實世界本身就是一個概率世界,當概率足夠大時也可以作為證據(jù),比如DNA鑒定就是基于概率的,但是現(xiàn)在DNA鑒定已經(jīng)屬于我國刑事訴訟法上的法定七種證據(jù)之一。隨著數(shù)據(jù)挖掘技術的發(fā)展、數(shù)據(jù)模型的逐步細化,最后得出的結(jié)論的準確度也可能逐漸增加,最后達到“鑒證”的要求。
>>> 人工智能
人工智能是一個比較寬泛的概念,包括多種技術,現(xiàn)在還沒有一個精確的定義。該領域的研究內(nèi)容包括:語音識別、文字識別、機器視覺、自然語言理解、知識推理、智能控制、人機博弈、數(shù)據(jù)挖掘等。該領域的數(shù)據(jù)基礎包括:微積分、線性代數(shù)、概率統(tǒng)計、博弈論、信息論、集合論、圖論等。
人工智能的應用范圍很廣,我們單從審計角度看,人工智能其實是數(shù)據(jù)挖掘的進一步發(fā)展延伸。人工智能的技術可以用于數(shù)據(jù)挖掘,比如機器學習技術可以用于數(shù)據(jù)挖掘的模式發(fā)現(xiàn)。機器學習的主要任務是設計和分析一些讓計算機可以從大量數(shù)據(jù)自動“學習”的算法,是人工智能的核心研究領域之一。學習能力是人工智能的一個重要特征,不具有學習能力的系統(tǒng)很難稱之為一個真正的智能系統(tǒng)。機器學習算法需要從數(shù)據(jù)中自動分析獲得規(guī)律,并利用規(guī)律對未知數(shù)據(jù)進行判斷和預測,所以機器學習和數(shù)據(jù)挖掘有不少交集。機器學習算法中也涉及了大量的統(tǒng)計學理論,也被稱為統(tǒng)計學習理論。機器學習領域現(xiàn)在很火的技術是基于神經(jīng)網(wǎng)絡的深度學習。深度學習的靈感來源于人類大腦的工作方式,是利用深度神經(jīng)網(wǎng)絡來解決特征表達的一種學習過程。深度神經(jīng)網(wǎng)絡本身并不是一個全新的概念,可理解為包含多個隱含層的神經(jīng)網(wǎng)絡結(jié)構(gòu),是建立、模擬人腦進行分析學習的神經(jīng)網(wǎng)絡,模仿人腦的機制來解釋數(shù)據(jù)。神經(jīng)網(wǎng)絡的計算量非常大,在很長時間里由于基礎設施技術的限制,計算能力達不到要求,進展并不大。GPU的出現(xiàn)造就了深度學習的蓬勃發(fā)展。傳統(tǒng)的機器學習模式特別依賴工程,特征提取構(gòu)造是機器學習的重要環(huán)節(jié)。特征提取很大程度依賴行業(yè)專家,而且非常耗時間,需要不斷驗證優(yōu)化。深度學習算法則可以自動挖掘提取特征,極大的降低特征提取的工作量。但是深度學習挖掘的特征和學習算法有一個非常嚴重的問題,就是不可解釋性。不可解釋性在審計領域是很難被接納應用的。審計結(jié)論不能說“就是說不清楚為什么,反正機器就是判斷你違法了!”,這也是深度學習還需要深入研究的難題。但是深度學習在有些領域效果非常好,單從最終效果看已經(jīng)超過人類的專家。所以深度學習技術可以結(jié)合規(guī)則或人類輔助驗證用于審計系統(tǒng),即深度學習技術用于發(fā)現(xiàn)異常,再由人類專家驗證確認。知識圖譜則不需要很高的硬件性能要求,不像深度學習需要大量GPU運算,而且知識圖譜的評判結(jié)論可以解釋的很清楚。因為知識圖譜的主要依據(jù)是人類已知的經(jīng)驗和知識。知識圖譜的本質(zhì)是充分利用人類的先驗知識,用圖來表示知識的結(jié)構(gòu)化方式,通過不同知識的關聯(lián)性形成一個網(wǎng)狀的知識結(jié)構(gòu),涉及知識提取、表達、存儲、檢索、推理一系列技術。在支付寶的風控審計應用中,知識圖譜產(chǎn)品已經(jīng)被應用于揭露金融欺詐、中介造假、洗錢和其他復雜的欺詐手法,獲得很好的效果。在安全審計領域,知識圖譜可以用于根據(jù)已有的安全知識,及時發(fā)現(xiàn)入侵攻擊等異常行為,進行監(jiān)督、評價和預測。安全審計系統(tǒng)應用知識圖譜的關鍵點在于構(gòu)建包含多方面安全知識的圖譜和利用圖譜進行知識推理判斷。知識圖譜的構(gòu)建以及后續(xù)的不斷完善,可以融合機器學習、深度學習等技術,即機器學習得到知識,人工確認后用于構(gòu)建知識圖譜。安全審計和人工智能的結(jié)合還在逐漸發(fā)展中,根據(jù)審計的根本要求,結(jié)合各項技術的特點和發(fā)展,未來安全審計的智能分析技術架構(gòu)應該是“海量數(shù)據(jù)做支撐、機器學習來建模、知識推理做評判”。
“處理知識是人類所擅長的,而處理數(shù)據(jù)是計算機所擅長的,如果能夠?qū)⒍呓Y(jié)合起來,一定能夠構(gòu)建出比人類更加智能的系統(tǒng)。AI未來的科學突破是建立一種同時基于知識和數(shù)據(jù)的AI系統(tǒng)。”——清華大學張鈸院士。
4安全審計主要分類
4.1 主機安全審計
主機安全審計,顧名思義就是對單臺主機的安全審計。這是最基礎的審計也是最復雜的審計,因為主機幾乎是所有業(yè)務系統(tǒng)的承載體,主機安全關系重大,同時主機也是最通用的計算單元,功能最復雜,接口最多,需要審計的內(nèi)容和格式也多種多樣。等保2.0要求的安全計算環(huán)境的審計,大部分可以算作主機安全審計的范疇。為了拿到最可靠的審計證據(jù),主機安全審計一般需要在主機上安裝代理軟件來采集數(shù)據(jù)進行審計。主機安全審計的內(nèi)容很多,但是又需要嚴格控制對主機系統(tǒng)資源(CPU、內(nèi)存、硬盤等)的占用,避免影響正常業(yè)務運行。和主機相關的所有信息都可以納入審計的范圍,不同廠家的產(chǎn)品可能實現(xiàn)其中一部分。總體看,主機安全審計包括但不限于下列內(nèi)容:
4.2 網(wǎng)絡安全審計
網(wǎng)絡安全審計是針對網(wǎng)絡訪問或網(wǎng)絡通信的審計。現(xiàn)在幾乎所有的業(yè)務系統(tǒng)都要使用網(wǎng)絡,幾乎沒有基于單機的業(yè)務系統(tǒng)了,所以網(wǎng)絡安全審計也是非常重要的一個審計類別。等保2.0要求的安全網(wǎng)絡邊界的審計,可以算作網(wǎng)絡安全審計的范疇。網(wǎng)絡安全審計的數(shù)據(jù)采集方式如下表所示:
和網(wǎng)絡相關的所有信息都可以內(nèi)納入審計的范圍,審計內(nèi)容如下表所示:
4.3 數(shù)據(jù)庫安全審計
數(shù)據(jù)庫安全審計的概念相對比較新,近幾年因為數(shù)據(jù)安全相關問題被頻繁暴露出來,大家開始重視數(shù)據(jù)庫的安全審計工作。數(shù)據(jù)庫安全審計主要針對常見數(shù)據(jù)庫(比如:SQL Server、Oracle、MySQL、MongoDB等)的各項操作進行審計,比如增、刪、改、查等操作。數(shù)據(jù)庫安全審計的數(shù)據(jù)采集方式如下表所示: 數(shù)據(jù)庫服務器相關的內(nèi)容都可以列入審計范圍,具體內(nèi)容如下表所示:
4.4 業(yè)務安全審計
業(yè)務安全審計是對業(yè)務系統(tǒng)應用過程的審計。業(yè)務系統(tǒng)一般包括服務器、網(wǎng)絡設備、應用系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、客戶端等,所以業(yè)務安全審計需要融合主機安全審計、網(wǎng)絡安全審計、數(shù)據(jù)庫安全審計和運維安全審計等功能,一般需要定制開發(fā),針對業(yè)務系統(tǒng)用戶在系統(tǒng)中的操作行為進行記錄和審計。另外,為減少應用系統(tǒng)因?qū)徲嫸a(chǎn)生的性能降低,可以配合第三方審計系統(tǒng)(比如日志審計)來完成審計工作。等保2.0關于安全管理中心的審計內(nèi)容,可以算作業(yè)務安全審計的范疇。業(yè)務安全審計的數(shù)據(jù)采集方式如下表所示:
業(yè)務安全審計是融合多種內(nèi)容的審計工作,具體審計內(nèi)容如下表所示:
4.5 運維安全審計
運維安全審計是一種特殊的業(yè)務審計,主要包括2種:堡壘機接入審計和KVM接入審計。堡壘機是運維人員通過網(wǎng)絡遠程接入的代理,KVM則適用于運維人員在機房直接操作其他服務器。運維審計以應用層代理的方式運行,獲取應用層網(wǎng)絡協(xié)議,進行還原分析,在重新打包提交給目標主機。運維安全審計的數(shù)據(jù)采集方式比較直接,作為代理,可以獲得加密前的數(shù)據(jù),所以運維安全審計可以獲得更多的審計證據(jù)。運維安全審計的審計內(nèi)容如下表所示:
以上信息來源于:威努特工控安全