隨著計算機信息技術的普及,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術在我國金融業(yè)(如銀行、證券、保險等行業(yè))得到了比較廣泛的應用,但是在國內(nèi)期貨行業(yè),由于資金、技術、人員等問題,期貨公司還很少涉及這一領域,使其在對市場研究和品種研究上始終面臨著一個無法穿越的“瓶頸”。
我國期貨業(yè)數(shù)據(jù)倉庫應用現(xiàn)狀
我國期貨市場歷經(jīng)10多年的磨礪后,如今已經(jīng)進入發(fā)展的“快車道”。期貨市場的“火熱”和上市品種的不斷豐富,吸引了大量的投資者進入。由于期貨市場是一個高風險與高收益并存的市場,這就要求期貨公司必須在研究上下足功夫,盡量做到對期貨市場風險的可控性和可預知性。
我們知道,進行期貨研究所需要的數(shù)據(jù)非常多而雜,涉及層面不管是宏觀的還是微觀的,都要進行充分考慮和分析整合,從而對期貨公司建設數(shù)據(jù)倉庫提出了迫切要求,而且對數(shù)據(jù)進行深度挖掘也成為了期貨公司研究的重中之重。期貨公司的研究水平達到一定高度后,形成自己的核心競爭力,不僅能對自身客戶投資起到一定的引導作用,而且還能吸引更多的投資者參與到市場中來。
行業(yè)整體研究水平高低會直接影響到市場發(fā)展的質(zhì)量和速度。國際期貨市場上,大型優(yōu)質(zhì)期貨公司如曼氏金融、瑞富都擁有自己的一套專業(yè)數(shù)據(jù)倉庫系統(tǒng),且經(jīng)常利用數(shù)據(jù)倉庫的數(shù)據(jù)進行定量分析,撰寫研究報告,為客戶提供投資方案。目前,國外期貨市場運用定量方法進行分析已經(jīng)非常廣泛,因此發(fā)展比較迅速,投資者認知水平也比較高。而國內(nèi)期貨市場,雖然近幾年交易和持倉規(guī)模迅速擴大,期貨新品種不斷推出,但期貨公司整體研究水平并沒有緊緊跟上市場對研究的強烈需求。隨著我國期貨市場的發(fā)展,其不可避免地對期貨公司的研發(fā)水平提出了更高的要求。
借鑒國外期貨公司的經(jīng)驗,國內(nèi)期貨業(yè)整體研究水平上不去的主要原因是絕大部分研究還局限在定性分析上,定量研究方法運用得太少,直接導致期貨公司在對客戶投資交易的指導上表現(xiàn)得比較差。定量研究較少并非期貨公司研究人員不會或者不愿意,而是因為定量研究需要的數(shù)據(jù)太多,實際能找到或買到的數(shù)據(jù)太少。同時,定量研究往往不局限在單一品種數(shù)據(jù)的收集上,還與國內(nèi)外宏觀經(jīng)濟數(shù)據(jù)有關聯(lián)。目前,國內(nèi)期貨業(yè)沒有具體期貨品種數(shù)據(jù)的專業(yè)網(wǎng)站和數(shù)據(jù)倉庫,即便是有也只是分散的少量數(shù)據(jù),收集數(shù)據(jù)工作量非常大。期貨公司購買的昂貴相關行業(yè)數(shù)據(jù),也只限于一個品種和行業(yè)的數(shù)據(jù),缺少宏觀經(jīng)濟方面的數(shù)據(jù)。在當前上市品種不斷增加的情況下,這筆支出是一般期貨公司難以承受的,這也從另一方面增加了期貨公司進行定量研究的難度。
研究能力是期貨公司發(fā)展和體現(xiàn)競爭力的核心,其水平高低不僅會直接影響到公司客戶的盈虧,同時也會影響到公司業(yè)務的發(fā)展。而且隨著股指期貨的即將推出,期貨公司在提供專業(yè)化研究服務方面顯得更加重要。但是,我國期貨行業(yè)業(yè)務單一,競爭激烈,國內(nèi)大部分期貨公司仍難擺脫虧損局面,或者是盈利能力并沒有隨著市場發(fā)展同步提高,多數(shù)公司面臨諸多的問題:
一是在品種增加、研究人員數(shù)量增加有限的情況下,單個研究人員負責的品種越來越多,受能力及精力限制,研究難以深入。
二是雖然受市場發(fā)展的推動,市場研究開始由普遍信息處理、定性分析上升為定量定性結(jié)合,但由于國內(nèi)相關市場還不成熟,所需的研究數(shù)據(jù)不僅少,而且公布渠道不通暢,研究人員花費在數(shù)據(jù)尋找上的時間過多,研究效率極低。
三是即使期貨公司購買了相關收費的專業(yè)資訊服務,但受端口限制,僅有少量人員能使用,相關信息并不能迅速便捷傳達到公司其他員工及客戶手里,即大量信息無法共享。另外隨著新品種的不斷推出,單一公司財力無法購買所有品種的相關信息,新品種的研究進度受到較大影響。
四是數(shù)據(jù)處理及分析的方法普遍處在低級水平,大量基礎原始數(shù)據(jù)轉(zhuǎn)化成可用數(shù)據(jù)的時間過長,無法使用相關分析軟件進行分析又導致最終分析的深度不夠。
五是研究人員的流動(轉(zhuǎn)向業(yè)務或交易方面,或者直接離開期貨公司或期貨業(yè))直接導致期貨公司研究水平無法得到有效沉淀和積累。
以上存在的種種問題使期貨公司的研究難以深入,從而構(gòu)成了為投資者提供正確投資指導的一塊“硬傷”。因此,對數(shù)據(jù)的收集與挖掘成為了期貨公司解決當前存在問題的唯一途徑。只有搜集到所需要的數(shù)據(jù),然后通過各種方法對數(shù)據(jù)進行深度研究與挖掘,撰寫出高水平的研究報告,才能提高期貨公司的整體研究和服務水平。
建設數(shù)據(jù)倉庫的功能和目標
為了解決期貨公司數(shù)據(jù)收集難的問題,一些有能力的期貨公司對數(shù)據(jù)倉庫進行建設非常有必要。數(shù)據(jù)倉庫的概念起源于W.H.Inmon的研究,他把數(shù)據(jù)倉庫定義為面向主題的、集成的、非易失的,隨時間變化的數(shù)據(jù)集合,而且可以支持各種投資管理決策的數(shù)據(jù)庫系統(tǒng)。
期貨行業(yè)數(shù)據(jù)包括國內(nèi)外期貨品種歷史數(shù)據(jù)、品種基本數(shù)據(jù)、期貨公司營業(yè)部交易結(jié)算數(shù)據(jù)、客戶交易數(shù)據(jù)、國內(nèi)外宏觀經(jīng)濟數(shù)據(jù)等,數(shù)據(jù)倉庫系統(tǒng)能幫助期貨公司充分地利用這些信息資源。建立期貨公司數(shù)據(jù)倉庫系統(tǒng),主要實現(xiàn)以下功能和目標:
第一,建立數(shù)據(jù)倉庫系統(tǒng)的目標數(shù)據(jù)庫,集成期貨公司的相關數(shù)據(jù)。對各個營業(yè)部交易數(shù)據(jù)、行情數(shù)據(jù)、其他業(yè)務系統(tǒng)數(shù)據(jù)進行定期抽取,把異地系統(tǒng)的數(shù)據(jù)經(jīng)過抽取轉(zhuǎn)換,集中到公司總部的數(shù)據(jù)倉庫中,為各種分析提供全局、一致的數(shù)據(jù)基礎,從而提高決策信息的及時性、準確性、全局性和一致性。
第二,在數(shù)據(jù)倉庫數(shù)據(jù)的基礎上,建立日常的投資決策支持查詢系統(tǒng),包括報表查詢和動態(tài)信息查詢,解決現(xiàn)有OLTP(聯(lián)機事務處理)系統(tǒng)中的投資決策支持查詢和報表能力的不足。
第三,實現(xiàn)重要專題分析。專題分析是針對特定范疇的決策支持領域進行的分析,常見的專題分析包括客戶關系管理分析、賬戶分析、交易數(shù)據(jù)分析、財務分析、經(jīng)營狀況分析、風險分析、利潤/成本分析以及市場分析等。要求充分利用期貨公司的豐富數(shù)據(jù),能夠從多個角度動態(tài)分析這些專題。
第四,以數(shù)據(jù)倉庫數(shù)據(jù)和專題分析為基礎,把一些信息和分析結(jié)果公布在網(wǎng)站上,為公司網(wǎng)站和CALLCENTER提供信息服務,為客戶提供個性化服務。
第五,逐步實現(xiàn)深層次的數(shù)據(jù)挖掘和投資決策分析,研究品種、市場行情、客戶、利潤等數(shù)據(jù)中蘊含的內(nèi)在關系。數(shù)據(jù)挖掘在期貨業(yè)的技術應用方向主要有客戶分析、品種分析、客戶管理、交易數(shù)據(jù)分析、風險分析、投資組合分析等。
數(shù)據(jù)挖掘是數(shù)據(jù)庫建設成敗的關鍵
在完成對數(shù)據(jù)倉庫的建設后,如何通過現(xiàn)有的數(shù)據(jù)源進行數(shù)據(jù)挖掘,將是數(shù)據(jù)倉庫建設成功與否的一個重要環(huán)節(jié)。數(shù)據(jù)挖掘是指從大量的、不完全的、模糊的、隨機的實際數(shù)據(jù)中提取隱含在其中但又是潛在有用信息和知識的過程。數(shù)據(jù)挖掘的過程可粗略分為:問題定義、數(shù)據(jù)收集和預處理、數(shù)據(jù)挖掘算法執(zhí)行以及結(jié)果的解釋和評估。
1.問題定義
問題定義指的是利用數(shù)據(jù)挖掘可以分析哪些問題。定義清晰的挖掘?qū)ο?,認清數(shù)據(jù)挖掘的目標是數(shù)據(jù)挖掘的第一步。數(shù)據(jù)挖掘的最后結(jié)果往往是不可預測的,但要解決的問題是有預見性、有目標的。在定義挖掘?qū)ο髸r,需要確定這樣一些問題:從何處入手,需要挖掘什么數(shù)據(jù),要用多少數(shù)據(jù),數(shù)據(jù)挖掘要進行到什么程度。在問題定義過程中,數(shù)據(jù)挖掘人員必須和相關領域?qū)<乙约白罱K用戶緊密協(xié)作,一方面明確實際工作對數(shù)據(jù)挖掘的要求,另一方面通過對各種學習算法的對比,進而確定可用的學習算法。
2.數(shù)據(jù)收集和數(shù)據(jù)預處理
數(shù)據(jù)準備又可以分為三步:數(shù)據(jù)選取、數(shù)據(jù)預處理和數(shù)據(jù)變換。在確定數(shù)據(jù)挖掘的業(yè)務對象后,就需要搜索所有與業(yè)務對象有關的內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),從中選擇出適合數(shù)據(jù)挖掘應用的數(shù)據(jù)。如果數(shù)據(jù)挖掘是基于數(shù)據(jù)倉庫的,那么數(shù)據(jù)的選擇比較簡單,因為數(shù)據(jù)倉庫己經(jīng)為數(shù)據(jù)挖掘者準備好了用于數(shù)據(jù)挖掘的基本數(shù)據(jù)。否則,就要從各種數(shù)據(jù)源中選擇用于數(shù)據(jù)挖掘的數(shù)據(jù),這就意味著需要集成和合并數(shù)據(jù)到單一的數(shù)據(jù)挖掘庫中,并協(xié)調(diào)來自多個數(shù)據(jù)源數(shù)據(jù)的差異。對這些數(shù)據(jù)差異的協(xié)調(diào)是解決數(shù)據(jù)挖掘質(zhì)量的關鍵,多個數(shù)據(jù)源中出現(xiàn)的差異主要是在數(shù)據(jù)定義和使用方法上。在選擇好數(shù)據(jù)后,還需要對數(shù)據(jù)進行預處理,進行清洗,解決數(shù)據(jù)中的缺值、冗余、數(shù)據(jù)值的不一致、數(shù)據(jù)定義的不一致、過時數(shù)據(jù)等問題。數(shù)據(jù)的應用變換是為了使數(shù)據(jù)適用于計算需要而進行的一種數(shù)據(jù)轉(zhuǎn)換,這種轉(zhuǎn)換主要源于兩方面的原因:一是現(xiàn)有數(shù)據(jù)不滿足分析需求而進行的數(shù)據(jù)變換;二是應用具體數(shù)據(jù)挖掘算法的需要。為了使計算結(jié)果更高效準確,需要對數(shù)據(jù)進行應用變換。
3.數(shù)據(jù)挖掘
數(shù)據(jù)挖掘算法執(zhí)行階段,首先根據(jù)對問題的定義明確挖掘任務或目的,如分類、聚類、關聯(lián)規(guī)則發(fā)現(xiàn)或序列模式發(fā)現(xiàn)等。在確定了挖掘任務后,就要決定使用什么樣的算法。選擇算法有兩方面的考慮:一是不同的數(shù)據(jù)有不同的特點,因此需要用與之相關的算法來挖掘;二是用戶或?qū)嶋H運行系統(tǒng)的要求,有的用戶可能希望獲取描述性的、容易理解的知識,也有一些用戶只希望獲取預測準確度高的預測性知識。
4.結(jié)果解釋與評估
數(shù)據(jù)挖掘階段發(fā)現(xiàn)的模式,經(jīng)過評估可能存在冗余或無關的模式,需要將其剔除;也有模式不滿足用戶要求的可能,這時則需要整個過程回退到前一階段,如重新選取數(shù)據(jù),采用新的數(shù)據(jù)變換方法,設定新的參數(shù)值,甚至換一種算法等。另外,數(shù)據(jù)挖掘最終是要給人類用戶用的,因此要對發(fā)現(xiàn)的模式進行可視化或把結(jié)果轉(zhuǎn)換為用戶易懂的另一種表現(xiàn)形態(tài)。數(shù)據(jù)挖掘算法執(zhí)行僅僅是整個過程中的一個步驟。數(shù)據(jù)挖掘質(zhì)量的好壞取決于兩方面因素:一是所采用的數(shù)據(jù)挖掘技術的有效性;二是用于挖掘的數(shù)據(jù)的質(zhì)量和數(shù)量。如果選擇了錯誤的數(shù)據(jù)或不適當?shù)膶傩?,或?qū)?shù)據(jù)進行了不適當?shù)霓D(zhuǎn)換,那么挖掘質(zhì)量不會很好。整個數(shù)據(jù)挖掘過程是一個不斷反饋的過程,如果未能產(chǎn)生期望的結(jié)果,就需要重復先前的過程甚至從頭重新開始,直至產(chǎn)生滿意的結(jié)果為止。
國內(nèi)數(shù)據(jù)倉庫基礎建設存在的問題
數(shù)據(jù)倉庫和數(shù)據(jù)挖掘在我國起步較晚,都是最近幾年的事,但發(fā)展卻非常迅速。不過與國外相比,國內(nèi)在數(shù)據(jù)倉庫基礎設施建設以及企業(yè)的行政支持環(huán)境等方面仍存在很多欠缺。
1.數(shù)據(jù)倉庫基礎設施不健全,缺乏數(shù)據(jù)積累
我們知道,數(shù)據(jù)倉庫是建立在企業(yè)原有業(yè)務系統(tǒng)基礎之上的,那么各業(yè)務子系統(tǒng)的建設是否完善,數(shù)據(jù)是否完整、規(guī)范,是決定未來數(shù)據(jù)倉庫性能的關鍵因素。但由于國情所限,在數(shù)據(jù)庫的規(guī)模上,目前國內(nèi)企業(yè)與國外企業(yè)還存在一定的差距,更有甚者一些企業(yè)的數(shù)據(jù)庫因沒有資金維護而變成了“死庫”。
建設數(shù)據(jù)倉庫系統(tǒng),沒有數(shù)據(jù)積累是沒有任何意義的。一般來說,我國可用于分析的數(shù)據(jù)庫平均規(guī)模較小,在幾十GB。而在信息化水平比較發(fā)達的國家,數(shù)據(jù)庫達到幾十TB的很多。此外,經(jīng)過多年的經(jīng)營,雖然國內(nèi)大企業(yè)均建立了不同的業(yè)務理系統(tǒng),但由于各種原因這些系統(tǒng)在文檔規(guī)范管理和數(shù)據(jù)清潔性方面做得不是很好。
2 .企業(yè)建立數(shù)據(jù)倉庫行政支持不夠
數(shù)據(jù)倉庫項目一般投資巨大,成本回收周期長,中小企業(yè)根本無力在這方面做某些嘗試。大部分的企業(yè)決策者,雖然有建設數(shù)據(jù)倉庫的現(xiàn)實需求,但同時又對其高投入、長周期不能容忍,這使得他們對數(shù)據(jù)倉庫的項目支持往往不能夠善始善終,即使能勉強做下去,也往往會偏離數(shù)據(jù)倉庫的建設準則。此外,由于對項目的長期性、艱巨性認識不足,一些用戶以為今天建立了數(shù)據(jù)倉庫系統(tǒng),明天就能夠解決商業(yè)競爭中的所有問題,能取得很大效益,這種沒有充分認識到項目建設的長期性和艱巨性、急功近利的思想也會影響企業(yè)有效應用數(shù)據(jù)倉庫技術。
3.數(shù)據(jù)挖掘人員參與力度不夠
數(shù)據(jù)挖掘的應用,需要多方面人員共同參與,包括領域?qū)<?、?shù)據(jù)管理員、數(shù)據(jù)分析人員、業(yè)務分析人員、數(shù)據(jù)挖掘?qū)<业取K麄兺纬梢粋€團隊,其中每一個人都可能對數(shù)據(jù)挖掘的結(jié)果產(chǎn)生或好或壞的影響。現(xiàn)實中,用戶沒有參與數(shù)據(jù)倉庫建設的需求分析,而數(shù)據(jù)倉庫的最終用戶是企業(yè)的中高層領導或其助手,這與OLTP(聯(lián)機事務處理)系統(tǒng)直接面對具體的工作人員有明顯的不同。對許多企業(yè)來說,要使最終用戶與信息技術人員真正在一起合作是比較困難的,且在項目初始階段,公司領導也往往提不出具體的目標,只是希望信息技術人員對出現(xiàn)的問題提供快速的解決方案,這必然導致最后開發(fā)出來的系統(tǒng)難以滿足用戶的決策要求。
4.項目實施過程中管理混亂
建立數(shù)據(jù)倉庫的目的是大力提高經(jīng)濟效益,而執(zhí)行有效的數(shù)據(jù)倉庫策略的最大障礙往往不是技術方面的。集中式數(shù)據(jù)倉庫具有可控性和可靠性,但靈活性不夠;分布式數(shù)據(jù)具有很大的靈活性,但可能會導致各部門之間不能有效地協(xié)同工作。因此,在確定數(shù)據(jù)倉庫的功能規(guī)模上,經(jīng)常反映出存在機構(gòu)內(nèi)部關系復雜的問題,也會遇到行政上的種種障礙,從而增加了技術實現(xiàn)上的難度。
5.具體實現(xiàn)過程中的技術問題
數(shù)據(jù)倉庫中的數(shù)據(jù)可能來自不同的數(shù)據(jù)源,它們分布在不同的硬件、數(shù)據(jù)庫、網(wǎng)絡環(huán)境中,為不同的業(yè)務部門服務。因此,對這些數(shù)據(jù)的整合可能會遇到很多技術困難,如果不能保證數(shù)據(jù)倉庫中數(shù)據(jù)的高質(zhì)量,也就很難獲得有價值的決策信息。另外,數(shù)據(jù)分析工具的選擇問題,目前仍沒有一種大眾化的、簡單易用的集成工具。
中期數(shù)據(jù)庫分析系統(tǒng)主要功能
為了解決以上出現(xiàn)的一些問題,增強期貨公司研究人員的研究能力,協(xié)調(diào)和引導公司各部門的基礎研究工作,避免重復投入,從整體上統(tǒng)一、規(guī)范、組織、管理和利用相關信息資源,以提供高質(zhì)量的研究報告,同時更好地服務公司進行套期保值的企業(yè)客戶及VIP客戶,中期公司試圖建設一個可供研究與分析的期貨數(shù)據(jù)庫信息系統(tǒng),以服務于公司各部門、各營業(yè)部及VIP客戶的研究分析需要,并通過數(shù)據(jù)庫項目對公司研究及業(yè)務人員進行統(tǒng)計分析軟件的相關培訓,大幅提高員工普遍研究分析方法及水平。中期數(shù)據(jù)庫分析系統(tǒng)主要功能如下:
1.數(shù)據(jù)庫存取與顯示功能
一是收集影響各期貨品種價格的各類因素,從宏觀、行業(yè)到微觀層面。二是通過信息整理使各種因素系統(tǒng)化。三是根據(jù)分析者的需求提供各種數(shù)據(jù)組合。四是把數(shù)據(jù)信息變成直觀的圖表信息。五是把固定的換算關系模塊化,減少重復勞動。
2.數(shù)據(jù)的分析功能
在集合以上大量數(shù)據(jù)的基礎上,根據(jù)各因素與分析對象之間的關系建立分析模塊,顯示直觀的可操作性報告。通常的研究方法可劃分為定性研究和定量研究,實際運用中,多以定性研究實現(xiàn)研究的“寬度”,定量研究實現(xiàn)研究的“深度”。沒有定量分析支撐的定性分析結(jié)果就失去了說服力。
在實際期貨價格研究中,每一影響因素的定性分析通常會有三種結(jié)論:漲、跌和振蕩。而影響價格的因素眾多,使得市場在任何時候都存在上漲或下跌的理由,定性分析一般不會清楚地表達出到底是漲還是跌(或者哪個概率大),漲跌幅度大概是多少,漲跌時間會持續(xù)多久等,大多數(shù)情況下很難做出令人信服的選擇。為了使定性分析的結(jié)論能有數(shù)字支撐,具說服力,有必要對其進行量化。
量化作為一個過程,不是一蹴而就的,它大致需要經(jīng)過幾個階段:因素分解→評分→匯總。其根據(jù)的是這樣一個思路:將定量分析的對象按照合理的方式分解成重要的幾個影響因素,對每個部分依照各自的標準進行評分,然后將各部分的分數(shù)乘以權值并相加,所得的分數(shù)就是該對象的量化值。整個過程的難點和重點是“分解”并“確定”權重階段,要求執(zhí)行者對分析的對象有系統(tǒng)性的把握,了解分析過程中的各個因素并能優(yōu)化分配?!胺纸狻卑▋蓚€方面:“分類”與“分層”。分類是將研究對象中包含的因素分門別類;分層就是對不同類別的因素再次分類,并放入下一層次。分解其實就是一個分類、分層再分類的過程,如樹枝一樣向下延伸下去,形成一個如下圖所示的樹形結(jié)構(gòu)。

在分解時要注意,劃分的標準要統(tǒng)一,分類要精細,分層要清晰,但是類別和層數(shù)不能過多,否則會帶來非常繁瑣的計算過程,而且需要各層各類規(guī)定一個權值。同層同類的各部分權值總和為10。
在評分階段,各個因素采取的方法應相同,量化標準也要一致。通常是將各部分因素值劃分為5個部分:明顯利多、一般利多、多空平衡、一般利空、極度利空,然后再轉(zhuǎn)化為“5、4、3、1、0”的分數(shù)一一對應。
匯總時將各部分的分數(shù)乘權相加為上一層類別部分的分數(shù),再將類別部分的分數(shù)乘權相加得出總的分數(shù)就是量化值。如上圖所示的量化值:
O=[(A1×Pa1+A2×Pa2)×Pa]+[B×Pb]+[(C1×Pc1+C2×Pc2+C3×Pc3)×Pc]。
其中第一層的各類量化值分別為:
OA=(A1×Pa1+A2×Pa2),OB=B,OC=(C1×Pc1+C2×Pc2+C3×Pc3)。
如果希望總分不要太大,在由下層部分匯總分數(shù)到上層類別時,可以統(tǒng)一乘以一個比例數(shù)字。如設定比例數(shù)為0.3,那么O=OA×0.3+ OB×0.3+OC×0.3,該比例數(shù)值一般以1除該層的類別數(shù)。上圖中的第一層類別數(shù)為3,所以設定比例數(shù)為1/3,取小數(shù)值為0.3。在此量化的過程中,工作量最大的是評分。首先要考慮采取什么方法來評。一般來講,包括:專家法、經(jīng)驗法、觀察法等。期貨研究作為專業(yè)性的研究,通常由專家及經(jīng)驗決定。
通過期貨公司研究部門和專業(yè)團隊對品種深入研究的結(jié)合,該數(shù)據(jù)庫分析和運用兩者協(xié)同,將對各品種分析提供強有力的理論及經(jīng)驗支持,對數(shù)據(jù)庫數(shù)據(jù)進行評分匯總,最終對各品種價格走勢做出強弱判斷。另外,通過運用外部統(tǒng)計軟件,對要求的品種可以進行后期價格走勢預測。
整體數(shù)據(jù)庫分析結(jié)論對品種研究及分析有極強的參考作用,有助于策略報告的撰寫,其對數(shù)據(jù)挖掘的設計主要有以下方面內(nèi)容:
第一,關聯(lián)規(guī)則的挖掘。關聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)庫中各項集之間的關聯(lián)關系。隨著大量數(shù)據(jù)的增加和存儲,許多人士對于從數(shù)據(jù)庫中挖掘關聯(lián)規(guī)則越來越感興趣。從大量數(shù)據(jù)中發(fā)現(xiàn)有趣的關聯(lián)關系,可以幫助制定許多投資決策,如組合投資、價格預測等。目前,關聯(lián)規(guī)則挖掘已經(jīng)成為數(shù)據(jù)挖掘領域中的重要研究方向。關聯(lián)規(guī)則反映一個事物與其他事物之間的相互依賴性或相互關聯(lián)性,如果兩個或多個事物之間存在關聯(lián),那么其中一個事物就能從其他已知事物中預測得知。所謂關聯(lián)規(guī)則是指數(shù)據(jù)集中支持度和信任度分別滿足給定閥值的規(guī)則,其形式化定義如下:設I={i1,i2,…im},i是m個不同項目的集合,給定一個交易數(shù)據(jù)庫D,其中每一個交易T是I中一組項目的集合,一條關聯(lián)規(guī)則就是X→Y的蘊涵式,其中X、Y屬于I,且X交Y為空集。如果D中C%包含X的交易同時包含Y,那么關聯(lián)規(guī)則X→Y在D中置信度C成立;如果D中S%的交易包含X∪Y,那么關聯(lián)規(guī)則X→Y在D中具有支持度S。在進行關聯(lián)分析時,用戶需要輸入兩個參數(shù):最小置信度和最小支持度。關聯(lián)分析就是生成所有具有用戶指定的最小置信度和最小支持度的關聯(lián)規(guī)則。
第二,數(shù)據(jù)分類。分類在數(shù)據(jù)挖掘中是一項非常重要的任務,目前在商業(yè)上應用最多。分類的目的是構(gòu)造一個分類函數(shù)或分類模型,該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個,即要發(fā)現(xiàn)一些指定的商品或事件是否屬于某一特定數(shù)據(jù)子集的規(guī)則。要構(gòu)造一個分類模型,需要有一個訓練樣本集作為輸入。訓練樣本數(shù)據(jù)集也稱訓練集,是由一個個數(shù)據(jù)庫記錄組成的,每一個記錄包含若干條屬性,組成一個特征向量。訓練集的每一個記錄還有一個特定的類標簽與之對應,該類標簽是系統(tǒng)的輸入,通常是以往的一些經(jīng)驗數(shù)據(jù)。分類的目的是分析輸入數(shù)據(jù),通過在訓練集中的數(shù)據(jù)表現(xiàn)出來的特性,為每一類找到一種準確的描述或者分類,由此生成的類描述用來對未來的測試數(shù)據(jù)進行分類。盡管這些未來測試數(shù)據(jù)的類標簽是未知的,但我們?nèi)钥梢杂纱祟A測這些新數(shù)據(jù)所屬的類。分類器的構(gòu)造方法有統(tǒng)計方法、機器學習方法、神經(jīng)網(wǎng)絡方法等,統(tǒng)計方法包括貝葉斯分類和非參數(shù)法,機器學習方法包括決策樹法和規(guī)則歸納法,前者對應的是決策樹或判定樹,后者一般為產(chǎn)生式規(guī)則。
第三,聚類分析。聚類分析是對群體及成員進行分類的遞歸過程。一個簇是一組數(shù)據(jù)對象的集合,在同一簇中的對象彼此類似,而不同簇中的對象彼此相異。將一組物理或抽象對象分組成為由類似對象組成的多個簇的過程被稱為聚類,在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。距離是經(jīng)常采用的度量方式。聚類分析是對輸入集中的記錄進行分類,由聚類分析工具根據(jù)一定規(guī)則,合理劃分記錄集合,把相似的記錄放在一個聚集里,用顯式或隱式的方法描述不同的類別。聚類和分類的不同在于聚類不依賴于預先設定好的類,它要劃分的是未知的、不需要訓練集和帶類標號的訓練實例,它屬于無指導學習。
第四,序列模式。序列模式分析和關聯(lián)分析相似,其目的也是為了挖掘數(shù)據(jù)之間的聯(lián)系,但序列模式分析的側(cè)重點在于分析數(shù)據(jù)間的前后序列關系。幾個重要研究方向包括趨勢分析、相似性搜索、與時間有關數(shù)據(jù)的序列模式挖掘和周期模式挖掘。其中,時序序列研究能發(fā)現(xiàn)數(shù)據(jù)庫中形如“在某一段時間內(nèi),顧客購買商品A,接著購買商品B,而后購買商品C,即序列A→B→C出現(xiàn)的頻度較高”之類的知識,其描述的問題是“在給定的交易序列數(shù)據(jù)庫中,每個序列是按照交易時間排列的一組交易集,挖掘序列函數(shù)作用在這個交易序列數(shù)據(jù)庫上,返回該數(shù)據(jù)庫中出現(xiàn)的高頻序列”。
中期數(shù)據(jù)庫的優(yōu)勢與效益
1.中期數(shù)據(jù)庫的優(yōu)勢
首先,該系統(tǒng)中的數(shù)據(jù)庫結(jié)構(gòu)完備,數(shù)據(jù)量大。目前,國內(nèi)期貨行業(yè)很少有涉及商品期貨及宏觀經(jīng)濟數(shù)據(jù)的數(shù)據(jù)庫,一般都是零星的品種數(shù)據(jù)。雖然國內(nèi)有不少專業(yè)咨詢公司數(shù)據(jù)信息非常專業(yè),但品種門類不全,且宏觀方面的數(shù)據(jù)較少,尤其是針對即將上市的股指期貨。當前也有一些公司擁有期貨數(shù)據(jù)庫,但主要是交易數(shù)據(jù),缺少品種基本面數(shù)據(jù)。相比之下,中期期貨數(shù)據(jù)庫在數(shù)據(jù)結(jié)構(gòu)上非常齊全,包括期貨研究所需門類數(shù)據(jù),如國內(nèi)宏觀經(jīng)濟、國際宏觀經(jīng)濟、國內(nèi)外證券市場數(shù)據(jù)、行業(yè)數(shù)據(jù)以及國內(nèi)外期貨市場數(shù)據(jù)。
其次,該系統(tǒng)具備分析預測功能。雖然形式上與一般的數(shù)據(jù)庫相似,但中期“Db-Plus期貨數(shù)據(jù)信息及分析系統(tǒng)”最明顯的一個特點是含有較為強大的數(shù)據(jù)分析及預測模塊,這一模塊不僅是國內(nèi)外數(shù)據(jù)庫不具備的,而且也是國內(nèi)金融投資行業(yè)運用較少的先進分析軟件。另外,以往主要是研究或?qū)I(yè)人員瀏覽并運用數(shù)據(jù)進行分析,而普通投資者由于相關專業(yè)知識有限,精力有限,大多很少看,也很難用于分析,但“D-Plus期貨數(shù)據(jù)分析系統(tǒng)”增加了多個數(shù)據(jù)分析預測模塊后,使運用數(shù)據(jù)庫的人員范圍大幅擴展,從而使數(shù)據(jù)運用及分析預測可以走進普通投資者的生活。
2.中期數(shù)據(jù)庫的社會效益
中期“Db-Plus期貨數(shù)據(jù)信息及分析系統(tǒng)”于2005年立項開發(fā),2006年年底完成初步設定功能并投入實際應用,為公司和客戶都創(chuàng)造出了非常巨大的經(jīng)濟效益。而且,該系統(tǒng)于2007年在25位專家的一致鑒定下,獲得了深圳第三屆“金融創(chuàng)新獎”三等獎的榮譽稱號。
隨著公司異地營業(yè)部以及VIP客戶不斷使用和運用該系統(tǒng),大幅提高了員工及投資者對數(shù)量分析的濃厚興趣,令其理性分析市場、理性投資交易的理念深入人心。另外,利用這個系統(tǒng)所具備的大量豐富數(shù)據(jù),還增進了公司與其他期貨公司、專業(yè)信息公司以及期貨交易所的相關合作。隨著對外交流與合作以及使用人數(shù)及范圍不斷擴大,必然有助于整個期貨行業(yè)的快速發(fā)展。對期貨行業(yè)來說,倡導理性分析、理性投資理念有助投資者快速成熟,有利期貨市場更快成長。
總體上看,與國外期貨市場相比,目前我國期貨市場尚處于發(fā)展的初始階段,期貨公司整體盈利水平不高,許多研究尚處于較低層次。由于建設數(shù)據(jù)倉庫所需的資金較大,加之對技術、人員的要求也比較高,目前對期貨公司來說難度還比較大。當然,中期公司在數(shù)據(jù)倉庫的建設方面還處于探索階段,很多方面都需要進行完善,而且也需要大量資金的投入。不過相信在未來的一段時期內(nèi),國內(nèi)期貨公司都將會擁有屬于自己的、全面的數(shù)據(jù)倉庫系統(tǒng),從而提高研究水平,增強期貨公司的核心競爭力。