自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

寫給數(shù)據(jù)挖掘新入行的朋友

數(shù)據(jù)庫
本帖中包含了數(shù)據(jù)挖掘初學者常見的問題,DMFighter對我以前回復(fù)的一些問題進行了精心的整理,在此也感謝他的辛勤工作。

本文內(nèi)容涵蓋以下幾個部分:

  • 關(guān)于論文如何創(chuàng)新

  • 數(shù)據(jù)挖掘人員從事的工作內(nèi)容

  • 讀博深造的必要性

  • 自學時的大方向

請問:現(xiàn)在數(shù)據(jù)挖掘開發(fā)主流平臺和編程語言。那些更有優(yōu)勢呢?現(xiàn)在大都用什么呢

問題1:現(xiàn)在選擇數(shù)據(jù)挖掘作為終身職業(yè)是明智之舉嗎?

問題2:如果我現(xiàn)在選擇了數(shù)據(jù)挖掘,應(yīng)該怎么做?

問題3:如何使學習階段與行業(yè)應(yīng)用靠攏?

對不同算法的性能效果進行評估比較,總結(jié)各種算法的特點及適用范圍。當然,如果能對算法做些有益的改進更好,可以讓論文的學術(shù)性更強。最后,描述出應(yīng)用了關(guān)聯(lián)分析的結(jié)果能帶來什么效益(比如對貨架位置的調(diào)整、對客戶的交叉銷售等到)。

一位數(shù)據(jù)挖掘成功人士 給 數(shù)據(jù)挖掘在讀研究生 的建議:

關(guān)于數(shù)據(jù)挖掘方面的研究,我原來也走過一些彎路。其實從數(shù)據(jù)挖掘的起源可以發(fā)現(xiàn),它并不是一門嶄新的科學,而是綜合了統(tǒng)計分析、機器學習、人工智能、數(shù)據(jù)庫等諸多方面的研究成果而成,同時與專家系統(tǒng)、知識管理等研究方向不同的是,數(shù)據(jù)挖掘更側(cè)重于應(yīng)用的層面。

因此來說,數(shù)據(jù)挖掘融合了相當多的內(nèi)容,試圖全面了解所有的細節(jié)會花費很長的時間。因此我建議你的第一步是用大概三個月的時間了解數(shù)據(jù)挖掘的幾個常用技術(shù):分類、聚類、預(yù)測、關(guān)聯(lián)分析、孤立點分析等等。這種了解是比較粗的,目標是明白這些技術(shù)是用來干什么的,典型的算法大致是怎樣的,以及在什么情況下應(yīng)該選用什么樣的技術(shù)和算法。

經(jīng)過初步了解之后,就要進入選題的階段,選擇自己感興趣的某個具體方向,然后通讀該方向的經(jīng)典論文(綜述、主要發(fā)展方向、應(yīng)用成果)。選題階段可能會花費較長的時間,比如一年。此時,要逐漸明確突破點,也就是將來你論文的創(chuàng)新點。創(chuàng)新對于研究來說非常重要,一方面該創(chuàng)新的確比原來的方法要好,另一方面該創(chuàng)新的確具有實用的價值。

隨后,就要來實現(xiàn)自己的想法。通常對于碩士論文來說,需要建立原型系統(tǒng),進行試驗,并用試驗結(jié)果來支持自己的論文主題。原型系統(tǒng)就是對自己創(chuàng)新點的實現(xiàn),需要很好地設(shè)計和開發(fā)。需要注意的是,原型系統(tǒng)的建立和開發(fā)商用系統(tǒng)不同,需要體現(xiàn)比較好的理論基礎(chǔ)。也就是說,原型系統(tǒng)并不是簡單地用于實現(xiàn)功能,而是將你的一整套理論付諸實現(xiàn)。這種理論基礎(chǔ)也將會包含在你的論文中,以體現(xiàn)論文的理論高度。

原型系統(tǒng)的搭建以及產(chǎn)生令人信服試驗結(jié)果,這個過程一般需要至少一年的時間。所以要集中精力于核心部分(體現(xiàn)論文創(chuàng)新點的部分),外圍的界面等等不應(yīng)投入太多的精力,以免進度失控。

最后是論文的整理和寫作了。建議你在之前的階段中逐步先寫出一些篇幅較短的論文(用于發(fā)在期刊、會議上),比如綜述、體系框架、算法內(nèi)核、應(yīng)用等等。這樣在最后寫畢業(yè)論文時就有了足夠多的內(nèi)容,會寫得更好更快一些。

以上只是泛泛而談。其實我覺得其中的關(guān)鍵點在于選題,而選題的好壞取決于你對數(shù)據(jù)挖掘研究現(xiàn)狀的了解、你的興趣和專長、以及該方向在應(yīng)用上的意義。建議你和導(dǎo)師、同行多交流,能夠讓自己的方向更清晰。

至于數(shù)據(jù)挖掘領(lǐng)域的就業(yè),應(yīng)該來說還是前景不錯的。如果你對研究有興趣,象微軟研究院、Google、高校研究所都是不錯的地方;如果你對實際應(yīng)用有興趣,很多大的公司包括IBM、Accenture、亞信等等都有相應(yīng)的人力需求,當然一些甲方的單位比如證券、保險、金融等等單位也都需要分析人才。

關(guān)于論文如何創(chuàng)新

“創(chuàng)新”是個很尖銳的問題。以前我?guī)蛯?dǎo)師審論文時,給論文評分包括幾個要素,分別是理論基礎(chǔ)是否堅實、研究問題的重要性、研究成果的創(chuàng)新性等。

所謂創(chuàng)新,就是你解決問題的方法是否和其他人的解決方法有所不同,而這種不同又是否更有利于解決問題。因此,要發(fā)現(xiàn)創(chuàng)新點,實際上需要充分的準備和深入的研究。

①充分的準備:既然創(chuàng)新是找出解決問題的更好方法,那么首先你就要發(fā)現(xiàn)問題,而且要發(fā)現(xiàn)有價值的問題。當找到這種問題時,再去查找有沒有人提出了解決這個問題的方法,他們的方法是怎樣的,還存在什么不足之處。

這個階段需要做大量的調(diào)查搜集的工作,也是做研究的準備階段,常常需要通讀相關(guān)研究領(lǐng)域的經(jīng)典文獻以及最新進展,寫讀書筆記予以總結(jié)。

②深入的研究:當你發(fā)現(xiàn)了值得研究的問題,并且知道在這個問題上還沒有很好的解決方法時,你就有了創(chuàng)新的機會。找出現(xiàn)有解決方法的不足之處,提出自己的解決思路,并予以驗證,通過試驗或者推理證明你的方法是有效的,創(chuàng)新點也就產(chǎn)生了。說起來容易做起來難,就象醞釀一個新發(fā)明一樣,常常會需要大量的試驗和周密的思考,而且也有可能忙了很久而一無所獲。

希望說到這里沒有讓你心生懼怕,但我見過的一些認真做研究的人的確投入了很多的時間和精力才有所成就。當然對于國內(nèi)的研究生來說,我倒是覺得在碩士階段去追求顯著的創(chuàng)新是不切實際的(個人的一管之見),其實把第一步做好已經(jīng)不錯了。如果沒有做好第一步,打好基礎(chǔ),就急于找些創(chuàng)新點,那么這些所謂的創(chuàng)新點常常是毫無意義的,寫出來的論文最終避免不了被扔到垃圾桶的命運(我以前寫的一些論文也是如此)。大家常常說國內(nèi)的研究論文質(zhì)量很差,很大程度上也是源于我們現(xiàn)在的教育制度,要求研究生畢業(yè)前必須在SCI、EI或核心期刊上發(fā)表若干篇論文,重量而不重質(zhì),造就了現(xiàn)在的核心期刊完全變成了完成畢業(yè)任務(wù)的自留地。

話題扯遠了,回到你關(guān)心的問題-如何找創(chuàng)新點。必要的文獻閱讀是不可缺的,了解研究現(xiàn)狀和背景,才可能發(fā)現(xiàn)創(chuàng)新點。如果你想這個階段快一些的話,也有些捷徑,比如你可以到一些研究單位或?qū)W者的站點上,察看他們目前的研究動態(tài),一般來說他們正在研究的內(nèi)容常常是目前還未解決的,這樣你可以盡快找到創(chuàng)新點的主攻方向。

數(shù)據(jù)挖掘人員從事的工作內(nèi)容?

是不是開發(fā)數(shù)據(jù)挖掘平臺、為別的企業(yè)單位量身制作DM、DW系統(tǒng)?除了這些還能有些什么?

讀博深造的必要性

現(xiàn)在只是無指導(dǎo)的自學狀態(tài),能否在碩士畢業(yè)后勝任數(shù)據(jù)挖掘方面的工作呢?考取名校的博士進一步深入學習的必要性大不大?

自學時的大方向

文本、Web等,讀博時肯定就某種具體方向深入研究,現(xiàn)在是否應(yīng)該也自己重點專注于一種方向,而不是僅泛泛的熟悉各個方面?

以下為blog主人的回復(fù):

1.數(shù)據(jù)挖掘人員從事的工作和你所說的差不多,我認識的一些朋友大多在IT公司,為甲方實施DM、DW和BI等項目;還有一些是在甲方做分析人員,利用所掌握的數(shù)據(jù)挖掘知識來解決一些業(yè)務(wù)問題。

2.就以上的工作內(nèi)容來說,我覺得碩士已經(jīng)足以勝任,當然最重要的不是學位,而是運用你學到的知識來解決問題的能力。如果希望在理論研究上進一步發(fā)展,讀博也不錯,但發(fā)展方向會有所不同。

3.在碩士階段,我覺得還是全面了解會更好一些。當然,因為數(shù)據(jù)挖掘涉及的內(nèi)容較多,還是應(yīng)該在一些方面有所側(cè)重,比如那些得到廣泛應(yīng)用的算法及其應(yīng)用上,包括決策樹、聚類、回歸、神經(jīng)網(wǎng)絡(luò)等等。這樣即便你以后不去讀博,對找工作也會有所幫助。

請問:現(xiàn)在數(shù)據(jù)挖掘開發(fā)主流平臺和編程語言。那些更有優(yōu)勢呢?現(xiàn)在大都用什么呢 謝謝

以下為blog主人的回復(fù):

現(xiàn)在一般應(yīng)該是用Java開發(fā)的比較多,據(jù)我所知的,SAS Enterprise Miner客戶端是用Java開發(fā),開源的數(shù)據(jù)挖掘工具Weka也是用Java開發(fā)的。當然其后臺服務(wù)器端的軟件有部分可能會是C開發(fā)的,主要是出于性能的考慮。

如果你對數(shù)據(jù)挖掘平臺開發(fā)有興趣的話,建議你去開源代碼網(wǎng)站SourceForge(http://sourceforge.net/)看看,可以找到相應(yīng)的源代碼,也可以參加到他們的開發(fā)團隊中,共同開發(fā)。

請教: 1 為甲方做的針對行業(yè)的數(shù)據(jù)挖掘中,如果通過SAS等通用的軟件,如何體現(xiàn)行業(yè)不同、部門不同的特色要求?為他建立預(yù)測模型的過程中會對SAS的功能進行插件式的擴展嗎,還是SAS本身已經(jīng)足夠建立特定的模型?

也就是說所謂的量身定制,也就是使用同一個軟件建立不同的模型,開發(fā)過程中不涉及軟件的改造?

2 是否數(shù)據(jù)挖掘人員不必是一個程序員?日常的工作已經(jīng)很少涉及編程?

以下為blog主人的回復(fù):

1.SAS的Enterprise Miner是通用型的數(shù)據(jù)挖掘軟件,所以要滿足客戶的特定分析需求,常常會采取兩種方法實現(xiàn):一是做項目,通過項目團隊的開發(fā)和實施,來建立客戶所需的應(yīng)用;另一種是采用SAS的行業(yè)解決方案(是SAS通過多年來對行業(yè)需求及解決方案的總結(jié),形成的完整的solution),然后進行客戶化定制。

大多數(shù)情況下,不需要對SAS的功能進行擴展,而是用SAS的軟件就可以解決業(yè)務(wù)問題。所以我們通常做的項目不是軟件開發(fā),而是項目實施。

2.如果單純從建立挖掘模型的角度來說,挖掘人員的確不必是程序員,只要應(yīng)用合適的挖掘算法,基于分析數(shù)據(jù)進行建模,并對模型進行調(diào)優(yōu)就可以了。但實際上,挖掘人員并不只做這些,更多的時候是做數(shù)據(jù)準備和數(shù)據(jù)探索,其中就可能需要進行編程,當然這些程序通常用于數(shù)據(jù)處理、模型結(jié)果的發(fā)布等等。

就我個人的經(jīng)驗和了解,數(shù)據(jù)準備常常占一個數(shù)據(jù)挖掘項目工作量的60%~70%左右。

另外幾個問題:

我是中國海洋大學一名研一生,專業(yè)是數(shù)據(jù)庫。我想自己選擇一門方向,認真的學習,作為終身職業(yè)。譬如 java程序員、數(shù)據(jù)挖掘人員、數(shù)據(jù)庫管理人員等等。我比較喜歡數(shù)據(jù)挖掘,但是若干問題難以釋惑。

問題1:現(xiàn)在選擇數(shù)據(jù)挖掘作為終身職業(yè)是明智之舉嗎?

現(xiàn)在網(wǎng)上對數(shù)據(jù)挖掘的前景討論的很厲害,褒貶不一。但是至少可以確定的是數(shù)據(jù)挖掘已經(jīng)越來越被重視了。如你所言,大家看到的只是表面,許多成功的案例企業(yè)沒有對外公開。但不可否認的是,數(shù)據(jù)挖掘在中國的應(yīng)用有屠龍之技的嫌疑,廣大的企業(yè)還沒有重視起來。

總之,男怕投錯行,這個問題總是敲擊著我。如果我是您的弟弟,您會鼓勵我走數(shù)據(jù)挖掘之路嗎?還是推薦其他的IT職業(yè)?

IDMer:

就我個人的觀點,數(shù)據(jù)挖掘的發(fā)展還是前途很廣闊的。說白了,數(shù)據(jù)挖掘就是一種分析問題的手段,問題一直會有,解決問題的手段也就一直有存在的必要。也許你聽說過美國早期西部淘金熱的時候,富起來的不是淘金者,而是為淘金者提供工具、水的人,甚至因為礦工需要結(jié)實耐磨的衣服,以致于牛仔褲風行起來并經(jīng)久不衰。

至于你提到“屠龍之技”之說,只是很多人因為不熟悉數(shù)據(jù)挖掘的內(nèi)部技術(shù)而產(chǎn)生的莫測高深的感覺。其實,數(shù)據(jù)挖掘本身并不是新技術(shù),它融合了來自于統(tǒng)計學、數(shù)據(jù)庫和機器學習等多學科已經(jīng)成熟的內(nèi)容,冠上了一個看起來比較時髦的名字而已。

組成數(shù)據(jù)挖掘的這三門支柱學科都已經(jīng)發(fā)展了多年,也已得到了廣泛的應(yīng)用。那么我們也有理由相信它們的融合,能幫助我們解決更多的分析方面的問題。何況,業(yè)界還是有很多的成功案例,體現(xiàn)出數(shù)據(jù)挖掘所帶了獨特優(yōu)勢,而這些,是傳統(tǒng)的BI(報表、OLAP等)無法支持的。

以上說了不少數(shù)據(jù)挖掘的好話,下面再看看硬幣的另一面。如果你是我的弟弟(呵呵,雖然我沒有,但也和很多年輕的師弟師妹聊過擇業(yè)的話題),我會建議你不做IT業(yè),哈哈,一句半真半假的玩笑。因為在IT這個行業(yè)看起來還是滿辛苦的,而且在很多項目中,常常需要重復(fù)一些沒什么技術(shù)含量的任務(wù),消耗的精力不少,獲得的成就感卻不多。

Anyway,我的建議,其實也是我原來給自己的一句座右銘:認為對的就去做。找到自己的興趣所在,并且感覺也有發(fā)展,那就盡力去做好了。

問題2:如果我現(xiàn)在選擇了數(shù)據(jù)挖掘,應(yīng)該怎么做?

您曾經(jīng)在博客上回復(fù)一位北郵同學,建議熟悉學習各種算法;建立模型,創(chuàng)新思路改進算法撰寫論文。

我當前的計劃是 學習各種算法的原理;學習java語言;研究weka源碼,深入了解幾種經(jīng)典算法的步驟;學習了解ETL,數(shù)據(jù)倉庫、OLAP等;通過使用的數(shù)據(jù)集建立挖掘模型;思考論文;有空的話 還得SPSS或其他一個流行軟件的使用方法。其中,我覺得難點是對數(shù)據(jù)集的整理形成挖掘流程的輸入。

其中,我也有若干疑惑:掌握一門數(shù)據(jù)庫是很重要的,但是沒有時間一一了解SQL Server、Oracle、DB2等,但是在求職時,又說不定單位要求會哪門數(shù)據(jù)庫???我想就SQL Server單獨進行深入的學習,包括學習在SQL Server中數(shù)據(jù)倉庫的建立和數(shù)據(jù)挖掘的應(yīng)用,其他的也就不管了。不知我這個選一而棄其他的打算可取不可取?

IDMer:

從你的計劃來看,還是對自己要掌握的知識和技能,劃出了一個范圍??瓷先ミ€不錯,我只是從個人的經(jīng)驗出發(fā),建議你不必苛求自己十八般武藝樣樣精通,很多方面只需基本了解,選擇幾個重點來練成自己的絕活。人的精力畢竟有限,目標越大就越難實現(xiàn)。

至于選擇那些作為重點,就需要在廣泛了解的基礎(chǔ)上,結(jié)合自己的興趣進行篩選了。

關(guān)于數(shù)據(jù)庫的掌握,我覺得熟悉一種產(chǎn)品已經(jīng)足夠。SQL Server、Oracle、DB2都是關(guān)系數(shù)據(jù)庫,在學生階段把關(guān)系數(shù)據(jù)庫的基礎(chǔ)理論打牢,熟練運用SQL語句就可以了。這些主流數(shù)據(jù)庫之間的差異,不是遵循的標準不同,而是產(chǎn)品的特性有別,以及在性能調(diào)優(yōu)時的技巧。

問題3:如何使學習階段與行業(yè)應(yīng)用靠攏?

有一位學長,建議我學技術(shù)的時候要和行業(yè)靠攏,否則,“沒有行業(yè)背景的技術(shù)會很飄”。我覺得他說的有道理,技術(shù)是相當寬泛的,你不可能面面俱到;而且,當你實際工作后,也就專于一個行業(yè),技術(shù)的需要面也就變窄了。這樣,有利于學習重點,不至于在學習時,面面俱到,沒有突出。

但是,在數(shù)據(jù)挖掘方面,曾經(jīng)請教過你,數(shù)據(jù)挖掘人員的工作性質(zhì)。一種是在甲方做分析人員,利用所掌握的數(shù)據(jù)挖掘知識來解決一些業(yè)務(wù)問題。一種是在IT公司,為甲方實施DM、DW和BI等項目(前輩自己便屬于此類?)。

在這里,我不太明白作為甲方,日常具體做些什么?難道是類似于網(wǎng)管性質(zhì)的?那樣不更傾向于數(shù)據(jù)庫管理人員?他們還算是專業(yè)的數(shù)據(jù)挖掘人員嗎,怎么覺得公司不大會安排這樣的職位呢?

我比較傾向于做乙方,那樣好像更專業(yè)似的。但是,乙方的話,都說數(shù)據(jù)挖掘在金融、電信、銀行還是銷售等方面主要應(yīng)用。難道這意味著要學習或了解金融電信的背景、CRM、經(jīng)濟學、Excel……?

還有,您曾提到,畢業(yè)后也可以做研究工作,我覺得提供研究工作的崗位畢竟是少的。而且,那樣掙錢多嗎(流汗中)?

是否現(xiàn)在應(yīng)該考慮以后進哪個(哪類)公司,現(xiàn)在根據(jù)它的要求來強化自己呢?

IDMer:

你這位學長說得沒錯,脫離實際的純理論大多會消散于無形。至于甲乙方的區(qū)別,實際上也沒有想像中那么大,特別是對于剛剛參加工作的基層員工來說,可能差不多。

先在乙方歷練幾年,然后跳到甲方,這種狀況我看到不少。也許是因為在乙方接受的鍛煉和學習到新知識經(jīng)驗的機會更多些吧,可以在年輕時有更多的積累。當然,如果有很好的在甲方工作的機會,也是不錯的選擇。

到乙方工作,特別是對一直待在校園里的應(yīng)屆生來說,招聘方重點考察的大多是你的知識是否扎實、性格是否有利于融入團隊等方面。至于對行業(yè)的了解,一般很少有過多的期望,除非你有多年在相關(guān)行業(yè)做項目的經(jīng)驗。

國內(nèi)的研究機構(gòu)還是以科研院所和高校為主,待遇一般要比公司低,但也有很多人,包括我的師兄師姐以及同學,選擇了繼續(xù)做研究,因為他們會從研究中獲得很多樂趣。另外一些研究機構(gòu)是企業(yè)特別是外企的研究院,待遇也很好,但就要求你很出色才有機會加入。做研究還有一個很好的地方,就是國外的院?;蜓芯克?。

后記:覺得自己的提問沒有意義,好像有些是明擺著的問題,又抑或是些不值得回答的問題似的。前輩若有時間,還望指點一二。我不急,若忙的話,啥時候回復(fù)都可以。

原文鏈接:http://www.36dsj.com/archives/5230

責任編輯:彭凡 來源: DMman博客
相關(guān)推薦

2015-10-16 15:38:38

程序員建議

2012-07-18 02:13:30

文字圖片應(yīng)用小應(yīng)用

2015-11-18 17:06:53

風控大數(shù)據(jù)挖掘

2015-11-27 14:38:46

中國軟件資訊網(wǎng)

2014-03-11 09:30:00

面試職場

2009-11-26 14:25:11

2010-12-03 11:14:58

IT人

2020-12-29 09:50:23

大數(shù)據(jù)大數(shù)據(jù)技術(shù)

2016-10-19 14:58:05

大數(shù)據(jù)大數(shù)據(jù)應(yīng)用

2018-12-27 10:46:20

數(shù)據(jù)庫工程師DBA

2025-03-12 03:00:00

2018-07-04 10:45:29

數(shù)字化

2014-06-09 16:43:11

程序員

2014-09-26 10:13:32

程序員秘密規(guī)則

2016-08-18 01:26:22

數(shù)據(jù)挖掘

2025-01-27 07:00:00

數(shù)據(jù)庫數(shù)據(jù)庫管理系統(tǒng)MySQL

2019-03-20 14:44:53

數(shù)據(jù)庫MySQLExcel

2016-11-08 13:11:46

大數(shù)據(jù)數(shù)據(jù)挖掘

2012-08-29 14:56:48

IT龍門陣

2016-02-22 09:41:16

數(shù)據(jù)挖掘算法大數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號