自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

啃論文俱樂部—學術(shù)科研方法論沉淀輯

系統(tǒng) OpenHarmony
我們是來自9個地方的同學,我們在OpenHarmony成長計劃啃論文俱樂部里,與華為、軟通動力、潤和軟件、拓維信息、深開鴻等公司一起,學習和研究操作系統(tǒng)技術(shù)。

??想了解更多關(guān)于開源的內(nèi)容,請訪問:??

??51CTO 開源基礎(chǔ)軟件社區(qū)??

??https://ost.51cto.com??

引言

  • 論文不論是在大家的刻板印象中,抑或是實際地閱讀后都會給大家?guī)硪环N感覺。
    所涉及的知識量是巨大的,對背后原理的理解是具有不小挑戰(zhàn)的,其中的公式推導是極度燒腦的。
  • 基于前面幾點,論文確實是個硬骨頭,因此用啃這個字來刻畫論文閱讀,是很恰當?shù)摹5菍τ谟补穷^,大家也都啃過真的“硬骨頭”,其中的精華可能暗藏在骨縫之中,需要你對Main body的仔細閱讀來發(fā)現(xiàn)與獲?。蝗绻ё驳挠瞾?,稍有不慎就會硌到牙,比如說你開始和數(shù)學公式斗爭。同時,也可能會遇到有大片的肉塊密布的情況,也就是這篇文章的摘要部分的信息量很大,有許多是有價值的信息,但是每個可能都需要展開查詢。對于這種久旱逢甘霖的情形,有人可能就會歡欣鼓舞的大快朵頤,大家就開始瘋狂查詢,一會幾十個頁面就都打開了,但稍不留神就可能被噎住,短時間被巨大的信息量沖擊可能就會有種眼花繚亂的感覺,稍有不慎就會偏離方向。綜上所述,無論是因為啃不動論文,或是啃論文的方法不當,都會讓我們陷入卷帙浩繁的文獻汪洋,迷失了方向,迷失了自我。那么接下來我們將給出兩種論文閱讀的途徑,一種是我們團體參與啃論文俱樂部走到今天運用的方法,另一種是清華彭明輝教授的方法。

  • 上圖我們就詳細地給出了俱樂部的方法與彭教授的方法,我們基于彭教授的方法對我們俱樂部的方法進行了相應(yīng)的對比。下文我們就將上圖的部分信息進行一定程度的展開補充。

1、目標導向

  • 這兩種方法的最終目標導向是不同的。
    彭教授方法的目標導向:
    根據(jù)已有的學術(shù)成果去創(chuàng)造出新的知識,力圖實現(xiàn)理論層面的突破。
    俱樂部啃論文的目標導向:
    在已有的文獻中探尋是否有更好的技術(shù)可以替換現(xiàn)有的技術(shù), 力圖實現(xiàn)代碼層面的應(yīng)用。

2、能力導向

  • 這一層面我們啃論文俱樂部與彭教授的要求是趨同的。彭教授方法:

  • 俱樂部方法:

數(shù)據(jù)檢索的能力

你到底要用什么樣的關(guān)鍵詞和查所程序去保證你已經(jīng)找出所有相關(guān)的文獻?這是第一個大的挑戰(zhàn)。

資料篩選的能力

你如何可以只讀論文的題目、摘要、簡介和結(jié)論,而還沒有完全看懂內(nèi)文,就準確地判斷出這篇論文中是否有值得你進一步參考的內(nèi)容,以便快速地把需要仔細讀完的論文從數(shù)百篇降低到幾篇?

期刊論文的閱讀能力

自己從無組織的知識中檢索、篩選、組織知識的能力。

期刊論文的分析能力

對一切既有進行精確批判的能力一個嚴格訓練過的合格碩士,他做事的時候應(yīng)該是不需要有人在背后替他做檢證,他自己就應(yīng)該要有能力分析自己的優(yōu)、缺點,主動向上級或平行單位要求支持。其實,至少要能夠完成這個能力,才勉強可以說你是有「獨立自主的判斷能力」。

創(chuàng)新的能力

碩士畢業(yè)生卻應(yīng)該要有能力創(chuàng)造知識。

3、論文閱讀

  • 這一部分彭教授的方法構(gòu)建對一個領(lǐng)域的認知時是基于大量的文獻,然后以找到三個問題的答案為目的去閱讀梳理該領(lǐng)域的技術(shù)的,我們俱樂部是采用??先閱讀綜述???的方式可以快速的在綜述中完成這一部分,當然在實在找不到相關(guān)綜述的情況下,我們可以采用彭教授的梳理方式。但與此同時我們可以在閱讀綜述時,尋找彭教授所說的三個問題的答案,這樣效率會更加高。
    彭教授方法:?

  • 俱樂部方法:

Part Ⅰ

摘要/介紹 部分

  • 必須要學會只看Abstract和Introduction便可以判斷出這篇論文的重點和你的研究有沒有直接關(guān)連,從而決定要不要把它給讀完。(以后不管是做事或做學術(shù)研究,都比別人有能力從更廣泛的文獻中挑出最值得參考的資料。)
  1. 功能 :
  • 問題背景起源。
  • 前人已有主要貢獻。
  • 前人未解問題。
  • 此背景下本論文的想解決的問題及重要性。
  1. 操作步驟:
  • 目的:初學學生,了解以前研究的概況。
  • 題目可能相關(guān)的論文收集個 30~40 篇 <=> 讀綜述,更加簡便。
  • 只讀 Abstract 和 Introduction,不讀 Main Body(本文),必要時參考 examples 和 Conclusions。
  1. 直到你能回答下面這三個問題:(綜述可以給你答案)。
  • 在這領(lǐng)域內(nèi)最常被引述的方法有哪些?(問題A)[技術(shù)地圖]。
  • 這些方法可以分成哪些主要派別?(問題B)[技術(shù)地圖]。
  • 每個派別的主要特色(含優(yōu)點和缺點)是什么?(問題C)。
  • 回答不了(問題C)。
  • step 1: 根據(jù)(問題A)的答案,找齊領(lǐng)域內(nèi)最常被引述的論文。
  • step 2: 根據(jù)(問題B)的答案分成派別,每個派別按日期先后次序排好。
  • step 3: 只重新讀一派的 Abstract 和Introduction。
  • 必要時簡略參考內(nèi)文,目的讀懂 Introduction 內(nèi)與這派有關(guān)的陳述,而不需要真的看懂所有內(nèi)文。
  • 照日期先后讀,讀的時候只企圖回答一個問題:這一派的創(chuàng)意與主要訴求是什么?
  • 這樣,你逐派逐派地把每一派的 Abstract 和 Introduction 給讀完,總結(jié)出這一派主要的訴求、方法特色和優(yōu)點(每一篇論文都會說出自己的優(yōu)點,仔細讀就不會漏掉)。
  • 其次,你再把這些論文拿出來,但是只讀 Introduction,認真回答下述問題:「每篇論文對其它派別有什么批評?」然后你把讀到的重點逐一記錄到各派別的「缺點」欄內(nèi)。
  • 通過以上程序,你就應(yīng)該可以掌握到(問題A)、(問題B)、和(問題C)三個問題的答案。這時你對該領(lǐng)域內(nèi)主要方法、文獻之間的關(guān)系算是相當熟捻了,但是你還是只仔細讀完 Abstract和 Introduction 而已,內(nèi)文則只是籠統(tǒng)讀過。

碩士生必須學會選擇性的閱讀,而且必須鍛煉出他選擇時的準確度以及選擇的速度,不要浪費時間在學用不著的細節(jié)知識!多吸收「點子」比較重要,而不是細部的知識?!高@對俱樂部同樣適用」。

Part Ⅱ

修正關(guān)鍵詞,篩選論文

  • 目前已經(jīng)掌握此領(lǐng)域主要論文,測試keywords不恰當與否,修正 keywords 再搜尋,補齊此領(lǐng)域的主要文獻,原來 30~40 篇論文中關(guān)系較遠的論文篩選掉,只保留 20 篇左右確定跟關(guān)系較近的文獻。如果有把握,可以刪除一兩個你不想用的派別(要有充分的理由),只保留兩、三個派別(也要有充分的理由)繼續(xù)做完以下工作。

Part Ⅲ

利用(問題C)每個派別的主要特色(含優(yōu)點和缺點)是什么? 的答案,再進一步回答一個問題:

  • 這個領(lǐng)域內(nèi)大家認為重要的關(guān)鍵問題有哪些?
  • 有哪些特性是大家重視的優(yōu)點?有哪些特性是大家在意的缺點?
  • 這些優(yōu)點與缺點通常在哪些應(yīng)用場合時會比較被重視?在哪些應(yīng)用場合時比較不會被重視?
  • 目的:整理出這個領(lǐng)域(研究題目)主要應(yīng)用場合,以及這些應(yīng)用場合上該注意的事項?!炯夹g(shù)地圖】
  • 最后,在你真正開始念論文的 main body 之前。
  • 你應(yīng)該要先根據(jù) :
  • (問題A)在這領(lǐng)域內(nèi)最常被引述的方法有哪些?和(問題C)每個派別的主要特色(優(yōu)點和缺點)是什么?的答案。
  • 把各派別內(nèi)的論文整理在同一個檔案夾里,并照時間先后次序排好。
  • 然后依照這些派別與你的研究方向的關(guān)系遠近,一個派別一個派別地逐一把各派一次念完一派的 main bodies。

對于俱樂部我們可能是錨定了具體的應(yīng)用場景后根據(jù)場景進行 Main body 的閱讀而不是上述過程。

Part Ⅳ

閱讀主體(也對應(yīng)三個問題)-(多要結(jié)合文中圖表去理解)

a. 這篇論文的主要假設(shè)是什么(在什么條件下它是有效的),并且評估一下這些假設(shè)在現(xiàn)現(xiàn)條 件下有多容易(或多難)成立。愈難成立的假設(shè),愈不好用,參考價值也愈低。

b. 在這些假設(shè)下,這篇論文主要有什么好處。

c. 這些好處主要表現(xiàn)在哪些公式的哪些項目的簡化上。

至于整篇論文詳細的推導過程,你不需要懂。除了三、五個關(guān)鍵的公式(最后在應(yīng)用上要使用 的公式,你可以從這里評估出這個方法使用上的 方便程度或計算效率*,以及在非理想情境下這些公式使用起來的可靠度或穩(wěn)定性)之外,其它公式都不懂也沒關(guān)系,公式之間的恒等式推導過程可以完全略過去。假如你要看公式,重點是看公式推導過程中引入的假設(shè)條件,而不是恒等式的轉(zhuǎn)換。

目的:這一派的主要發(fā)展過程,主要假設(shè)、主要理論依據(jù)、以及主要的成果做一個完整的整理。

  • 根據(jù)(問題D)的答案以及這一派的主要假設(shè),進一步回答下一個問題:
    這一派主要的缺點有哪些?!疚覀儓F隊目前覺得這一點可能不必要】
  • 最后,根據(jù)(A)、(B)、(C)、(D)的答案綜合整理出:這一派最適合什么時候使用,最不適合什么場合使用。
  • 一定要同時有方法特性表與應(yīng)用場合特性分析表放在 一起后,才能判斷一個方法的適用性。

4、閱讀論文的原則

  • 讀論文帶著問題讀,只圖回答你要回答的問題。
  • 選擇性閱讀,一定要逐漸由粗而細地一層一層去了解。上面所規(guī)劃的讀論文的次序,就是由粗而細,每讀完一輪,你對知識就增加一層。根據(jù)這一層知識就可以問出下一層更細致的問題,再根據(jù)這些更細致的問題去重讀,就可以理解到更多的內(nèi)容。因此,一定是一整批一起讀懂到某個層次,而不是逐篇逐篇地整篇一次讀懂。
  • 第一輪讀完后,可以根據(jù)第一輪所獲得的知識判斷出哪些論文與你的議題不相關(guān),不相關(guān)的就不需要再讀下去了。這樣才可以從廣泛的論文里逐層準確地篩選出你真正非懂不可的部分。不要讀不會用到的東西,白費的力氣必須被極小化!其實,絕大部分論文都只需要了解它的主要觀念(這往往比較容易),而不需要了解它的詳細推導過程(這反而比較費時)。
  • 其次,一整批一起讀還有一個好處:同一派的觀念,有的作者說得較易懂,有的說得不清楚。整批讀略過一次之后,就可以規(guī)劃出一個你以為比較容易懂的閱讀次序,而不要硬碰硬地在那里撞墻壁。你可以從甲論文幫你弄懂以論文的一個段落,沒人說讀懂甲論文只能靠甲論文的信息。所以,整批閱讀很像在玩跳棋,你要去規(guī)劃出你自己閱讀時的「最省力路徑」。

5、辦法實操

  • 現(xiàn)在,假設(shè)我們已經(jīng)在前文方法的基礎(chǔ)上留下了一篇合適文獻,如何對其進行合理有效地解析是即將面臨的關(guān)鍵問題。為方便起見,接下來以我們曾經(jīng)捧讀過的《FSST: Fast Random Access String Compression》一文為例,對彭明輝教授的實行辦法作一個上手實操,回顧優(yōu)化自身的同時更供參考。

一、從概要判斷關(guān)聯(lián)性

  • 首當其沖的 Abstract 說明全文的主要貢獻、方法特色與主要內(nèi)容:

  1. 主要貢獻:提出了一種叫做“快速靜態(tài)符號表”的輕量級字符串壓縮方案。
  2. 方法特色:在文本數(shù)據(jù)上的壓縮、解壓速度與 LZ4 等方法相似或更好,壓縮比更高。
  3. 主要內(nèi)容:支持隨機訪問單個壓縮后的字符串,可以延遲對數(shù)據(jù)的解壓和查詢等。
  • 至此,可能還無法確切了解“靜態(tài)符號表”的含義,但它的特點價值卻足夠高(LZ4 以極快的壓、解壓速度而著稱),這是其亮點,因而足以有理由支撐我們繼續(xù)閱讀下去。

“Introduction 的功能是介紹問題的背景和起源,交代前人在這個題目上已經(jīng)有過的主要貢獻,說清楚前人留下來的未解問題,以及在這個背景下這篇論文的想解決的問題和它的重要性?!?/p>

  • Introduction 這一部分信息量較大,是對全文組織內(nèi)容的串聯(lián),應(yīng)當細致入微地多過幾遍。僅以其中截取的片段為實例:首先介紹了字符串在當下的廣泛背景 —— 字符串經(jīng)常在數(shù)據(jù)庫中被用作各種數(shù)據(jù)的萬能表示類型。再引出現(xiàn)實問題 —— 但字符串的唯一性與數(shù)據(jù)庫中字符串通常只有百十 byte 大小的特點,致使傳統(tǒng)的、依靠壓縮多次完全重復字符串方式實現(xiàn)壓縮的字典壓縮算法無法很好地發(fā)揮效用,這要求字符串的輸入大小需要達到幾 kb 以上時才能滿足,二者之間由此產(chǎn)生了矛盾,并舉例 LZ4 算法進行了粗略論證。其次,傳統(tǒng)的按塊排序的通用字符串壓縮算法也無法很好地滿足數(shù)據(jù)庫對單個字符串屬性實現(xiàn)隨機訪問的需求。

  • 另外,我們還會注意作者多次強調(diào)到這樣一個核心技術(shù)實現(xiàn)的字眼 ——AVX512 SIMD。如果曾經(jīng)了解過,會知道它是由 Intel 所推出的新一代獨有加速指令集架構(gòu),這時,去搜索引擎具體深入下再合適不過了。不難獲取到這樣一些信息:Intel 平臺獨占、流行于 HPC、能耗比較高……由此,可初步推斷 FSST 或許??不會具備可觀??的通用性。
  • 至此,開頭所述選項大致都已找到了答案可補充,同時完成了判斷關(guān)聯(lián)性的目的,并可結(jié)合自身研究方向的需求定為“中等”級別。

二、著重主體創(chuàng)新與優(yōu)缺點

“在你第一次有系統(tǒng)地念某派別的論文 main bodies 時,你只需要念懂:這篇論文的主要假設(shè)是什么(在什么條件下它是有效的),并且評估一下這些假設(shè)在現(xiàn)實條件下有多容易(或多難)成立。愈難成立的假設(shè),愈不好用,參考價值也愈低。在這些假設(shè)下,這篇論文主要有什么好處。這些好處主要表現(xiàn)在哪些公式的哪些項目的簡化上?!?/p>

  • 在闡述 FSST 的實現(xiàn)過程時,作者首先指明了“字符串”這樣一種數(shù)據(jù)類型的特點:盡管每個單獨的字符串可能很短、幾乎沒有冗余,但一個列的字符串通常有共同的子字符串,如下圖 URL 類數(shù)據(jù)集所示:

  • 所以,F(xiàn)SST 的創(chuàng)新點就在,其識別經(jīng)常出現(xiàn)的子字符串符號,并將它們替換為短的、固定大小的?代碼。再者,符號表在解壓過程中保持靜態(tài),這意味著在解壓某個單個字符串的時候不必依賴同一個壓縮塊中的其他關(guān)聯(lián)字符串;但 LZ4 一類的算法會在壓縮與解壓期間修改字符串內(nèi)部狀態(tài)。

  • 與此同時,在正文中我們不乏也會看到上圖類似的內(nèi)容。其實,這即是彭明輝教授所述的“恒等式轉(zhuǎn)換”,如果浪費時間在研究恒等式是如何推導出來的方向上,是意義不大的。重要的是關(guān)注公式推導過程中引入的假設(shè)條件,而非恒等式轉(zhuǎn)換。
  • 后文相關(guān)內(nèi)容可參考??【ELT.ZIP】OpenHarmony啃論文俱樂部——快速隨機訪問字符串壓縮??。

三、歸納問題、技術(shù)、場景

  • 這里的方法與應(yīng)用場合特性表即對應(yīng)我們俱樂部常常所強調(diào)的問題、技術(shù)、場景。問題,描述了對象的什么結(jié)構(gòu)的什么層面存在的不足或是缺陷,導致無法適應(yīng)于當下的需求;技術(shù),為了滿足這樣一種需求而產(chǎn)生,具備其獨有的優(yōu)勢;場景,在何時、何種場合下會出現(xiàn)這種需求,需求量多還是少,技術(shù)解決需求量的多少決定了論文的含金量。

  • 結(jié)合上文,不難分析出本文的問題是現(xiàn)有的壓縮算法無法很好地壓縮字符串,技術(shù)是FSST快速靜態(tài)符號表方案,場景是數(shù)據(jù)庫系統(tǒng)、信息檢索、網(wǎng)絡(luò)云存儲、文本分析等。

方法沒有好壞,只有相對優(yōu)缺點點;只有當方法的特性與應(yīng)用場合的特性不合時,才能下結(jié)論說這方法「不適用」;二當方法的特性與應(yīng)用場合的特性吻合時,則下結(jié)論說這方法「很適用」。因此,一定要同時有方法特性表與應(yīng)用場合特性分析表放在一起后,才能判斷一個方法的適用性。

  • 更有意義的是,這樣一個過程把突破瓶頸所需的創(chuàng)意簡化成了一種有跡可循的工作,把冷酷無情的科研演化成了輕松愉快的奮斗日記。

??想了解更多關(guān)于開源的內(nèi)容,請訪問:??

??51CTO 開源基礎(chǔ)軟件社區(qū)??

??https://ost.51cto.com??。

文章相關(guān)附件可以點擊下面的原文鏈接前往下載:

??https://ost.51cto.com/resource/2243??。

??想了解更多關(guān)于開源的內(nèi)容,請訪問:??

??51CTO 開源基礎(chǔ)軟件社區(qū)??

??https://ost.51cto.com??。

責任編輯:jianghua 來源: 鴻蒙社區(qū)
相關(guān)推薦

2022-08-22 17:36:13

啃論文方法啃論文俱樂部

2023-03-28 15:40:00

開發(fā)開源

2022-09-19 14:25:35

JSON壓縮算法

2022-04-20 20:37:58

鴻蒙操作系統(tǒng)

2022-10-18 16:14:28

2013-12-25 09:50:27

華為馬悅企業(yè)業(yè)務(wù)

2022-06-27 08:47:29

BEM修飾符元素

2022-05-13 23:03:25

大數(shù)據(jù)Big Data巨量資料

2022-05-13 22:44:35

物聯(lián)網(wǎng)算法鴻蒙

2022-04-07 15:03:07

Harmony計算機鴻蒙

2022-06-27 14:01:31

LZ4 分析數(shù)據(jù)密集型壓縮算法

2022-09-13 16:10:15

鴻蒙操作系統(tǒng)

2022-09-07 15:08:58

操作系統(tǒng)鴻蒙

2022-05-12 15:05:32

云計算數(shù)據(jù)壓縮

2022-06-08 16:29:45

無損壓縮方案分布式

2022-09-16 15:01:37

操作系統(tǒng)技術(shù)鴻蒙

2022-09-06 15:46:52

speexdsp鴻蒙

2009-08-14 10:27:24

校園網(wǎng)絡(luò)管理 網(wǎng)絡(luò)安全網(wǎng)絡(luò)安全網(wǎng)絡(luò)成本

2022-03-28 15:09:17

無線傳感器網(wǎng)絡(luò)Harmony鴻蒙

2022-06-08 11:46:29

字符串鴻蒙
點贊
收藏

51CTO技術(shù)棧公眾號