自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Go項(xiàng)目實(shí)戰(zhàn):一步步構(gòu)建一個(gè)并發(fā)文件下載器

開發(fā) 前端
今天為大家?guī)硪粋€(gè)實(shí)戰(zhàn)項(xiàng)目。建議你一定要?jiǎng)邮謱?shí)踐。在往下看之前,你不妨思考下,用 Go 如何實(shí)現(xiàn)一個(gè)并發(fā)下載器。

 [[409290]]

大家好,我是 polarisxu。

今天為大家?guī)硪粋€(gè)實(shí)戰(zhàn)項(xiàng)目。建議你一定要?jiǎng)邮謱?shí)踐。

在往下看之前,你不妨思考下,用 Go 如何實(shí)現(xiàn)一個(gè)并發(fā)下載器。

01 原理

對(duì)于服務(wù)器上的某個(gè)文件,我們要并發(fā)下載到本地,很容易想到,應(yīng)該將文件分成多個(gè)部分,然后開多個(gè) goroutine 并發(fā)地去下載,最后將這多個(gè)部分合并成一個(gè)文件,實(shí)現(xiàn)并發(fā)下載的目的。

現(xiàn)在的問題是,服務(wù)器上的一個(gè)文件,我們怎么做到分成多個(gè)呢?

這需要 HTTP 協(xié)議相關(guān)知識(shí)了。

HTTP 協(xié)議有一個(gè)響應(yīng)頭:Accept-Ranges,服務(wù)器通過該頭來標(biāo)識(shí)自身支持部分請(qǐng)求(partial requests),也叫范圍請(qǐng)求。如果服務(wù)端支持部分請(qǐng)求,我們就可以實(shí)現(xiàn)并發(fā)下載。該頭有兩個(gè)可能的值:

  1. Accept-Ranges: bytes 
  2. Accept-Ranges: none 
  • none:不支持任何部分請(qǐng)求單位,由于其等同于沒有返回此頭部,因此很少使用。不過一些瀏覽器,比如 IE9,會(huì)依據(jù)該頭部去禁用或者移除下載管理器的暫停按鈕。
  • bytes:部分請(qǐng)求的單位是 bytes (字節(jié))。

所以,我們在并發(fā)下載之前,應(yīng)該先發(fā)起一個(gè) Head 請(qǐng)求,來確認(rèn)服務(wù)端是否支持部分請(qǐng)求。比如:

  1. resp, err := http.Head("https://studygolang.com/dl/golang/go1.16.5.src.tar.gz"
  2. if err != nil { 
  3.   return err 
  4.  
  5. if resp.StatusCode == http.StatusOK && resp.Header.Get("Accept-Ranges") == "bytes" { 
  6.   // 支持部分請(qǐng)求 

確認(rèn)了服務(wù)器支持部分請(qǐng)求,接下來就是如何進(jìn)行部分請(qǐng)求。

這就用到 HTTP 的一個(gè)請(qǐng)求頭部:Range。(詳情參考: https://developer.mozilla.org/zh-CN/docs/Web/HTTP/Headers/Range )

Range 告知服務(wù)器返回文件的哪一部分。在一個(gè) Range 頭部中,可以一次性請(qǐng)求多個(gè)部分,服務(wù)器會(huì)以 multipart 文件的形式將其返回。如果服務(wù)器返回的是范圍響應(yīng),需要使用 206 Partial Content 狀態(tài)碼。假如所請(qǐng)求的范圍不合法,那么服務(wù)器會(huì)返回 416 Range Not Satisfiable 狀態(tài)碼,表示客戶端錯(cuò)誤。服務(wù)器允許忽略 Range 首部,從而返回整個(gè)文件,狀態(tài)碼用 200。

具體語法:

  1. Range: <unit>=<range-start>- 
  2. Range: <unit>=<range-start>-<range-end> 
  3. Range: <unit>=<range-start>-<range-end>, <range-start>-<range-end> 
  4. Range: <unit>=<range-start>-<range-end>, <range-start>-<range-end>, <range-start>-<range-end> 
  • <unit>

    范圍所采用的單位,通常是字節(jié)(bytes)。

  • <range-start>

    一個(gè)整數(shù),表示在特定單位下,范圍的起始值。

  • <range-end>

    一個(gè)整數(shù),表示在特定單位下,范圍的結(jié)束值。這個(gè)值是可選的,如果不存在,表示此范圍一直延伸到文檔結(jié)束。

例如:

  1. Range: bytes=200-10002000-657619000

掌握了以上知識(shí)點(diǎn),最后要做的就是將下載下來的各個(gè)部分合并成一個(gè)文件。需要注意各個(gè)部分的順序,比如根據(jù)順序,按 1、2、3 等編號(hào)。

02 動(dòng)手實(shí)現(xiàn)一個(gè)

知道了原理不代表你真的就會(huì)了,我們應(yīng)該實(shí)際動(dòng)手實(shí)現(xiàn)一個(gè),加深理解。

在本地某個(gè)目錄下創(chuàng)建目錄:downloader。

  1. $ mkdir downloader 
  2. $ cd downloader 
  3. $ go mod init github.com/polaris1119/downloader 

命令行參數(shù)控制

為了讓工具更好用,我們應(yīng)該支持命令行參數(shù),而不是代碼寫死一個(gè),比如要下載的 URL、并發(fā)數(shù)、輸出的文件名等。關(guān)于命令行參數(shù)控制,除了使用標(biāo)準(zhǔn)庫 flag,我比較喜歡 github.com/urfave/cli,最新版本 v2。

創(chuàng)建一個(gè)文件 main.go,內(nèi)容如下:

  1. package main 
  2.  
  3. import ( 
  4.     "log" 
  5.     "os" 
  6.     "runtime" 
  7.  
  8.     "github.com/urfave/cli/v2" 
  9.  
  10. func main() { 
  11.   // 默認(rèn)并發(fā)數(shù) 
  12.     concurrencyN := runtime.NumCPU() 
  13.  
  14.     app := &cli.App{ 
  15.         Name:  "downloader"
  16.         Usage: "File concurrency downloader"
  17.         Flags: []cli.Flag{ 
  18.             &cli.StringFlag{ 
  19.                 Name:     "url"
  20.                 Aliases:  []string{"u"}, 
  21.                 Usage:    "`URL` to download"
  22.                 Required: true
  23.             }, 
  24.             &cli.StringFlag{ 
  25.                 Name:    "output"
  26.                 Aliases: []string{"o"}, 
  27.                 Usage:   "Output `filename`"
  28.             }, 
  29.             &cli.IntFlag{ 
  30.                 Name:    "concurrency"
  31.                 Aliases: []string{"n"}, 
  32.                 Value:   concurrencyN, 
  33.                 Usage:   "Concurrency `number`"
  34.             }, 
  35.         }, 
  36.         Action: func(c *cli.Context) error { 
  37.       return nil 
  38.         }, 
  39.     } 
  40.  
  41.     err := app.Run(os.Args) 
  42.     if err != nil { 
  43.         log.Fatal(err) 
  44.     } 

執(zhí)行 go mod tidy,下載必要的包。然后執(zhí)行:

  1. $ go run main.go -h 
  2. NAME: 
  3.    downloader - File concurrency downloader 
  4.  
  5. USAGE: 
  6.    downloader [global options] command [command options] [arguments...] 
  7.  
  8. COMMANDS: 
  9.    help, h  Shows a list of commands or help for one command 
  10.  
  11. GLOBAL OPTIONS: 
  12.    --url URL, -u URL                URL to download 
  13.    --output filename, -o filename   Output filename 
  14.    --concurrency number, -n number  Concurrency number (default8
  15.    --help, -h                       show help (defaultfalse

關(guān)于 cli 這個(gè)庫的使用,可以參閱官方文檔,寫的很詳細(xì),也有很多例子。

檢查是否支持并發(fā)下載

創(chuàng)建另外一個(gè)文件 downloader.go,定義一個(gè)結(jié)構(gòu)體 Dowloader:

  1. package main 
  2.  
  3. type Downloader struct { 
  4.     concurrency int 
  5.  
  6. func NewDownloader(concurrency int) *Downloader { 
  7.     return &Downloader{concurrency: concurrency} 

為該結(jié)構(gòu)體增加 Download 方法:

  1. func (d *Downloader) Download(strURL, filename string) error { 
  2.     if filename == "" { 
  3.         filename = path.Base(strURL) 
  4.     } 
  5.  
  6.     resp, err := http.Head(strURL) 
  7.     if err != nil { 
  8.         return err 
  9.     } 
  10.  
  11.     if resp.StatusCode == http.StatusOK && resp.Header.Get("Accept-Ranges") == "bytes" { 
  12.         return d.multiDownload(strURL, filename, int(resp.ContentLength)) 
  13.     } 
  14.  
  15.     return d.singleDownload(strURL, filename) 
  16.  
  17. func (d *Downloader) multiDownload(strURL, filename string, contentLen int) error { 
  18.     return nil 
  19.  
  20. func (d *Downloader) singleDownload(strURL, filename string) error { 
  21.   return nil 
  • 通過 Head 請(qǐng)求,判斷是否支持部分請(qǐng)求。在原理部分已經(jīng)講解;
  • 如果不支持,就直接下載整個(gè)文件;

當(dāng)支持部分請(qǐng)求時(shí),文件總大小通過 Head 請(qǐng)求的響應(yīng)中的 ContentLength 可以獲得。有了文件總大小和并發(fā)數(shù),就可以知道每個(gè)部分的大小了。

并發(fā)下載

這部分第一個(gè)要點(diǎn)是如何發(fā)起部分請(qǐng)求:

  1. req, err := http.NewRequest("GET""https://apache.claz.org/zookeeper/zookeeper-3.7.0/apache-zookeeper-3.7.0-bin.tar.gz", nil) 
  2. if err != nil { 
  3.     return err 
  4. rangeStart := 2000 
  5. rangeStop := 3000 
  6. req.Header.Set("Range", fmt.Sprintf("bytes=%d-%d", rangeStart, rangeStop)) 
  7.  
  8. res, err := http.DefaultClient.Do(req) 

我們可以將其封裝成一個(gè)方法:

  1. func (d *Downloader) downloadPartial(strURL, filename string, rangeStart, rangeEnd, i int) { 
  2.     if rangeStart >= rangeEnd { 
  3.         return 
  4.     } 
  5.  
  6.     req, err := http.NewRequest("GET", strURL, nil) 
  7.     if err != nil { 
  8.         log.Fatal(err) 
  9.     } 
  10.  
  11.     req.Header.Set("Range", fmt.Sprintf("bytes=%d-%d", rangeStart, rangeEnd)) 
  12.     resp, err := http.DefaultClient.Do(req) 
  13.     if err != nil { 
  14.         log.Fatal(err) 
  15.     } 
  16.     defer resp.Body.Close() 
  17.  
  18.     flags := os.O_CREATE | os.O_WRONLY 
  19.     partFile, err := os.OpenFile(d.getPartFilename(filename, i), flags, 0666
  20.     if err != nil { 
  21.         log.Fatal(err) 
  22.     } 
  23.     defer partFile.Close() 
  24.  
  25.     buf := make([]byte32*1024
  26.     _, err = io.CopyBuffer(partFile, resp.Body, buf) 
  27.     if err != nil { 
  28.         if err == io.EOF { 
  29.             return 
  30.         } 
  31.         log.Fatal(err) 
  32.     } 
  33.  
  34. // getPartDir 部分文件存放的目錄 
  35. func (d *Downloader) getPartDir(filename string) string { 
  36.     return strings.SplitN(filename, "."2)[0
  37.  
  38. // getPartFilename 構(gòu)造部分文件的名字 
  39. func (d *Downloader) getPartFilename(filename string, partNum int) string { 
  40.     partDir := d.getPartDir(filename) 
  41.     return fmt.Sprintf("%s/%s-%d", partDir, filename, partNum) 
  • 通過發(fā)起 Range 請(qǐng)求后,將請(qǐng)求的內(nèi)容寫入本地文件中;
  • 為了方便后續(xù)合并,文件名加上了序號(hào),這就是 downloadPartial 最后一個(gè)參數(shù)的作用;
  • rangeStart 和 rangeEnd 分別表示 Range 的開始和結(jié)束;

然后就是 multiDownload 方法中怎么分部分,這和并發(fā)請(qǐng)求多個(gè) URL 很類似,使用 sync.WaitGroup 進(jìn)行控制:

  1. func (d *Downloader) multiDownload(strURL, filename string, contentLen int) error { 
  2.     partSize := contentLen / d.concurrency 
  3.  
  4.   // 創(chuàng)建部分文件的存放目錄 
  5.     partDir := d.getPartDir(filename) 
  6.     os.Mkdir(partDir, 0777
  7.     defer os.RemoveAll(partDir) 
  8.  
  9.     var wg sync.WaitGroup 
  10.     wg.Add(d.concurrency) 
  11.  
  12.     rangeStart := 0 
  13.  
  14.     for i := 0; i < d.concurrency; i++ { 
  15.     // 并發(fā)請(qǐng)求 
  16.         go func(i, rangeStart int) { 
  17.             defer wg.Done() 
  18.  
  19.             rangeEnd := rangeStart + partSize 
  20.       // 最后一部分,總長度不能超過 ContentLength 
  21.             if i == d.concurrency-1 { 
  22.                 rangeEnd = contentLen 
  23.             } 
  24.  
  25.             d.downloadPartial(strURL, filename, rangeStart, rangeEnd, i) 
  26.  
  27.         }(i, rangeStart) 
  28.  
  29.         rangeStart += partSize + 1 
  30.     } 
  31.  
  32.     wg.Wait() 
  33.    
  34.   // 合并文件 
  35.     d.merge(filename) 
  36.  
  37.     return nil 
  38.  
  39. func (d *Downloader) merge(filename string) error { 
  40.     return nil 
  • 計(jì)算出每個(gè)部分的大??;
  • 通過 sync.WaitGroup 協(xié)調(diào)并發(fā)請(qǐng)求;
  • 注意每個(gè)部分的 rangeStart 和 rangeEnd 的計(jì)算規(guī)則,特別注意最后一部分;
  • 所有部分都請(qǐng)求完成后,需要進(jìn)行合并;

因?yàn)榘衙坎糠謫为?dú)保存為文件了,所以合并只需要按照順序處理這些文件即可:

  1. func (d *Downloader) merge(filename string) error { 
  2.     destFile, err := os.OpenFile(filename, os.O_CREATE|os.O_WRONLY, 0666
  3.     if err != nil { 
  4.         return err 
  5.     } 
  6.     defer destFile.Close() 
  7.  
  8.     for i := 0; i < d.concurrency; i++ { 
  9.         partFileName := d.getPartFilename(filename, i) 
  10.         partFile, err := os.Open(partFileName) 
  11.         if err != nil { 
  12.             return err 
  13.         } 
  14.         io.Copy(destFile, partFile) 
  15.         partFile.Close() 
  16.         os.Remove(partFileName) 
  17.     } 
  18.  
  19.     return nil 

連接程序

到這里,程序的核心部分已經(jīng)完成。接下來該在 main.go 中的 Action 作如下處理:

  1. Action: func(c *cli.Context) error { 
  2.   strURL := c.String("url"
  3.   filename := c.String("output"
  4.   concurrency := c.Int("concurrency"
  5.   return NewDownloader(concurrency).Download(strURL, filename) 
  6. }, 

到這里可以運(yùn)行測試下:

  1. go run . --url https://apache.claz.org/zookeeper/zookeeper-3.7.0/apache-zookeeper-3.7.0-bin.tar.gz 

不出意外的話文件會(huì)下載成功。

03 總結(jié)

實(shí)現(xiàn)了基本功能,讀者朋友們可以進(jìn)一步做優(yōu)化、完善。比如:

  • 看到下載過程,體驗(yàn)更友好,可以加入 github.com/schollz/progressbar 庫;
  • 可以暫停下載,然后繼續(xù)下載。即端點(diǎn)續(xù)傳;
  • 不支持并發(fā)下載的,支持單個(gè)下載,即完成 singleDownload 方法;

類似下面這樣:

這個(gè)實(shí)現(xiàn)的完整代碼我放在了 GitHub: https://github.com/polaris1119/downloader 。

還有兩點(diǎn)大家可以注意下:

  • 并發(fā)下載并不一定總是比簡單下載快,一般文件越大,并發(fā)下載的優(yōu)勢才能體現(xiàn)。不過,并發(fā)下載可以端點(diǎn)續(xù)傳;
  • 并發(fā)下載可以進(jìn)一步優(yōu)化,畢竟寫文件,再打開文件合并,是需要時(shí)間的;

最后,再提醒一次,記得自己動(dòng)手實(shí)現(xiàn)一個(gè)哦。

 

責(zé)任編輯:張燕妮 來源: polarisxu.studygolang.com
相關(guān)推薦

2017-01-19 21:08:33

iOS路由構(gòu)建

2021-09-03 12:33:36

語言并發(fā)下載器

2019-04-01 10:15:02

2019-03-05 14:09:27

Docker存儲(chǔ)容器

2019-07-09 15:23:22

Docker存儲(chǔ)驅(qū)動(dòng)

2018-12-24 10:04:06

Docker存儲(chǔ)驅(qū)動(dòng)

2010-03-04 16:28:17

Android核心代碼

2016-11-02 18:54:01

javascript

2017-12-25 11:50:57

LinuxArch Linux

2010-08-10 11:31:36

路由器配置NAT

2013-11-12 09:50:34

Ubuntu 13.1服務(wù)器版

2011-05-10 10:28:55

2024-08-30 08:30:29

CPU操作系統(tǒng)寄存器

2024-09-30 09:56:59

2010-04-07 13:05:57

2024-10-30 16:01:31

2011-09-05 12:36:08

路由器限速linux路由器

2009-11-17 08:42:57

2018-07-13 15:36:52

2020-12-24 11:19:55

JavaMapHashMap
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)