自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tr id="py4tk"><td id="py4tk"></td></tr>

<sub id="py4tk"><p id="py4tk"><li id="py4tk"></li></p></sub>

<abbr id="py4tk"></abbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

PHP爬蟲：百萬級別知乎用戶數(shù)據(jù)爬取與分析

2016-01-22 12:20:11

開發(fā) 后端

程序不能完全保證在fork進程之前，父進程不會創(chuàng)建redis連接實例。因此，要解決這個問題只能靠子進程本身了。試想一下，如果在子進程中獲取的實例只與當(dāng)前進程相關(guān)，那么這個問題就不存在了。于是解決方案就是稍微改造一下redis類實例化的靜態(tài)方式，與當(dāng)前進程ID綁定起來。

這次抓取了110萬的用戶數(shù)據(jù)，數(shù)據(jù)分析結(jié)果如下：

開發(fā)前的準(zhǔn)備

安裝Linux系統(tǒng)（Ubuntu14.04），在VMWare虛擬機下安裝一個Ubuntu；

安裝PHP5.6或以上版本；

安裝MySQL5.5或以上版本；

安裝curl、pcntl擴展。

使用PHP的curl擴展抓取頁面數(shù)據(jù)

PHP的curl擴展是PHP支持的允許你與各種服務(wù)器使用各種類型的協(xié)議進行連接和通信的庫。

本程序是抓取知乎的用戶數(shù)據(jù)，要能訪問用戶個人頁面，需要用戶登錄后的才能訪問。當(dāng)我們在瀏覽器的頁面中點擊一個用戶頭像鏈接進入用戶個人中心頁面的時候，之所以能夠看到用戶的信息，是因為在點擊鏈接的時候，瀏覽器幫你將本地的cookie帶上一齊提交到新的頁面，所以你就能進入到用戶的個人中心頁面。因此實現(xiàn)訪問個人頁面之前需要先獲得用戶的cookie信息，然后在每次curl請求的時候帶上cookie信息。在獲取cookie信息方面，我是用了自己的cookie，在頁面中可以看到自己的cookie信息：

一個個地復(fù)制，以”__utma=?;__utmb=?;”這樣的形式組成一個cookie字符串。接下來就可以使用該cookie字符串來發(fā)送請求。

初始的示例：

$url = 'http://www.zhihu.com/people/mora-hu/about'; //此處mora-hu代表用戶ID 
$ch = curl_init($url); //初始化會話 
curl_setopt($ch, CURLOPT_HEADER, 0); 
curl_setopt($ch, CURLOPT_COOKIE, $this->config_arr['user_cookie']);  //設(shè)置請求COOKIE 
curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);  //將curl_exec()獲取的信息以文件流的形式返回，而不是直接輸出。 
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);  
$result = curl_exec($ch); 
return $result;  //抓取的結(jié)果

運行上面的代碼可以獲得mora-hu用戶的個人中心頁面。利用該結(jié)果再使用正則表達式對頁面進行處理，就能獲取到姓名，性別等所需要抓取的信息。

圖片防盜鏈

在對返回結(jié)果進行正則處理后輸出個人信息的時候，發(fā)現(xiàn)在頁面中輸出用戶頭像時無法打開。經(jīng)過查閱資料得知，是因為知乎對圖片做了防盜鏈處理。解決方案就是請求圖片的時候在請求頭里偽造一個referer。

在使用正則表達式獲取到圖片的鏈接之后，再發(fā)一次請求，這時候帶上圖片請求的來源，說明該請求來自知乎網(wǎng)站的轉(zhuǎn)發(fā)。具體例子如下：

function getImg($url, $u_id) 
{ 
    if (file_exists('./images/' . $u_id . ".jpg")) 
    { 
        return "images/$u_id" . '.jpg'; 
    } 
    if (empty($url)) 
    { 
        return ''; 
    } 
    $context_options = array(  
        'http' =>  
        array( 
            'header' => "Referer:http://www.zhihu.com"//帶上referer參數(shù) 
    　　) 
　　); 
 
    $context = stream_context_create($context_options);  
    $img = file_get_contents('http:' . $url, FALSE, $context); 
    file_put_contents('./images/' . $u_id . ".jpg", $img); 
    return "images/$u_id" . '.jpg'; 
}

爬取更多用戶

抓取了自己的個人信息后，就需要再訪問用戶的關(guān)注者和關(guān)注了的用戶列表獲取更多的用戶信息。然后一層一層地訪問?？梢钥吹?，在個人中心頁面里，有兩個鏈接如下：

這里有兩個鏈接，一個是關(guān)注了，另一個是關(guān)注者，以“關(guān)注了”的鏈接為例。用正則匹配去匹配到相應(yīng)的鏈接，得到url之后用curl帶上cookie再發(fā)一次請求。抓取到用戶關(guān)注了的用于列表頁之后，可以得到下面的頁面：

分析頁面的html結(jié)構(gòu)，因為只要得到用戶的信息，所以只需要框住的這一塊的div內(nèi)容，用戶名都在這里面。可以看到，用戶關(guān)注了的頁面的url是：

不同的用戶的這個url幾乎是一樣的，不同的地方就在于用戶名那里。用正則匹配拿到用戶名列表，一個一個地拼url，然后再逐個發(fā)請求（當(dāng)然，一個一個是比較慢的，下面有解決方案，這個稍后會說到）。進入到新用戶的頁面之后，再重復(fù)上面的步驟，就這樣不斷循環(huán)，直到達到你所要的數(shù)據(jù)量。

Linux統(tǒng)計文件數(shù)量

腳本跑了一段時間后，需要看看究竟獲取了多少圖片，當(dāng)數(shù)據(jù)量比較大的時候，打開文件夾查看圖片數(shù)量就有點慢。腳本是在Linux環(huán)境下運行的，因此可以使用Linux的命令來統(tǒng)計文件數(shù)量：

ls -l | grep "^-" | wc -l

其中， ls -l 是長列表輸出該目錄下的文件信息（這里的文件可以是目錄、鏈接、設(shè)備文件等）； grep "^-" 過濾長列表輸出信息， "^-" 只保留一般文件，如果只保留目錄是 "^d" ； wc -l 是統(tǒng)計輸出信息的行數(shù)。下面是一個運行示例：

插入MySQL時重復(fù)數(shù)據(jù)的處理

程序運行了一段時間后，發(fā)現(xiàn)有很多用戶的數(shù)據(jù)是重復(fù)的，因此需要在插入重復(fù)用戶數(shù)據(jù)的時候做處理。處理方案如下：

1）插入數(shù)據(jù)庫之前檢查數(shù)據(jù)是否已經(jīng)存在數(shù)據(jù)庫；

2）添加唯一索引，插入時使用 INSERT INTO ... ON DUPLICATE KEY UPDATE...

3）添加唯一索引，插入時使用 INSERT INGNORE INTO...

4）添加唯一索引，插入時使用 REPLACE INTO...

第一種方案是最簡單但也是效率最差的方案，因此不采取。二和四方案的執(zhí)行結(jié)果是一樣的，不同的是，在遇到相同的數(shù)據(jù)時， INSERT INTO … ON DUPLICATE KEY UPDATE 是直接更新的，而 REPLACE INTO 是先刪除舊的數(shù)據(jù)然后插入新的，在這個過程中，還需要重新維護索引，所以速度慢。所以在二和四兩者間選擇了第二種方案。而第三種方案， INSERT INGNORE 會忽略執(zhí)行INSERT語句出現(xiàn)的錯誤，不會忽略語法問題，但是忽略主鍵存在的情況。這樣一來，使用 INSERT INGNORE 就更好了。最終，考慮到要在數(shù)據(jù)庫中記錄重復(fù)數(shù)據(jù)的條數(shù)，因此在程序中采用了第二種方案。

使用curl_multi實現(xiàn)多線程抓取頁面

剛開始單進程而且單個curl去抓取數(shù)據(jù)，速度很慢，掛機爬了一個晚上只能抓到2W的數(shù)據(jù)，于是便想到能不能在進入新的用戶頁面發(fā)curl請求的時候一次性請求多個用戶，后來發(fā)現(xiàn)了curl_multi這個好東西。curl_multi這類函數(shù)可以實現(xiàn)同時請求多個url，而不是一個個請求，這類似于linux系統(tǒng)中一個進程開多條線程執(zhí)行的功能。下面是使用curl_multi實現(xiàn)多線程爬蟲的示例：

$mh = curl_multi_init(); //返回一個新cURL批處理句柄 
for ($i = 0; $i < $max_size; $i++) 
{ 
    $ch = curl_init();  //初始化單個cURL會話 
    curl_setopt($ch, CURLOPT_HEADER, 0); 
    curl_setopt($ch, CURLOPT_URL, 'http://www.zhihu.com/people/' . $user_list[$i] . '/about'); 
    curl_setopt($ch, CURLOPT_COOKIE, self::$user_cookie); 
    curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.130 Safari/537.36'); 
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); 
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); 
    $requestMap[$i] = $ch; 
    curl_multi_add_handle($mh, $ch);  //向curl批處理會話中添加單獨的curl句柄 
} 
 
$user_arr = array(); 
do { 
                //運行當(dāng)前 cURL 句柄的子連接 
    while (($cme = curl_multi_exec($mh, $active)) == CURLM_CALL_MULTI_PERFORM); 
 
    if ($cme != CURLM_OK) {break;} 
                //獲取當(dāng)前解析的cURL的相關(guān)傳輸信息 
    while ($done = curl_multi_info_read($mh)) 
    { 
        $info = curl_getinfo($done['handle']); 
        $tmp_result = curl_multi_getcontent($done['handle']); 
        $error = curl_error($done['handle']); 
 
        $user_arr[] = array_values(getUserInfo($tmp_result)); 
 
        //保證同時有$max_size個請求在處理 
        if ($i < sizeof($user_list) && isset($user_list[$i]) && $i < count($user_list)) 
        { 
            $ch = curl_init(); 
            curl_setopt($ch, CURLOPT_HEADER, 0); 
            curl_setopt($ch, CURLOPT_URL, 'http://www.zhihu.com/people/' . $user_list[$i] . '/about'); 
            curl_setopt($ch, CURLOPT_COOKIE, self::$user_cookie); 
            curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.130 Safari/537.36'); 
            curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); 
            curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); 
            $requestMap[$i] = $ch; 
            curl_multi_add_handle($mh, $ch); 
 
            $i++; 
        } 
 
        curl_multi_remove_handle($mh, $done['handle']); 
    } 
 
    if ($active) 
        curl_multi_select($mh, 10); 
} while ($active); 
 
curl_multi_close($mh); 
return $user_arr;

HTTP 429 Too Many Requests

使用curl_multi函數(shù)可以同時發(fā)多個請求，但是在執(zhí)行過程中使同時發(fā)200個請求的時候，發(fā)現(xiàn)很多請求無法返回了，即發(fā)現(xiàn)了丟包的情況。進一步分析，使用 curl_getinfo 函數(shù)打印每個請求句柄信息，該函數(shù)返回一個包含HTTP response信息的關(guān)聯(lián)數(shù)組，其中有一個字段是http_code，表示請求返回的HTTP狀態(tài)碼?？吹接泻芏鄠€請求的http_code都是 429，這個返回碼的意思是發(fā)送太多請求了。我猜是知乎做了防爬蟲的防護，于是我就拿其他的網(wǎng)站來做測試，發(fā)現(xiàn)一次性發(fā)200個請求時沒問題的，證明了我的猜測，知乎在這方面做了防護，即一次性的請求數(shù)量是有限制的。于是我不斷地減少請求數(shù)量，發(fā)現(xiàn)在5的時候就沒有丟包情況了。說明在這個程序里一次性最多只能發(fā)5個請求，雖然不多，但這也是一次小提升了。

使用Redis保存已經(jīng)訪問過的用戶

抓取用戶的過程中，發(fā)現(xiàn)有些用戶是已經(jīng)訪問過的，而且他的關(guān)注者和關(guān)注了的用戶都已經(jīng)獲取過了，雖然在數(shù)據(jù)庫的層面做了重復(fù)數(shù)據(jù)的處理，但是程序還是會使用curl發(fā)請求，這樣重復(fù)的發(fā)送請求就有很多重復(fù)的網(wǎng)絡(luò)開銷。還有一個就是待抓取的用戶需要暫時保存在一個地方以便下一次執(zhí)行，剛開始是放到數(shù)組里面，后來發(fā)現(xiàn)要在程序里添加多進程，在多進程編程里，子進程會共享程序代碼、函數(shù)庫，但是進程使用的變量與其他進程所使用的截然不同。不同進程之間的變量是分離的，不能被其他進程讀取，所以是不能使用數(shù)組的。因此就想到了使用Redis緩存來保存已經(jīng)處理好的用戶以及待抓取的用戶。這樣每次執(zhí)行完的時候都把用戶push到一個already_request_queue隊列中，把待抓取的用戶（即每個用戶的關(guān)注者和關(guān)注了的用戶列表）push到 request_queue里面，然后每次執(zhí)行前都從request_queue里pop一個用戶，然后判斷是否在 already_request_queue里面，如果在，則進行下一個，否則就繼續(xù)執(zhí)行。

在PHP中使用redis示例：

<php 
    $redis = new Redis(); 
    $redis->connect('127.0.0.1', '6379'); 
    $redis->set('tmp', 'value'); 
    if ($redis->exists('tmp')) 
    { 
        echo $redis->get('tmp') . "\n"; 
    }

使用PHP的pcntl擴展實現(xiàn)多進程

改用了curl_multi函數(shù)實現(xiàn)多線程抓取用戶信息之后，程序運行了一個晚上，最終得到的數(shù)據(jù)有10W。還不能達到自己的理想目標(biāo)，于是便繼續(xù)優(yōu)化，后來發(fā)現(xiàn)php里面有一個pcntl擴展可以實現(xiàn)多進程編程。下面是多編程編程的示例：

//PHP多進程demo 
//fork10個進程 
for ($i = 0; $i < 10; $i++) { 
    $pid = pcntl_fork(); 
    if ($pid == -1) { 
        echo "Could not fork!\n"; 
        exit(1); 
    } 
    if (!$pid) { 
        echo "child process $i running\n"; 
        //子進程執(zhí)行完畢之后就退出，以免繼續(xù)fork出新的子進程 
        exit($i); 
    } 
} 
 
//等待子進程執(zhí)行完畢，避免出現(xiàn)僵尸進程 
while (pcntl_waitpid(0, $status) != -1) { 
    $status = pcntl_wexitstatus($status); 
    echo "Child $status completed\n"; 
}

在Linux下查看系統(tǒng)的cpu信息

實現(xiàn)了多進程編程之后，就想著多開幾條進程不斷地抓取用戶的數(shù)據(jù)，后來開了8調(diào)進程跑了一個晚上后發(fā)現(xiàn)只能拿到20W的數(shù)據(jù)，沒有多大的提升。于是查閱資料發(fā)現(xiàn)，根據(jù)系統(tǒng)優(yōu)化的CPU性能調(diào)優(yōu)，程序的最大進程數(shù)不能隨便給的，要根據(jù)CPU的核數(shù)和來給，最大進程數(shù)最好是cpu核數(shù)的2倍。因此需要查看cpu的信息來看看cpu的核數(shù)。在Linux下查看cpu的信息的命令：

cat /proc/cpuinfo

結(jié)果如下：

其中，model name表示cpu類型信息，cpu cores表示cpu核數(shù)。這里的核數(shù)是1，因為是在虛擬機下運行，分配到的cpu核數(shù)比較少，因此只能開2條進程。最終的結(jié)果是，用了一個周末就抓取了110萬的用戶數(shù)據(jù)。

多進程編程中Redis和MySQL連接問題

在多進程條件下，程序運行了一段時間后，發(fā)現(xiàn)數(shù)據(jù)不能插入到數(shù)據(jù)庫，會報mysql too many connections的錯誤，redis也是如此。

下面這段代碼會執(zhí)行失?。?/strong>

<php
     for ($i = 0; $i < 10; $i++) {
          $pid = pcntl_fork();
          if ($pid == -1) {
               echo "Could not fork!\n";
               exit(1);
          }
          if (!$pid) {
               $redis = PRedis::getInstance();
               // do something
               exit;
          }
     }

根本原因是在各個子進程創(chuàng)建時，就已經(jīng)繼承了父進程一份完全一樣的拷貝。對象可以拷貝，但是已創(chuàng)建的連接不能被拷貝成多個，由此產(chǎn)生的結(jié)果，就是各個進程都使用同一個redis連接，各干各的事，最終產(chǎn)生莫名其妙的沖突。

解決方法： >程序不能完全保證在fork進程之前，父進程不會創(chuàng)建redis連接實例。因此，要解決這個問題只能靠子進程本身了。試想一下，如果在子進程中獲取的實例只與當(dāng)前進程相關(guān)，那么這個問題就不存在了。于是解決方案就是稍微改造一下redis類實例化的靜態(tài)方式，與當(dāng)前進程ID綁定起來。

改造后的代碼如下：

<php
     public static function getInstance() {
          static $instances = array();
          $key = getmypid();//獲取當(dāng)前進程ID
          if ($empty($instances[$key])) {
               $inctances[$key] = new self();
          }

          return $instances[$key];
     }

PHP統(tǒng)計腳本執(zhí)行時間

因為想知道每個進程花費的時間是多少，因此寫個函數(shù)統(tǒng)計腳本執(zhí)行時間：

function microtime_float()
{
     list($u_sec, $sec) = explode(' ', microtime());
     return (floatval($u_sec) + floatval($sec));
}

$start_time = microtime_float();

//do something
usleep(100);

$end_time = microtime_float();
$total_time = $end_time - $start_time;

$time_cost = sprintf("%.10f", $total_time);

echo "program cost total " . $time_cost . "s\n";

若文中有不正確的地方，望各位指出以便改正。

代碼托管地址：https://github.com/HectorHu/zhihuSpider

責(zé)任編輯：王雪燕來源： Hector

PHP 數(shù)據(jù)爬取分析

分享到微信

微信掃碼分享

分享到微博

相關(guān)推薦

用php做爬蟲百萬級別知乎用戶數(shù)據(jù)爬取與分析
這次抓取了110萬的用戶數(shù)據(jù)，數(shù)據(jù)分析結(jié)果如下：

2015-10-29 13:22:09

php 數(shù)據(jù)分析爬蟲

Python爬蟲爬取知乎小結(jié)
最近學(xué)習(xí)了一點網(wǎng)絡(luò)爬蟲，并實現(xiàn)了使用Python來爬取知乎的一些功能，這里做一個小的總結(jié)。網(wǎng)絡(luò)爬蟲是指通過一定的規(guī)則自動的從網(wǎng)上抓取一些信息的程序或腳本。我們知道機器學(xué)習(xí)和數(shù)據(jù)挖掘等都是從大量的數(shù)據(jù)出發(fā)，找到一些有價值有規(guī)律的東西，而爬蟲則可以幫助我們解決獲取數(shù)據(jù)難的問題，因此網(wǎng)絡(luò)爬蟲是我們應(yīng)該掌握的一個技巧。

2017-05-24 15:07:19

Python 爬蟲爬取

爬取知乎60萬用戶信息之后的數(shù)據(jù)分析
使用Java+Elasticsearch+Kibana爬取了知乎60萬用戶數(shù)據(jù)，做了簡單的可視化分析。

2016-12-22 17:01:11

PHP開發(fā)：使用PHP抓取百萬知乎用戶以及知識點札記
根本原因是在各個子進程創(chuàng)建時，就已經(jīng)繼承了父進程一份完全一樣的拷貝。對象可以拷貝，但是已創(chuàng)建的連接不能被拷貝成多個，由此產(chǎn)生的結(jié)果，就是各個進程都使用同一個redis連接，各干各的事，最終產(chǎn)生莫名其妙的沖突。

2015-09-28 11:01:41

PHP開發(fā)抓取知乎用戶

慘遭“開源”，數(shù)百萬Parler用戶數(shù)據(jù)全部泄露
上周日，特朗普的最后社交媒體陣地——美國社交應(yīng)用Parler也被亞馬遜、谷歌和蘋果公司“拒絕服務(wù)”，但本周一更加驚人的消息從reddit社區(qū)傳出，所有Parler用戶數(shù)據(jù)已經(jīng)公開暴露，任何人都可查詢。

2021-01-12 15:24:39

數(shù)據(jù)泄露網(wǎng)絡(luò)安全因素認(rèn)證

UDP：用戶數(shù)據(jù)報
UDP是一個簡單的面向數(shù)據(jù)報的運輸層協(xié)議：進程的每個輸出操作通常會產(chǎn)生一個UDP數(shù)據(jù)報，并組裝成一份待發(fā)送的IP數(shù)據(jù)報。

2015-01-05 09:56:41

UDP Linux TCP

OpenWRT論壇用戶數(shù)據(jù)泄露
OpenWRT是全球最流行的路由器開源操作系統(tǒng)，而OpenWRT論壇作為最大的OpenWRT愛好者團體，近日發(fā)生了數(shù)據(jù)泄露。

2021-01-20 23:40:27

數(shù)據(jù)泄露 OpenWRT 攻擊

木馬秘密搜集用戶數(shù)據(jù)
在以前的文章中，我們向大家介紹過很多病毒和木馬的內(nèi)容，本文我們向大家繼續(xù)介紹兩種木馬的內(nèi)容，供大家參閱。

2011-03-25 15:21:43

帶您了解并發(fā)用戶數(shù)需求分析
并發(fā)用戶數(shù)需求是整個用戶性能需求的重要方面，通常是針對具體的服務(wù)器和應(yīng)用系統(tǒng)，如域控制器、Web服務(wù)器、FTP服務(wù)器、Email服務(wù)器、數(shù)據(jù)庫系統(tǒng)、MIS管理系統(tǒng)、ERP系統(tǒng)等，并發(fā)用戶數(shù)支持的多少決定了相應(yīng)系統(tǒng)的可用性和可擴展性……

2009-11-25 11:28:00

并發(fā)用戶數(shù)

多用戶數(shù)據(jù)檢索：LangChain技術(shù)指南與案例分析
文章探討了如何確保不同用戶數(shù)據(jù)的隔離，并提供靈活的配置選項以適應(yīng)各種檢索需求。

2024-01-24 09:00:00

T-Mobile用戶數(shù)據(jù)泄露
2月30日，無線運營商TMobile發(fā)布公告稱，由于一起數(shù)據(jù)泄露安全事件暴露了客戶專有網(wǎng)絡(luò)信息(CPNI)，其中包括手機號和通話記錄。

2021-01-06 10:01:09

數(shù)據(jù)泄露漏洞信息安全

700萬推特用戶數(shù)據(jù)公開傳播，或有更大規(guī)模用戶數(shù)據(jù)泄露
目前還不清楚漏洞的泄露是否是HackerOne，但有安全研究人員稱有多個黑客利用該漏洞從推特竊取用戶隱私信息。

2022-12-01 12:14:09

保護用戶數(shù)據(jù)隱私只能“以暴制暴”
App采集用戶數(shù)據(jù)已經(jīng)是業(yè)內(nèi)默許的潛規(guī)則，這一次打破潛規(guī)則的顛覆者又是蘋果。iOS14.5新政要求在蘋果應(yīng)用商店上架的App都要明示通過何種方式采集了哪些用戶數(shù)據(jù)。

2021-05-11 11:05:58

蘋果 iOS 隱私

Okta 被曝泄露用戶數(shù)據(jù)
目前，Okta尚未透露攻擊的規(guī)模、事件發(fā)生的時間以及何時檢測到未經(jīng)授權(quán)的訪問。盡管如此，BeyondTrust和Cloudflare這兩家客戶已確認(rèn)在最新的支持系統(tǒng)攻擊中成為目標(biāo)。

2023-10-23 19:18:05

網(wǎng)易郵箱用戶數(shù)據(jù)泄露始末
長亭科技安全研究人員跟進調(diào)查發(fā)現(xiàn)這些數(shù)據(jù)可能在半年前已經(jīng)泄露，雖然泄露途徑暫不確定，但通過調(diào)查發(fā)現(xiàn)互聯(lián)網(wǎng)已泄露的數(shù)十億數(shù)據(jù)在已泄露的網(wǎng)易郵箱數(shù)據(jù)樣本中的覆蓋率非常低，泄露的數(shù)據(jù)只有極低的可能性是通過撞庫得到的。

2015-10-19 18:18:44

Python爬蟲入門練手案例，爬取某乎問答數(shù)
Python是個獲取數(shù)據(jù)的小能手，所以這次希望能用它在乎爬取一些的問題的回答數(shù)，練練手。

2020-08-06 08:43:49

Python 爬蟲數(shù)據(jù)

Python編寫知乎爬蟲實踐
在爬蟲系統(tǒng)中，待抓取URL隊列是很重要的一部分。待抓取URL隊列中的URL以什么樣的順序排列也是一個很重要的問題，因為這涉及到先抓取那個頁面，后抓取哪個頁面。而決定這些URL排列順序的方法，叫做抓取策略。下面重點介紹幾種常見的抓取策略。

2017-06-16 21:00:02

Python 爬蟲

黑客入侵 Tile 內(nèi)部工具，數(shù)百萬用戶數(shù)據(jù)或被泄露
據(jù)404Media報道，黑客利用竊取的一名前Tile公司員工的憑證進入了公司內(nèi)部工具，并訪問了多個Tile系統(tǒng)，以竊取敏感數(shù)據(jù)。

2024-06-17 16:46:41

現(xiàn)象級車輛App遭網(wǎng)絡(luò)攻擊，泄露數(shù)百萬用戶數(shù)據(jù)
此次網(wǎng)絡(luò)攻擊事件發(fā)生后，EasyPark公司發(fā)言人拒絕提供有關(guān)此次事件的詳細(xì)信息以及有多少客戶受到了影響，但他們承認(rèn)有一部分歐洲用戶可能會受到影響。

2023-12-29 16:00:22

拿到用戶數(shù)據(jù)之后，LinkedIn怎么賺錢?
LinkedIn有很多數(shù)據(jù)。他們是如何用數(shù)據(jù)給各個部門提供數(shù)據(jù)服務(wù)，幫助他們賺錢的呢這里有三個關(guān)鍵詞：助力、優(yōu)化、創(chuàng)新，用數(shù)據(jù)來持續(xù)不斷為商業(yè)增值的手段。

2016-03-16 10:56:12

數(shù)據(jù)營銷數(shù)據(jù)分析 LinkedIn

相似話題

前端
 28326內(nèi)容

開發(fā)工具
 7413內(nèi)容

測試
 530內(nèi)容

游戲開發(fā)
654內(nèi)容
全部話題

同話題下的熱門內(nèi)容

騰訊女后端設(shè)計了一套短鏈系統(tǒng)，當(dāng)場就想給她 offer！別再死磕.NET Core！2025年C#突圍新方向揭秘

相關(guān)專題更多

解讀惠普Z系列工作站ZBook Ultra G1a高性能移動

HPE ProLiant DL145 Gen11 服務(wù)器解讀

2025-04-21 09:59:50

開發(fā)者成長學(xué)院 | 成長有徑 · 代碼有方

2025-04-23 08:49:09

我收藏的內(nèi)容

微博

QQ

微信

復(fù)制鏈接

微信掃碼分享

51CTO業(yè)務(wù)

媒體
51CTO CIOAge HC3i Techplur
社區(qū)
51CTO博客軟考社區(qū)鴻蒙開發(fā)者社區(qū)AI.x社區(qū)
教育
51CTO學(xué)堂精培企業(yè)培訓(xùn)CTO訓(xùn)練營

51CTO學(xué)堂

51CTO學(xué)堂企業(yè)版

51CTO官微

51CTO

關(guān)于我們&條款

關(guān)于我們

新聞動態(tài)

站點地圖

意見反饋

English

用戶協(xié)議

隱私協(xié)議

北京市海淀區(qū)中關(guān)村南1條甲1號ECO中科愛克大廈6-7層

北京市公安局海淀分局備案編號：110108002980號
營業(yè)執(zhí)照京ICP備09067568號

Copyright ? 2005-2025 51CTO.COM 京ICP證060544 版權(quán)所有未經(jīng)許可請勿轉(zhuǎn)載

營業(yè)執(zhí)照出版物經(jīng)營許可證

友情鏈接

新浪科技騰訊科技網(wǎng)易科技鳳凰科技驅(qū)動科技科技行者 TechWeb 艾瑞網(wǎng)站長之家速途網(wǎng)中國經(jīng)濟新聞網(wǎng)IT之家工聯(lián)網(wǎng)極客公園 236視頻會議中國IDC圈企業(yè)網(wǎng)D1Net 投資界次方元火山引擎

51CTO技術(shù)棧公眾號

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

在線客服

媒體
51CTO CIOAge HC3i

社區(qū)
51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育
51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

感谢您访问我们的网站，您可能还对以下资源感兴趣：
自拍偷在线精品自拍偷