自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

手把手教你使用Flask搭建ES搜索引擎(實(shí)戰(zhàn)篇)

開(kāi)發(fā) 后端
本篇教你使用Flask搭建ES搜索引擎。希望對(duì)大家學(xué)習(xí)有所幫助。

[[347936]]

 現(xiàn)在正式進(jìn)入主題:開(kāi)始使用 Flask 搭建 ES 搜索。

 

 

 

1 配置文件

Config.py

  1. #coding:utf-8 
  2. import os 
  3. DB_USERNAME = 'root' 
  4. DB_PASSWORD = None # 如果沒(méi)有密碼的話 
  5. DB_HOST = '127.0.0.1' 
  6. DB_PORT = '3306' 
  7. DB_NAME = 'flask_es' 
  8.  
  9. class Config: 
  10.     SECRET_KEY ="隨機(jī)字符" # 隨機(jī) SECRET_KEY 
  11.     SQLALCHEMY_COMMIT_ON_TEARDOWN = True # 自動(dòng)提交 
  12.     SQLALCHEMY_TRACK_MODIFICATIONS = True # 自動(dòng)sql 
  13.     DEBUG = True # debug模式 
  14.     SQLALCHEMY_DATABASE_URI = 'mysql+pymysql://%s:%s@%s:%s/%s' % (DB_USERNAME, DB_PASSWORD,DB_HOST, DB_PORT, DB_NAME) #數(shù)據(jù)庫(kù)URL 
  15.  
  16.     MAIL_SERVER = 'smtp.qq.com' 
  17.     MAIL_POST = 465 
  18.     MAIL_USERNAME = '3417947630@qq.com' 
  19.     MAIL_PASSWORD = '郵箱授權(quán)碼' 
  20.     FLASK_MAIL_SUBJECT_PREFIX='M_KEPLER' 
  21.     FLASK_MAIL_SENDER=MAIL_USERNAME # 默認(rèn)發(fā)送人 
  22.     # MAIL_USE_SSL = True 
  23.     MAIL_USE_TLS = False 

這是一份相對(duì)簡(jiǎn)單的 Flask Config 文件,當(dāng)然對(duì)于當(dāng)前項(xiàng)目來(lái)說(shuō)數(shù)據(jù)庫(kù)的連接不是必要的,我只是用 Mysql 來(lái)作為輔助用,小伙伴們沒(méi)有必要配置連接數(shù)據(jù)庫(kù),有 ES 足以。然后郵箱通知這個(gè)看個(gè)人需求 .....

 

 

 

2 日志

Logger.py

 

日志模塊在工程應(yīng)用中是必不可少的一環(huán),根據(jù)不同的生產(chǎn)環(huán)境來(lái)輸出日志文件是非常有必要的。用句江湖上的話來(lái)說(shuō): "如果沒(méi)有日志文件,你死都不知道怎么死的 ....."

  1. # coding=utf-8 
  2. import os 
  3. import logging 
  4. import logging.config as log_conf 
  5. import datetime 
  6. import coloredlogs 
  7.  
  8. coloredlogs.DEFAULT_FIELD_STYLES = {'asctime': {'color''green'}, 'hostname': {'color''magenta'}, 'levelname': {'color''magenta''bold'False}, 'name': {'color''green'}} 
  9.  
  10. log_dir = os.path.dirname(os.path.dirname(__file__)) + '/logs' 
  11. if not os.path.exists(log_dir): 
  12.     os.mkdir(log_dir) 
  13. today = datetime.datetime.now().strftime("%Y-%m-%d"
  14.  
  15. log_path = os.path.join(log_dir, today + ".log"
  16.  
  17. log_config = { 
  18.     'version': 1.0, 
  19.  
  20.     # 格式輸出 
  21.     'formatters': { 
  22.         'colored_console': { 
  23.                         'format'"%(asctime)s - %(name)s - %(levelname)s - %(message)s"
  24.                         'datefmt''%H:%M:%S' 
  25.         }, 
  26.         'detail': { 
  27.             'format''%(asctime)s - %(name)s - %(levelname)s - %(message)s'
  28.             'datefmt'"%Y-%m-%d %H:%M:%S"  #時(shí)間格式 
  29.         }, 
  30.     }, 
  31.  
  32.     'handlers': { 
  33.         'console': { 
  34.             'class''logging.StreamHandler',  
  35.             'level''DEBUG'
  36.             'formatter''colored_console' 
  37.         }, 
  38.         'file': { 
  39.             'class''logging.handlers.RotatingFileHandler',   
  40.             'maxBytes': 1024 * 1024 * 1024,   
  41.             'backupCount': 1,  
  42.             'filename': log_path,  
  43.             'level''INFO',   
  44.             'formatter''detail',  #  
  45.             'encoding''utf-8',  # utf8 編碼  防止出現(xiàn)編碼錯(cuò)誤 
  46.         }, 
  47.     }, 
  48.  
  49.     'loggers': { 
  50.         'logger': { 
  51.             'handlers': ['console'],   
  52.             'level''DEBUG',  
  53.         }, 
  54.  
  55.     } 
  56.  
  57. log_conf.dictConfig(log_config) 
  58. log_v = logging.getLogger('log'
  59.  
  60. coloredlogs.install(level='DEBUG', logger=log_v) 
  61.  
  62.  
  63. # # Some examples. 
  64. # logger.debug("this is a debugging message"
  65. # logger.info("this is an informational message"
  66. # logger.warning("this is a warning message"
  67. # logger.error("this is an error message"

這里準(zhǔn)備好了一份我常用的日志配置文件,可作為常用的日志格式,直接調(diào)用即可,根據(jù)不同的等級(jí)來(lái)輸出到終端或 .log 文件,拿走不謝。

 

 

 

 

3 路由

 

對(duì)于 Flask 項(xiàng)目而言, 藍(lán)圖和路由會(huì)讓整個(gè)項(xiàng)目更具觀賞性(當(dāng)然指的是代碼的閱讀)。

 

這里我采用兩個(gè)分支來(lái)作為數(shù)據(jù)支撐,一個(gè)是 Math 入口,另一個(gè)是 Baike 入口,數(shù)據(jù)的來(lái)源是基于上一篇的百度百科爬蟲(chóng)所得,根據(jù) 深度優(yōu)先 的爬取方式抓取后放入 ES 中。

  1. # coding:utf8 
  2. from flask import Flask 
  3. from flask_sqlalchemy import SQLAlchemy 
  4. from app.config.config import Config 
  5. from flask_mail import Mail 
  6. from flask_wtf.csrf import CSRFProtect 
  7.  
  8. app = Flask(__name__,template_folder='templates',static_folder='static'
  9. app.config.from_object(Config) 
  10.  
  11. db = SQLAlchemy(app) 
  12. db.init_app(app) 
  13.  
  14. csrf = CSRFProtect(app) 
  15. mail = Mail(app) 
  16. # 不要在生成db之前導(dǎo)入注冊(cè)藍(lán)圖。 
  17. from app.home.baike import baike as baike_blueprint 
  18. from app.home.math import math as math_blueprint 
  19. from app.home.home import home as home_blueprint 
  20.  
  21. app.register_blueprint(home_blueprint) 
  22. app.register_blueprint(math_blueprint,url_prefix="/math"
  23. app.register_blueprint(baike_blueprint,url_prefix="/baike"
  1. # -*- coding:utf-8 -*- 
  2. from flask import Blueprint 
  3. baike = Blueprint("baike", __name__) 
  4.  
  5. from app.home.baike import views 
  1. # -*- coding:utf-8 -*- 
  2. from flask import Blueprint 
  3. math = Blueprint("math", __name__) 
  4.  
  5. from app.home.math import views 

聲明路由并在 __init__ 文件中初始化

 

下面來(lái)看看路由的實(shí)現(xiàn)(以Baike為例)

  1. # -*- coding:utf-8 -*- 
  2. import os 
  3. from flask_paginate import Pagination, get_page_parameter 
  4. from app.Logger.logger import log_v 
  5. from app.elasticsearchClass import elasticSearch 
  6.  
  7. from app.home.forms import SearchForm 
  8.  
  9. from app.home.baike import baike 
  10. from flask import request, jsonify, render_template, redirect 
  11.  
  12. baike_es = elasticSearch(index_type="baike_data",index_name="baike"
  13.  
  14. @baike.route("/"
  15. def index(): 
  16.     searchForm = SearchForm() 
  17.     return render_template('baike/index.html', searchForm=searchForm) 
  18.  
  19. @baike.route("/search", methods=['GET''POST']) 
  20. def baikeSearch(): 
  21.     search_key = request.args.get("b"default=None) 
  22.     if search_key: 
  23.         searchForm = SearchForm() 
  24.         log_v.error("[+] Search Keyword: " + search_key) 
  25.         match_data = baike_es.search(search_key,count=30) 
  26.  
  27.         # 翻頁(yè) 
  28.         PER_PAGE = 10 
  29.         page = request.args.get(get_page_parameter(), type=intdefault=1) 
  30.         start = (page - 1) * PER_PAGE 
  31.         end = start + PER_PAGE 
  32.         total = 30 
  33.         print("最大數(shù)據(jù)總量:", total) 
  34.         pagination = Pagination(page=page, start=start, end=end, total=total) 
  35.         context = { 
  36.             'match_data': match_data["hits"]["hits"][start:end], 
  37.             'pagination': pagination, 
  38.             'uid_link'"/baike/" 
  39.         } 
  40.         return render_template('data.html', q=search_key, searchForm=searchForm, **context) 
  41.     return redirect('home.index'
  42.  
  43.  
  44. @baike.route('/<uid>'
  45. def baikeSd(uid): 
  46.     base_path = os.path.abspath('app/templates/s_d/'
  47.     old_file = os.listdir(base_path)[0] 
  48.     old_path = os.path.join(base_path, old_file) 
  49.     file_path = os.path.abspath('app/templates/s_d/{}.html'.format(uid)) 
  50.     if not os.path.exists(file_path): 
  51.         log_v.debug("[-] File does not exist, renaming !!!"
  52.         os.rename(old_path, file_path) 
  53.     match_data = baike_es.id_get_doc(uid=uid) 
  54.     return render_template('s_d/{}.html'.format(uid), match_data=match_data) 

可以看到我們成功的將 elasticSearch 類(lèi)初始化并且進(jìn)行了數(shù)據(jù)搜索。

我們使用了 Flask 的分頁(yè)插件進(jìn)行分頁(yè)并進(jìn)行了單頁(yè)數(shù)量的限制,根據(jù) Uid 來(lái)跳轉(zhuǎn)到詳情頁(yè)中。

 

細(xì)心的小伙伴會(huì)發(fā)現(xiàn)我這里用了個(gè)小技巧

  1. @baike.route('/<uid>'
  2. def baikeSd(uid): 
  3.     base_path = os.path.abspath('app/templates/s_d/'
  4.     old_file = os.listdir(base_path)[0] 
  5.     old_path = os.path.join(base_path, old_file) 
  6.     file_path = os.path.abspath('app/templates/s_d/{}.html'.format(uid)) 
  7.     if not os.path.exists(file_path): 
  8.         log_v.debug("[-] File does not exist, renaming !!!"
  9.         os.rename(old_path, file_path) 
  10.     match_data = baike_es.id_get_doc(uid=uid) 
  11.     return render_template('s_d/{}.html'.format(uid), match_data=match_data) 

以此來(lái)保證存放詳情頁(yè)面的模板中始終只保留一個(gè) html 文件。

 

 

 

4 項(xiàng)目啟動(dòng)

 

一如既往的采用 flask_script 作為項(xiàng)目的啟動(dòng)方案,確實(shí)方便。

  1. # coding:utf8 
  2. from app import app 
  3. from flask_script import Manager, Server 
  4.  
  5. manage = Manager(app) 
  6.  
  7. # 啟動(dòng)命令 
  8. manage.add_command("runserver", Server(use_debugger=True)) 
  9.  
  10.  
  11. if __name__ == "__main__"
  12.     manage.run() 

黑窗口鍵入

  1. python manage.py runserver 

就可以啟動(dòng)項(xiàng)目,默認(rèn)端口 5000,訪問(wèn) http://127.0.0.1:5000

使用gunicorn啟動(dòng)

  1. gunicorn -c gconfig.py manage:app 
  1. #encoding:utf-8 
  2. import multiprocessing 
  3.  
  4. from gevent import monkey 
  5. monkey.patch_all() 
  6.  
  7. # 并行工作進(jìn)程數(shù) 
  8. workers = multiprocessing.cpu_count() * 2 + 1 
  9.  
  10. debug = True 
  11.  
  12. reload = True # 自動(dòng)重新加載 
  13.  
  14. loglevel = 'debug' 
  15.  
  16. # 指定每個(gè)工作者的線程數(shù) 
  17. threads = 2 
  18.  
  19. # 轉(zhuǎn)發(fā)為監(jiān)聽(tīng)端口8000 
  20. bind = '0.0.0.0:5001' 
  21.  
  22. # 設(shè)置守護(hù)進(jìn)程,將進(jìn)程交給supervisor管理 
  23. daemon = 'false' 
  24.  
  25. # 工作模式協(xié)程 
  26. worker_class = 'gevent' 
  27.  
  28. # 設(shè)置最大并發(fā)量 
  29. worker_connections = 2000 
  30.  
  31. # 設(shè)置進(jìn)程文件目錄 
  32. pidfile = 'log/gunicorn.pid' 
  33. logfile = 'log/debug.log' 
  34.  
  35. # 設(shè)置訪問(wèn)日志和錯(cuò)誤信息日志路徑 
  36. accesslog = 'log/gunicorn_acess.log' 
  37. errorlog = 'log/gunicorn_error.log' 

項(xiàng)目截圖

項(xiàng)目 Github 地址

https://github.com/GZKY-PY/Flask-ES

責(zé)任編輯:姜華 來(lái)源: Python爬蟲(chóng)與數(shù)據(jù)挖掘
相關(guān)推薦

2021-06-18 09:02:26

FlaskES搜索 Python

2014-04-11 13:52:28

2022-02-25 09:41:05

python搜索引擎

2021-08-24 10:02:21

JavaScript網(wǎng)頁(yè)搜索 前端

2024-11-05 16:40:24

JavaScript搜索引擎

2022-03-14 14:47:21

HarmonyOS操作系統(tǒng)鴻蒙

2021-07-14 09:00:00

JavaFX開(kāi)發(fā)應(yīng)用

2021-09-30 09:00:34

Scrapy網(wǎng)絡(luò)爬蟲(chóng)Python

2011-03-25 12:45:49

Oracle SOA

2022-12-07 08:42:35

2010-07-06 09:38:51

搭建私有云

2010-07-06 09:43:57

搭建私有云

2022-01-04 08:52:14

博客網(wǎng)站Linux 系統(tǒng)開(kāi)源

2021-08-02 07:35:19

Nacos配置中心namespace

2011-01-10 14:41:26

2011-05-03 15:59:00

黑盒打印機(jī)

2010-01-20 10:44:01

linux DHCP服務(wù)器

2025-02-26 07:40:25

運(yùn)營(yíng)分析體系運(yùn)營(yíng)策略

2018-05-16 15:46:06

Python網(wǎng)絡(luò)爬蟲(chóng)PhantomJS

2021-01-19 09:06:21

MysqlDjango數(shù)據(jù)庫(kù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)