自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="nm1hy"><li id="nm1hy"></li></p>

<table id="nm1hy"><thead id="nm1hy"><legend id="nm1hy"></legend></thead></table>

<sub id="nm1hy"><p id="nm1hy"></p></sub><sub id="nm1hy"></sub><rt id="nm1hy"><fieldset id="nm1hy"><tbody id="nm1hy"></tbody></fieldset></rt>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

探索 mcdse-2b-v1：全新高效的多語言文檔檢索模型原創(chuàng)

發(fā)布于 2024-11-15 10:35

瀏覽

0收藏

01、概述

在信息時代的浪潮中，各類數(shù)據(jù)以驚人的速度不斷產(chǎn)生，涵蓋文檔、演示文稿、圖像等多種格式。這些信息的多樣性為有效檢索帶來了巨大的挑戰(zhàn)。傳統(tǒng)的檢索模型在處理純文本查詢時表現(xiàn)良好，但面對復雜的多模態(tài)內(nèi)容（如截圖或幻燈片）時，卻往往力不從心。這對于需要從包含文本和視覺元素的文檔中提取信息的企業(yè)、研究人員和教育工作者來說，尤為棘手。因此，迫切需要一種能夠高效處理這些多樣化內(nèi)容的模型。

02、引入 mcdse-2b-v1：文檔檢索的新方法

今天，我們要向大家介紹 mcdse-2b-v1，這是一款全新的人工智能模型，能夠嵌入頁面或幻燈片截圖，并通過自然語言進行查詢。與依賴文本進行索引和搜索的傳統(tǒng)檢索系統(tǒng)不同，mcdse-2b-v1 讓用戶可以處理包含文字、圖片和圖表的截圖或幻燈片，這為經(jīng)常處理非純文本文檔的用戶打開了新的可能性。用戶只需截取一張演示文稿的截圖或信息圖文檔，將其嵌入模型中，就能通過自然語言搜索獲得相關信息。

mcdse-2b-v1 架起了傳統(tǒng)文本查詢與更復雜視覺數(shù)據(jù)之間的橋梁，非常適合那些需要頻繁分析演示文稿、報告或其他視覺文檔內(nèi)容的行業(yè)。這一能力使得該模型在信息豐富的環(huán)境中顯得尤為重要，因為手動瀏覽這些視覺密集的文檔往往耗時且效率低下。與其費力尋找那一張?zhí)囟ǖ幕脽羝蚴侵痦摲喢芗膱蟾?，不如利用自然語言直接搜索嵌入內(nèi)容，既節(jié)省了時間，又提升了工作效率。

03、技術細節(jié)與優(yōu)勢

mcdse-2b-v1（??）基于 MrLight/dse-qwen2-2b-mrl-v1，并采用 DSE 方法進行訓練。它是一款高效、可擴展且多語言的文檔檢索模型，能夠無縫處理混合內(nèi)容源。該模型提供了一種嵌入機制，有效捕捉文本與視覺成分，使得在多模態(tài)數(shù)據(jù)類型之間進行強大的檢索操作成為可能。

mcdse-2b-v1 最顯著的特點之一是其資源效率。例如，它可以在僅 10 GB 的空間內(nèi)嵌入 1 億個頁面。這種優(yōu)化水平使其非常適合數(shù)據(jù)存儲緊張的應用場景，如本地解決方案或邊緣計算部署。此外，該模型的體積可以縮小至原來的六分之一，且性能損失極小，這使其能夠在資源有限的設備上運行，同時保持高檢索準確性。

另一個優(yōu)勢是 mcdse-2b-v1 與常用框架如 Transformers 或 vLLM 的兼容性，這使得其對廣泛用戶而言變得更加可及。這種靈活性使得開發(fā)者和數(shù)據(jù)科學家可以輕松將該模型集成到現(xiàn)有的機器學習工作流中，無需進行大幅修改，極大地方便了使用。

#如何使用

初始化模型和處理器

from transformers import AutoProcessor, Qwen2VLForConditionalGeneration
from PIL import Image
import torch
import math

model = Qwen2VLForConditionalGeneration.from_pretrained(
    'marco/mcdse-2b-v1',
    attn_implementation="flash_attention_2",
    torch_dtype=torch.bfloat16,
    device_map="cuda:0"
).eval()

min_pixels = 1 * 28 * 28
max_pixels = 960 * 28 * 28

processor = AutoProcessor.from_pretrained(
    'marco/mcdse-2b-v1',
    min_pixels=min_pixels,
    max_pixels=max_pixels
)

model.padding_side = "left"
processor.tokenizer.padding_side = "left"

document_prompt = "<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\n<|vision_start|><|image_pad|><|vision_end|>What is shown in this image?<|im_end|>\n<|endoftext|>"

query_prompt = "<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\n<|vision_start|><|image_pad|><|vision_end|>Query: %s<|im_end|>\n<|endoftext|>"

對查詢進行編碼

def encode_queries(queries: list[str], dimension: int):
    dummy_image = Image.new('RGB', (56, 56))
    inputs = processor(
        text=[query_prompt % x for x in queries],
        images=[dummy_image for _ in queries],
        videos=None,
        padding='longest',
        return_tensors='pt'
    ).to('cuda:0')

    cache_position = torch.arange(0, len(queries))
    inputs = model.prepare_inputs_for_generation(
        **inputs, cache_position=cache_position, use_cache=False)

    with torch.no_grad():
        output = self.model(
            **inputs,
            return_dict=True,
            output_hidden_states=True
        )
    
    embeddings = output.hidden_states[-1][:, -1]
    return torch.nn.functional.normalize(embeddings[:, :dimension], p=2, dim=-1)

對文檔進行編碼

def round_by_factor(number: float, factor: int) -> int:
    return round(number / factor) * factor

def ceil_by_factor(number: float, factor: int) -> int:
    return math.ceil(number / factor) * factor

def floor_by_factor(number: float, factor: int) -> int:
    return math.floor(number / factor) * factor

def smart_resize(height: int, width: int) -> tuple[int, int]:
        h_bar = max(28, round_by_factor(height, 28))
        w_bar = max(28, round_by_factor(width, 28))
        if h_bar * w_bar > max_pixels:
            beta = math.sqrt((height * width) / max_pixels)
            h_bar = floor_by_factor(height / beta, 28)
            w_bar = floor_by_factor(width / beta, 28)
        elif h_bar * w_bar < min_pixels:
            beta = math.sqrt(min_pixels / (height * width))
            h_bar = ceil_by_factor(height * beta, 28)
            w_bar = ceil_by_factor(width * beta, 28)
        return h_bar, w_bar

def resize(image: Image.Image):
    new_size = smart_resize(image.height, image.width)
    return image.resize(new_size)

def encode_documents(documents: list[Image.Image], dimension: int):
    inputs = processor(
        text=[document_prompt] * len(documents),
        images=[resize(x) for x in documents],
        videos=None,
        padding='longest',
        return_tensors='pt'
    ).to('cuda:0')

    cache_position = torch.arange(0, len(queries))
    inputs = model.prepare_inputs_for_generation(
        **inputs, cache_position=cache_position, use_cache=False)

    with torch.no_grad():
        output = self.model(
            **inputs,
            return_dict=True,
            output_hidden_states=True
        )
    
    embeddings = output.hidden_states[-1][:, -1]
    return torch.nn.functional.normalize(embeddings[:, :dimension], p=2, dim=-1)

對比結果

探索 mcdse-2b-v1：全新高效的多語言文檔檢索模型-AI.x社區(qū)

04、mcdse-2b-v1 的重要性

mcdse-2b-v1 的意義不僅在于其高效的信息檢索能力，更在于它如何使復雜文檔分析變得更加平易近人。傳統(tǒng)的文檔檢索方法往往需要精確的結構化，并且常常忽視現(xiàn)代文檔中豐富的視覺元素。而 mcdse-2b-v1 的出現(xiàn)，讓用戶可以像進行文本查詢一樣，輕松訪問嵌入在圖表、圖示及其他非文本組件中的信息。

初步結果顯示，即使在壓縮至原始大小的六分之一時，mcdse-2b-v1 依然能夠持續(xù)提供高檢索準確率。這種性能使其適合于大規(guī)模部署，而不必擔心典型的計算開銷。此外，其多語言能力意味著它可以為全球范圍內(nèi)的用戶提供服務，對于在多個語言環(huán)境中運作的跨國組織或?qū)W術機構而言，尤其寶貴。

對于那些從事多模態(tài)檢索增強生成（RAG）工作的人員來說，mcdse-2b-v1 提供了一種可擴展的解決方案，能夠為包含文本和視覺內(nèi)容的文檔提供高性能的嵌入。這種結合增強了下游任務的能力，如回答復雜用戶查詢或從多模態(tài)輸入中生成詳細報告。

05、結語

mcdse-2b-v1 通過嵌入頁面和幻燈片截圖，具備了可擴展性、效率和多語言能力，從而解決了多模態(tài)文檔檢索的挑戰(zhàn)。它簡化了與復雜文檔的互動，使用戶免于繁瑣的手動搜索過程。用戶將獲得一種強大的檢索模型，有效處理多模態(tài)內(nèi)容，認識到現(xiàn)實數(shù)據(jù)的復雜性。這一模型重新定義了我們?nèi)绾卧L問和與嵌入文本和視覺知識互動，為文檔檢索設定了新的標準。

通過以上的介紹，相信大家對 mcdse-2b-v1 有了更深入的了解。這一模型不僅將推動文檔檢索技術的發(fā)展，也將改變我們處理信息的方式，讓知識獲取變得更加高效和便捷。歡迎大家繼續(xù)關注這一領域的最新動態(tài)！

參考：

??https://huggingface.co/marco/mcdse-2b-v1??

本文轉(zhuǎn)載自公眾號Halo咯咯作者：基咯咯

原文鏈接：??https://mp.weixin.qq.com/s/JKLE-CuZzBvG53gJKxDScw??

?著作權歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

大語言模型

贊

收藏

回復

舉報

回復

相關推薦

端側實時運行、3B媲美7B！美團、浙大等提出MobileVLM V2：更快、更強的端側視覺語言模型

kcoufee ? 5220瀏覽 ? 0回復
《自然》期刊：上海交通大學與上海人工智能研究所聯(lián)合推出醫(yī)學多語言模型

xuxiangda ? 3040瀏覽 ? 0回復
RAG 的未來 - 自動文檔檢索

探索AGI ? 2154瀏覽 ? 0回復
多語言提示技術：跨越語言障礙的AI應用

芝士AI吃魚 ? 2709瀏覽 ? 0回復
AMD 開源 AMD OLMo：完全開源的 1B 語言模型系列

Halo咯咯 ? 2132瀏覽 ? 0回復
多模態(tài)RAG-ColPali：使用視覺語言模型實現(xiàn)高效的文檔檢索

大模型自然語言處理 ? 2377瀏覽 ? 0回復
GPT - SoVITS 如何憑借零樣本、少樣本及多語言功能解鎖語音合成新高度？

穿越時空111 ? 3773瀏覽 ? 0回復
顛覆性語音合成：Fish Agent v0.1 3B 引領多語言語音合成新高度

Halo咯咯 ? 2305瀏覽 ? 0回復
Meta AI 開源 Llama 3.3：全新 70B 多語言大語言模型 (LLM)

Halo咯咯 ? 2886瀏覽 ? 0回復
Hugging Face 發(fā)布 SmolVLM：用于設備端推理的 2B 參數(shù)視覺語言模型

Halo咯咯 ? 2249瀏覽 ? 0回復
大規(guī)模情感分析：將NLP應用于多語言和特定領域的文本

51CTO內(nèi)容精選 ? 2096瀏覽 ? 0回復
尋找樂子人｜ “多語言、精準定位”上海導游智能體搭建方案

Wordsworth_Jin ? 2111瀏覽 ? 2回復
大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度

風云2002_1 ? 1.1w瀏覽 ? 0回復
北交大清華等高校發(fā)布多語言大模型綜述

angel ? 2381瀏覽 ? 0回復
s1-32B 模型：超越 o1-preview，一起探索其原因

AI論文解讀 ? 1715瀏覽 ? 0回復
綜述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 開源關鍵技術

amei2000go ? 3851瀏覽 ? 0回復
阿里開源QwQ-32B，性能與Deepseek R1持平。一個擁有320億參數(shù)的全新推理模型

Halo咯咯 ? 2132瀏覽 ? 0回復
TinyR1-32B-Preview: 通過全新分支合并蒸餾技術讓大模型瘦身不掉智商

sbf_2000 ? 1119瀏覽 ? 0回復
NVIDIA開源Llama-3.1-Nemotron-Ultra-253B-v1，性能直逼DeepSeek

Halo咯咯 ? 956瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

數(shù)學推理的 AI 新突破：NVIDIA 的 OpenMath-Nemotron 系列震撼登場！ 9h前發(fā)布
從簡單計數(shù)到多模態(tài)：嵌入技術的演變與應用 9h前發(fā)布

熱門推薦

2025年最值得關注的十大多模態(tài)大語言模型！ 0回復

GPT-4.1系列深度解析：從代碼到動畫，從理論到實戰(zhàn)，AI的多面手來了！ 0回復

清華發(fā)布GLM 4！32B參數(shù)模型硬剛GPT-4o，性能驚艷 0回復

Google介紹了Agent2Agent（A2A）：一種新的開放協(xié)議，允許AI代理在生態(tài)系統(tǒng)中安全地合作 0回復

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

上一篇：解鎖圖像數(shù)據(jù)的商業(yè)價值：Cohere推出Multimodal Embed 3

下一篇： RAGCache：讓RAG系統(tǒng)更高效的多級動態(tài)緩存新方案

社區(qū)精華內(nèi)容

目錄