大語言模型遇上視覺理解:VLM、OCR、LLM 的強強聯手

大語言模型遇上視覺理解:VLM、OCR、LLM 的強強聯手

相信大家都已經很熟悉LLM (Large Language Model, 大語言模型),不過其實現今的大模型已經可以做到多模態(MutilModel)的應用,也就是LLM不在只是可以看懂文字,甚至可以看懂圖片、描述圖片等等,在這個「看」的領域中除了過往的電腦視覺(Computer Vision;CV),因應大模型開始有了VLM(Vision Language Models, 視覺語言模型 ).

簡單地講,就是透過VLM機器可以模擬人的視覺與大腦,看懂圖片內容,例如你可以問他圖片有什麼內容之類,T編來示範給你看吧!

一、先看看其他的大模型可以做些什麼?

  • Google Gemini:

當我輸入一張圖片,他的回答:

Gemini對圖片的理解一
Gemini對圖片的理解二
  • ChatGPT:

當我輸入一張圖片,他的回答:

ChatGPT描述圖片

以上你喜歡哪一種回答呢?但至紹可以知道機器會看著圖片內容去回答.

二、這次換成一張表格的圖片我,我希望他幫我做版面分析

  • Google Gemini:

其實這邊也可以看到Gemini還是可以理解這是一張具有表格的圖片,當然因為是Chatbot所以沒有幫我進行版面分析,也有可能是我給的指令不夠,但這邊就讓大家看一下效果.

三、VLM、CV、OCR差異

技術核心能力主要處理內容優勢劣勢
VLM(視覺語言模型)圖文生成與理解圖片描述、跨模態問答、圖文推理同時處理文字與圖片速度慢,計算量大,耗成本、算力,且訓練數據需要更多
Computer Vision(電腦視覺)視覺特徵分析物件識別、圖片分類、場景理解適合做物件偵測(Object Detection)、圖片分類(Image Classification)、人臉偵測..等缺乏理解能力,只通常只能輸出標籤或座標
OCR(光學字元辨識)辨識與提取文字文字檢測、文字辨識專注於文字處理,為最底層的核心能力速度快,耗能少,但不具備理解能力

本表格參照ChatGPT進行調整.

四、應用場景

應用場景VLMComputer VisionOCR
掃描或拍照文件(文件、票據、書籍)提取文字並理解內容不擅長提取文字
圖片問答(給圖片後回答問題)能基於圖片內容回答不擅長不擅長
場景描述(自動生成圖片說明)可進行跨模態搜索只能輸出標籤(類似分類)不擅長
多模態搜索(輸入文字找圖,輸入圖找文字)可進行跨模態搜索只處理圖片只處理文字
表格理解(辨識票據、財報、圖表)能理解表格語意不能處理語意能提取數據

本表格參照ChatGPT進行調整.

五、實務應用

由於當作文字抽取或RAG(Retrieval Augmented Generation;檢索增強生成)或是在做一些OCR(Optical Character Recognition;光學字元辨識)相對重要,因為這些表格、圖片、文字、印章、手寫字…等,會影響回答與抽取的應用.

故為什麼要了解一張圖片的佈局就顯得重要,猶如人一樣,透過眼睛看到圖片對應的資訊,再透過大腦來進行分析判斷,而過往的Computer Vision較難做到這點,透過大模型技術,可以補齊這點,讓機器更看得懂圖片理解圖片.

由韜睿的技術,我們可以完整還原出整個圖片的格式佈局,讓應用上更多元.

韜睿軟體表格還原

本表格取自國家資通安全研究院

六、最後T編說

本文章的置頂圖片就是由ChatGPT依據標題產生,你喜歡哪一個呢?

Loading

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *