CV 彙整 | 韜睿軟體有限公司

大語言模型遇上視覺理解：VLM、OCR、LLM 的強強聯手

2025-03-312025-04-01 Ｔ編 0 Comment LLM, NLP, OCR AIOCR, ComputerVision, CV, LLM, NLP, OCR, 圖片問答, 圖片格式還原, 圖片理解, 圖片還原, 圖生文, 文生圖, 版面分析, 表格還原, 視覺語言模型, 電腦視覺

相信大家都已經很熟悉LLM (Large Language Model, 大語言模型)，不過其實現今的大模型已經可以做到多模態(MutilModel)的應用，也就是LLM不在只是可以看懂文字，甚至可以看懂圖片、描述圖片等等，在這個「看」的領域中除了過往的電腦視覺(Computer Vision；CV)，因應大模型開始有了VLM(Vision Language Models, 視覺語言模型 )．
本篇文章說明VLM、Computer Vision、OCR差異