大語言模型遇上視覺理解:VLM、OCR、LLM 的強強聯手

大語言模型遇上視覺理解:VLM、OCR、LLM 的強強聯手

相信大家都已經很熟悉LLM (Large Language Model, 大語言模型),不過其實現今的大模型已經可以做到多模態(MutilModel)的應用,也就是LLM不在只是可以看懂文字,甚至可以看懂圖片、描述圖片等等,在這個「看」的領域中除了過往的電腦視覺(Computer Vision;CV),因應大模型開始有了VLM(Vision Language Models, 視覺語言模型 ).
本篇文章說明VLM、Computer Vision、OCR差異

Loading

Read more