有想過電腦如何去理解一串文字的內容,在表達什麼意思?又或是從一段文字提取有意義的東西?
例如當一個描述句”前往醫院看診,於2022/01/01進行一個顯微鏡手術,2022/02/01出院,並且於2022/02/15、2022/04/15至門診看診,但於5/20復發,20220520送急診”,人類很容易去分辨,這個文字的描述是什麼時候到了醫院,做了什麼手術,什麼時候出院,有沒有回門診,以及後續送急診.
但是電腦只會看到好幾個日期,該如何去判斷?而且每個醫師在描述的寫法都不一樣,怎麼像人腦一樣可以去理解呢?
一、痛點
1.過往這樣的資料,是拿來做保險理賠用,但是都需要人工登打理解.
2.每個人的見解與理解可能不同,導致理賠差異.
3.人工介入需要較長的時間,且耗費人力.
二、解決方式
1.要解決人工登打,當然還是要透過OCR進行辨識,不過這邊要注意的是各家表單都不一樣,怎麼去辨識需要的資訊又是一個技術,有需要再跟各位分享.
2.當辨識完成,我們提取醫囑資訊,送到NLP解析.
三、展示
四、思考可以更自動化?
完整流程OCR-NLP
1.先進行OCR
五、更多應用
其實自然語言處理(NLP)可以應用在多元情境,如上述的範例我們稱為NER(實體命名抽取),也可以稱為資訊抽取(Information Extraction),其實自然語言可以做的事情很多,分類很多,舉例我們可以針對文章進行分類,或是從文字語意去判斷情緒…等等,未來有機會T編再跟各位分享.
六、備註
1.本文內容之醫囑皆為杜撰,如有巧合存屬雷同.
2.本文內容診斷書也為修改後資料,避免個資疑慮.
3.名詞說明:
-自然語言處理 : Natural Language Processing; NLP
-實體命名抽取: Name Entity Recognition;NER
-資訊抽取: Information Extraction