在資訊爆炸的時代,我們可能因為要分析產業狀況、分析世界環境前景、評估投資…等等,需要閱讀大量文章資訊,可否透過AI技術來幫助更有效率的閱讀呢?
文本摘要可以用於多種情境如新聞摘要、論文摘要、財報摘要、傳記摘要、專利摘要、對話摘要、評論摘要、觀點摘要、電影摘要、文章標題生成、商品名生成、自動報告生成…等
一、痛點
1.產業界可能需要收集業界情報,需閱讀大量資訊
2.透過爬蟲技術爬取很多資訊,可否再透過摘要技術進行分類分群,或是提取重要文章出來觀看?
二、解決方案
1.透過NLP文本(文章)摘要技術,可以實現將長文本,快速閱讀產生摘要
2.可支援跨領域的文本摘要
三、展示
1.輸入一則新聞(口罩解禁12/1上路!哪些情況免戴口罩?哪些人戶外仍要戴好口罩?口罩鬆綁QA一次了解)
輸出:口罩解禁
2.輸入一則房市新聞(買方市場來了!房市11月成績單 高雄淪重災區、最慘交易量年近乎腰斬)
輸出:房仲行情
3.輸入一則新聞(公共電子看板防止被駭 數位部修正使用原則有二重點)
輸出:重要公告
4.輸入一篇文章(用簡訊溝通壞消息為何是種好領導?)
輸出:心不在焉
5.輸入一則影評(燒腦犯罪推理又一新天花板!《罪後真相》影評)
輸出:罪後真相
6.在google隨機搜尋’枸杞的好處’,講此段文章
現代研究,枸杞子有降低血糖、抗脂肪肝作用,並能抗動脈粥樣硬化。 另外,枸杞子亦為扶正固本,生精補髓、滋陰補腎、益氣安神、強身健體、延緩衰老之良藥,對慢性肝炎、中心性視網膜炎、視神經萎縮等療效顯著;對抗腫瘤、保肝、降壓、以及老年人器官衰退的老化疾病都有很強的改善作用。
丟入模型,可以看到輸出摘要結果為
枸杞子的營養價值
四、結論
其實在文本摘要這個領域非常的難做,原因是摘要比較難以定義,再者其實因為計算TextRank等方式,也會受到文本內詞頻等等影響,來就是跨領域的維度,幾個做得比較好的如BERT大概可以做到30.95(Rouge-1)、CPT-base在Rouge-L做到38.2,可以看到比起之前介紹的任務可以知道文本摘要還有許多需要突破的地方.
綜觀上述,您們覺得模型出來的摘要,跟您們想像的一樣嗎?