ragflow [问题]:为什么不将从PDF和Word文件解析出的表格转换为Markdown格式?

ar5n3qh5  于 4个月前  发布在  其他
关注(0)|答案(1)|浏览(107)

描述你的问题

为什么不将从PDF和Word文件解析出的表格转换为Markdown格式?是因为HTML格式更被LLM识别吗?
我指的是这样的Markdown格式:

|    | column1 title       | column2 title                              | column3 title           |
|---:|:----------------|:----------------------------------------|:--------------------|
|  0 | xxxxxxxxxx   | xxxxxxxxxx                      | xxxxxxxxxx |
|  1 | xxxxxxxxxx  | xxxxxxxxxx             | xxxxxxxxxx|
|  2 | xxxxxxxxxx   | xxxxxxxxxx             | xxxxxxxxxx|
|  3 | xxxxxxxxxx   | xxxxxxxxxx                | xxxxxxxxxx |

根据我的本地测试,大多数开源的LLMs对这种Markdown格式的理解更好。

mu0hgdu0

mu0hgdu01#

HTML更适合展示,尤其是在有span单元格的情况下。也许LLM在markdown表格方面表现更好,我们没有证据否认这一点。

相关问题