描述你的问题
为什么不将从PDF和Word文件解析出的表格转换为Markdown格式?是因为HTML格式更被LLM识别吗?
我指的是这样的Markdown格式:
| | column1 title | column2 title | column3 title |
|---:|:----------------|:----------------------------------------|:--------------------|
| 0 | xxxxxxxxxx | xxxxxxxxxx | xxxxxxxxxx |
| 1 | xxxxxxxxxx | xxxxxxxxxx | xxxxxxxxxx|
| 2 | xxxxxxxxxx | xxxxxxxxxx | xxxxxxxxxx|
| 3 | xxxxxxxxxx | xxxxxxxxxx | xxxxxxxxxx |
根据我的本地测试,大多数开源的LLMs对这种Markdown格式的理解更好。
1条答案
按热度按时间mu0hgdu01#
HTML更适合展示,尤其是在有span单元格的情况下。也许LLM在markdown表格方面表现更好,我们没有证据否认这一点。