DB-GPT [Bug] [知识] chunk_size 的最大值是多少?

myzjeezk  于 4个月前  发布在  其他
关注(0)|答案(4)|浏览(45)

在提问前搜索

  • 我在 issues 中进行了搜索,但没有找到类似的问题。

操作系统信息

Linux

Python版本信息

=3.11

DB-GPT版本

主版

相关场景

  • 聊天数据
  • 聊天Excel
  • 聊天数据库
  • 聊天知识库
  • 模型管理
  • Jmeter 盘
  • 插件

安装信息

设备信息

GPU

模型信息

嵌入:text2vec-large-chinese

发生了什么?

chunk_size的最大值是多少?考虑到text2vec-large-chinese的max_seq_length为512,如果chunk大小超过此限制,是否会发生截断?

你期望发生什么?

1

6pp0gazn

6pp0gazn1#

chunk_size取决于您希望分割成块的大小。没有最大值。

zzwlnbp8

zzwlnbp82#

chunk_size取决于您希望分割成块的大小。没有最大值。
鉴于text2vec-large-chinese模型的最大序列长度为512个标记,如何确保每个文本块完全转换为向量?我正在处理docx文档,单个块可能非常大,可能跨越多页。我担心内容会被截断。

2uluyalo

2uluyalo3#

chunk_size取决于您想要分割成块的大小。没有最大值。
我发现在嵌入时,它的max_seq_length仍然是512。那么,如何处理超过512个标记?
此外,model_max_length似乎不起作用?

pes8fvy9

pes8fvy94#

这个问题已经被标记为 stale,因为已经超过30天没有任何活动。

相关问题