在提问前搜索
- 我在 issues 中进行了搜索,但没有找到类似的问题。
操作系统信息
Linux
Python版本信息
=3.11
DB-GPT版本
主版
相关场景
- 聊天数据
- 聊天Excel
- 聊天数据库
- 聊天知识库
- 模型管理
- Jmeter 盘
- 插件
安装信息
- Installation From Source
- Docker Installation
- Docker Compose Installation
- Cluster Installation
- AutoDL图像
- 其他
设备信息
GPU
模型信息
嵌入:text2vec-large-chinese
发生了什么?
chunk_size的最大值是多少?考虑到text2vec-large-chinese的max_seq_length为512,如果chunk大小超过此限制,是否会发生截断?
你期望发生什么?
1
4条答案
按热度按时间6pp0gazn1#
chunk_size取决于您希望分割成块的大小。没有最大值。
zzwlnbp82#
chunk_size取决于您希望分割成块的大小。没有最大值。
鉴于text2vec-large-chinese模型的最大序列长度为512个标记,如何确保每个文本块完全转换为向量?我正在处理docx文档,单个块可能非常大,可能跨越多页。我担心内容会被截断。
2uluyalo3#
chunk_size取决于您想要分割成块的大小。没有最大值。
我发现在嵌入时,它的max_seq_length仍然是512。那么,如何处理超过512个标记?
此外,model_max_length似乎不起作用?
pes8fvy94#
这个问题已经被标记为
stale
,因为已经超过30天没有任何活动。