所需先决条件
- 我已阅读了文档 https://github.com/baichuan-inc/baichuan-7B/blob/HEAD/README.md 。
- 我已在 Issue Tracker 和 Discussions 中搜索,确保这个问题尚未被报告过。如果已经报告过了,请在那里加1或留言。
- 在提出问题之前,请先考虑在 Discussion 中提问。
问题
项目中提到“整体模型基于标准的 Transformer 结构,我们采用了和 LLaMA 一样的模型设计”,然而我发现在modeling_baichuan.py中的Attention,在train阶段没有用到attention_mask。但是llama中的Attention是用到了的。请问这是为什么呢?
检查清单
- 我已在上方提供了所有相关且必要的信息。
- 我已为这个问题选择了合适的标题。
1条答案
按热度按时间j13ufse21#
这个有点好奇,百川开源了不开源交流?