必需的先决条件
- 我已阅读了文档 https://github.com/baichuan-inc/baichuan-7B/blob/HEAD/README.md 。
- 我已在 Issue Tracker 和 Discussions 中搜索,以确保这个问题尚未被报告过。如果已经报告过了,请在那里加1或评论。
- 在提出问题之前,请先考虑在 Discussion 中提问。
问题
请问7B没有用上FlashAttention吗?看了下7B代码,没发现这块的逻辑。
检查清单
- 我已经提供了所有相关和必要的信息。
- 我已经为这个问题选择了一个合适的标题。
1条答案
按热度按时间lc8prwob1#
不,我们使用xformers进行训练,并使用naive impl进行推理。