使用Pythons SQLite模块连接比手动连接慢

l2osamch 于 2022-12-27 发布在 SQLite

关注(0)|答案(3)|浏览(143)

我正在使用pythons内置的sqlite3模块访问数据库。我的查询在一个包含150000个条目的表和一个包含40000个条目的表之间执行连接，结果再次包含大约150000个条目。如果我在SQLite Manager中执行查询，则需要几秒钟，但如果我在Python中执行相同的查询，一分钟后它还没有完成。下面是我使用的代码：

cursor = self._connection.cursor()
annotationList = cursor.execute("SELECT PrimaryId, GOId " + 
                                "FROM Proteins, Annotations " +
                                "WHERE Proteins.Id = Annotations.ProteinId")
annotations = defaultdict(list)
for protein, goterm in annotationList:
    annotations[protein].append(goterm)

我做fetchall只是为了测量执行时间。有人能解释一下性能上的巨大差异吗？我在Mac OS X 10. 6. 4上使用的是Python 2. 6. 1。
我手动实现了连接，这样做的速度要快得多。代码如下所示：

cursor = self._connection.cursor()
proteinList = cursor.execute("SELECT Id, PrimaryId FROM Proteins ").fetchall()
annotationList = cursor.execute("SELECT ProteinId, GOId FROM Annotations").fetchall()
proteins = dict(proteinList)
annotations = defaultdict(list)
for protein, goterm in annotationList:
    annotations[proteins[protein]].append(goterm)

所以当我自己获取表，然后用Python进行连接时，大约需要2秒，而上面的代码则需要很长时间，我是不是漏掉了什么？
我用apsw做了同样的尝试，它工作得很好（代码根本不需要修改），性能很好。我仍然想知道为什么sqlite3-模块这么慢。

sqlite

来源：https://stackoverflow.com/questions/3134900/join-with-pythons-sqlite-module-is-slower-than-doing-it-manually

3条答案

按热度按时间

p1tboqfb1#

这里有一个关于它的讨论：http://www.mail-archive.com/python-list@python.org/msg253067.html
sqlite3模块似乎出现了性能瓶颈，有一个advice如何让你的查询更快：

确保连接列上有索引
使用聚硅氧石

赞(0）回复(0）举报 2022-12-27

hc8w905p2#

您还没有发布所讨论的表的模式，但我认为索引可能有问题，特别是没有Protein.id或Annotations.ProteinId（或两者）的索引。
按如下方式创建SQLite索引

CREATE INDEX IF NOT EXISTS index_Proteins_Id ON Proteins (Id)
CREATE INDEX IF NOT EXISTS index_Annotations_ProteinId ON Annotations (ProteinId)

赞(0）回复(0）举报 2022-12-27

velaa5lx3#

我想更新这个，因为我注意到同样的问题，我们现在是2022年...
在我自己的应用程序中，我使用python3和sqlite3对大型数据库进行一些数据处理（〉100000行 *〉200列）。特别是，我注意到我的3表内部连接在Python中运行大约12分钟，而从CLI在sqlite3中运行相同的连接查询大约需要100秒。所有的连接 predicate 都被正确地索引，并且EXPLAIN QUERY PLAN指示增加的时间很可能是因为我使用了SELECT *，这在我的特定上下文中是必要的。
性能差异导致我整晚都在揪头发，直到我意识到从这里有一个快速修复：Running a Sqlite3 Script from Command Line.这绝对是一个变通办法，在最好的，但我有研究到期，所以这是我的修复。
1.将查询写出到一个.sql文件（我使用f字符串传入变量，所以这里使用了一个带有{foo}的示例）

fi = open("filename.sql", "w")
fi.write(f"CREATE TABLE {Foo} AS SELECT * FROM Table1 INNER JOIN Table2 ON Table2.KeyColumn = Table1.KeyColumn INNER JOIN Table3 ON Table3.KeyColumn = Table1.KeyColumn;")
fi.close()

1.从python内部运行os.system并将.sql文件发送到sqlite3

os.system(f"sqlite3 {database} < filename.sql")

确保在运行之前关闭所有打开的连接，这样你就不会被锁定，如果你要在python中使用sqlite，你就必须重新示例化所有的连接对象。
希望这有帮助，如果有人已经弄清楚了这个来源，请链接到它！

赞(0）回复(0）举报 2022-12-27

我来回答

使用Pythons SQLite模块连接比手动连接慢

3条答案

相关问题

热门标签

最新问答