如何让mahout推荐程序工作得更快?

fbcarpbf  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(583)

嗨,在so的mahout社区!
我有几个关于加速推荐计算的问题。在我的服务器上,我安装了mahout而没有hadoop。jruby还用于推荐脚本。在数据库中,我有3k个用户和100k个项目(join表中有270k个项目)。因此,当用户请求推荐时,简单的脚本开始工作:
首先,它使用 PGPoolingDataSource 这样地:

connection = org.postgresql.ds.PGPoolingDataSource.new()
  connection.setDataSourceName("db_name");
  connection.setServerName("localhost")
  connection.setPortNumber(5432)
  connection.setDatabaseName("db_name")
  connection.setUser("mahout")
  connection.setPassword("password")
  connection.setMaxConnections(100)
  connection

我得到这个警告:

WARNING: You are not using ConnectionPoolDataSource. Make sure your DataSource pools connections to the database itself, or database performance will be severely reduced.

你知道怎么解决吗?
之后,我创建建议:

model = PostgreSQLJDBCDataModel.new(
    connection,
    'stars',
    'user_id',
    'repo_id',
    'preference',
    'created_at'
  )

  similarity = TanimotoCoefficientSimilarity.new(model)
  neighborhood = NearestNUserNeighborhood.new(5, similarity, model)
  recommender = GenericBooleanPrefUserBasedRecommender.new(model, neighborhood, similarity)
  recommendations = recommender.recommend user_id, 30

目前,为一个用户生成推荐大约需要5-10秒。问题是如何更快地提出建议(最好是200米)?

kxeu7u2r

kxeu7u2r1#

如果您知道您正在使用池数据源,则可以忽略该警告。这意味着实现没有实现池实现的常用接口, ConnectionPoolDataSource .
如果要直接从数据库运行,就永远不会让它运行得很快。数据访问太多了。 Package JDBCDataModelReloadFromJDBCDataModel 它将被缓存在内存中,从字面上讲,它的工作速度将提高100倍。

相关问题