TIME_WAIT连接太多,出现“无法分配请求的地址”

c2e8gylq  于 2022-09-19  发布在  Linux
关注(0)|答案(3)|浏览(173)

我有一个小型Web应用程序,它打开一个TCP套接字连接,发出一个命令,读取响应,然后为到特定REST端点的每个请求关闭连接。

我已经开始使用ApacheJMeter对端点进行负载测试,并注意到在运行了一段时间后,我开始看到“无法分配请求的地址”之类的错误,打开此连接的代码是:

def lookup(word: String): Option[String] = {
 try {
  val socket = new Socket(InetAddress.getByName("localhost"), 2222)
  val out = new PrintStream(socket.getOutputStream)
  val reader = new BufferedReader(new InputStreamReader(socket.getInputStream, "utf8"))
  out.println("lookup " + word)
  out.flush()

  var curr = reader.readLine()
  var response = ""
  while (!curr.contains("SUCC") && !curr.contains("FAIL")) {
    response += curr + "n"
    curr = reader.readLine()
  }
  socket.close()
  curr match {
    case code if code.contains(SUCCESS_CODE) => {
      Some(response)
    }
    case _ => None
  }
 }
 catch {
   case e: Exception => println("Got an exception "+ e.getMessage); None
 }
}

当我运行netstat时,我还看到许多以下的time_wait连接状态,这对我来说意味着我即将耗尽临时空间中的端口。

tcp6       0      0 localhost:54646         localhost:2222          TIME_WAIT  
tcp6       0      0 localhost:54638         localhost:2222          TIME_WAIT  
tcp6       0      0 localhost:54790         localhost:2222          TIME_WAIT  
tcp6       0      0 localhost:54882         localhost:2222          TIME_WAIT

我想知道解决这个问题的最好办法是什么。我目前的想法是创建一个连接池,在该池中,不同的HTTP请求可以重用在端口2222上运行的该服务的连接,而不是每次都创建新的请求。这是解决问题并使应用程序规模更好的明智方法吗?这似乎需要大量的开销,而且肯定会使我的应用程序更加复杂。

有没有其他解决方案可以帮助该应用程序扩展并解决我没有看到的端口问题?我的Web应用程序运行在Ubuntu Linux虚拟机上。

fkvaft9z

fkvaft9z1#

是的,创建连接池是一个很好的解决方案。但是,更简单的解决方案是让服务器关闭连接,而不是让客户端关闭连接。在这种情况下,服务器的套接字而不是客户端的套接字将以TIME_WAIT状态结束,因此客户端不会耗尽端口。在服务器端,处于TIME_WAIT状态的连接不会使服务器耗尽端口,因为它们都使用相同的本地端口。

为了确保服务器关闭连接,您需要从套接字(在客户机上)进行读取,直到达到文件结束状态。此时,可以安全地关闭客户端的套接字,因为服务器已经将其关闭。当然,您需要确保服务器将关闭套接字,而不是等待新请求。

或者,如果您具有超级用户访问权限,则可以调整一些sysctl选项:

  • net.ipv4.ip_local_port_range-临时端口范围。增加该值以使更多端口可用于传出连接。
  • net.ipv4.tcp_tw_recycle-在TIME_WAIT状态下实现更快的连接回收。
  • net.ipv4.tcp_tw_reuse-启用处于TIME_WAIT状态的连接的重用。不推荐使用。

有关详细信息,请参阅手册页ip(7)tcp(7)

6jjcrrmo

6jjcrrmo2#

连接池将为您解决此问题。

lokaqttq

lokaqttq3#

我想指出的是,net.ipv4.tcp_tw_recycle已经从每次提交95a22caee396的linux 4.12中完全删除。

Linux将对每个连接的时间戳偏移量进行随机化,这使得这个选项完全失效,无论有没有NAT。
当远程主机是NAT设备时,时间戳上的条件将禁止除NAT设备后面的一台主机外的所有主机在一分钟内连接,因为它们不共享相同的时间戳时钟。毫无疑问,禁用此选项要好得多,因为它会导致难以检测和难以诊断的问题。

来源

相关问题