如何用PHP从现有的MySQL列中探测最佳数据类型？

yrdbyhpb 于 2023-04-19 发布在 PHP

关注(0)|答案(4)|浏览(114)

我有一个MySQL表，有~400列
这些列是从外部数据中累积的，因此我至少在最初并不能真正控制计数
为了避免在生成列时出错，这些列只是TEXT数据类型，现在拥有它们可能需要的所有行
我现在正试图优化数据，我有一个想法，如何做，但再次，我想尽量避免错误，如果可能的话

TLDR：我想迭代每个列并确定数据类型（即TINYINT，INT，VARCHAR（？），CHAR（？），BOOLEAN，TEXT等）

我知道如何循环数据，但我更关心的是准确性和确保数据完整性，所以我想问的是，是否有人知道任何资源或链接到现有的代码，将执行这个确切的功能？
我不想错过这些数据类型的任何细微差别或特殊情况，如果资源存在，那么不重新发明轮子是有意义的吗？

php

来源：https://stackoverflow.com/questions/76043425/how-can-i-probe-optimal-datatype-from-existing-mysql-columns-with-php

4条答案

按热度按时间

wrrgggsh1#

这是information_schema的工作。
这个查询可以满足您的需要。

SELECT TABLE_NAME, COLUMN_NAME, COLUMN_TYPE, COLUMN_DEFAULT
  FROM information_schema.COLUMNS
 WHERE TABLE_NAME = 'whatever_table_name'
   AND TABLE_SCHEMA = DATABASE() 
 ORDER BY ORDINAL_POSITION;

像HeidiSQL和MySQL Workbench这样的好的交互式工具也可以以有用的形式显示您需要的元数据（描述数据的数据）。
另一个可能的诡计：将随机选择的几千行导出到.csv文件中，然后将其导入Excel或LibreOffice Calc。2这些程序将尝试猜测数据类型。
交互式工具或命令行工具可以执行导出操作。

SELECT *
  FROM table
 WHERE id IN (SELECT id FROM table ORDER BY RAND() LIMIT 1000)
  INTO OUTFILE 'sample.csv'
FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"'
 LINES TERMINATED BY '\n';

这里假设id是主键。
这会有点慢，所以不要经常这样做。

赞(0）回复(0）举报 2023-04-19

9nvpjoqh2#

这是一个很难的问题-有几个options可供您使用。我找到的最完整的解决方案是在Python中，称为Tableschema。您向它提供数据- CSV是最简单的-然后要求它推断模式。
因此，您可以使用@o.jones的代码将随机的1000行导出到CSV，然后将其输入到Tableschema中，并使用它来创建具有更准确字段类型的表。

赞(0）回复(0）举报 2023-04-19

kx1ctssn3#

经过大量的浏览和研究Tableschema之后，解决这个问题的最快方法似乎是迭代数据
基本的概述，因为我不能提供实际的代码，但这应该足以保存人们在未来大量的时间-也要确保在每次循环列之前将所有内容置零或为空

ini_set('max_execution_time', 0);
ini_set('memory_limit','1G');

$stmt = $mysqli->query("SHOW COLUMNS FROM `table`");
//...

foreach($columns as $column){
    $int = true;
    $decimal = true;
    $boolean = true;
    $intmax = 0;
    $intneg = false;
    $integer_part = 0;
    $decimal_part = 0;
    $decimal_neg = false;
    $consistent_len = 0;
    $consistent_strlen = null;
    $nullable = false;
    $boolean_counter = 0;
    $boolean_array = array();
    $strlen = 0;

    $stmt = $mysqli->query("SELECT `$column` FROM `table`");
    //...
    foreach($rowdata as $line){
        if(empty($line)){
            $nullable = true;
            continue;
        }
        else{
            $data = trim($line);
        }
        // turn off $int, $decimal, $boolean to false based on criteria
        // mb_strlen($data, 'UTF-8'); helpful for varchar multibyte
    }
    // Check order of preference > BOOLEAN > INT (Variants) > DECIMAL > CHAR > VARCHAR > TEXT

    // define $type, $unsigned, $is_null

    $column_type = $type.$unsigned.$is_null;
    $alter_query = "ALTER TABLE `table` MODIFY COLUMN `$column` $column_type";
}

赞(0）回复(0）举报 2023-04-19

qojgxg4l4#

SELECT 
    MIN(col1), MAX(col1) MAX(CHAR_LENGTH(col1)),
    MIN(col2), MAX(col2) MAX(CHAR_LENGTH(col2)),
    ...
   FROM tbl;

这将给予您对数据类型和它们的大小有一些感觉。（请替换上面的实际列名。）

如果max和min看起来都是数字，而max len很小，那么 * 可能 * 是某个数字类型。
如果看到某些标点符号，请考虑DECIMAL/FLOAT。
考虑UNSIGNED，如果max和min都不为负。
如果max或min不是数字，并且max len小于100，则在VARCHAR(...)中使用max len的两倍。
如果max或min是非数字的，并且max len更大，则使用TEXT的一些变体。

毫无疑问，有一个REGEXP可以帮助区分数字和字符串。

col1 REGEXP '^[0-9]$'      -- some size of INT UNSIGNED
col1 REGEXP '^[-+0-9]$'    -- some size of INT SIGNED
col1 REGEXP '^[-+0-9.]$'   -- DECIMAL(..., ...)
col1 REGEXP '^[-+0-9.e]$'  -- FLOAT or DOUBLE

变化：

TINYINT  SMALLINT  MEDIUMINT  INT  BIGINT
TEXT  MEDIUMTEXT  LONGTEXT  (don't use TINYTEXT)

您可以查询information_schema.COLUMNS来查找列名，并自动生成上面的SELECT（除非您有很多列要研究，否则我不会打扰您）。
以上不包括BINARY/BLOB，字符集，(m,n)为DECIMAL，ENUM。

赞(0）回复(0）举报 2023-04-19

我来回答

如何用PHP从现有的MySQL列中探测最佳数据类型？

4条答案

相关问题

热门标签

最新问答