我是新的数据库设计,我试图实践与现有的政府统计数据为一个小国。我找到了近100个表,这些表存储了从特定地区收集的特定年份和月份的信息。有些表格每月更新一次,有些则每年更新一次。我相信这意味着在每个表中,都会有一个由年和月组成的自然复合pk,或者干脆就是一个由年组成的pk。
er图
在上图中,trip survey的每个父属性表示我从特定于所研究地区的公共数据库中收集的许多数据表中的一个(例如,满意度、动机、花费金额都表示对同一人群的不同调查)。将所有表格合并到一个表格(如行程调查)有意义吗?
我不确定我的关系是否准确(完全和部分参与)。我的目标是能够查询数据,找到相关点,并对未来做出预测。我想尝试连接所有的表随着时间的推移。
所收集的调查几乎可以涵盖任何主题,但共同的线索是,他们代表了一个时刻,每月或每年。我想最终添加一个重要政治事件表,这些事件可能反映出趋势的异常值。
示例结果:当2018年的动机水平较低时,支出也有所下降,住院时间相对“n”期较短。
作为一个新手,任何和所有的帮助都是非常感谢的。
谢谢您
1条答案
按热度按时间ufj5ltwl1#
简化。
从一个表开始,至少有一些你能理解的列。将其加载到一些dbms中(选择一个具有地理空间功能和窗口功能的dbms,您以后可能需要它们:mariadb、mysql和postresql的最新版本是不错的选择)。导入您的表。这可能是一个痛苦的axx颈部得到正确的,但尽你最大的努力得到正确的。
启动时不要担心主键或唯一索引。你只是在探索数据,而不是构建数据。不要担心购买或租用服务器:大多数笔记本电脑都能很好地处理这种探索。
选择一个客户机程序,它保存您输入的查询的历史记录。heidisql是个不错的选择。jetbrains相对较新的datagrip值得一看。避免使用microsoft的sql server management studio:无历史记录功能(当您进行探索时,通常会想回到几个小时或几天前尝试过的内容,因此查询历史记录功能非常重要。)
然后再处理查询,尤其是聚合。。。例如
寻找你能从一张table上收集到的有趣的东西。掌握窍门。然后添加另一个可以轻松连接到第一个表的表。重复你的探索。
你应该开始了。一旦你开始了解你的数据集,你就可以开始排序,计算五分位数,等等。
而且,当您必须在不重新加载数据的情况下更新或扩充数据时,您将需要各种主键/唯一键。那是你的未来。