出于个人兴趣,我试图定义一个模拟人工智能,它基于他所学的信息和互联网搜索,以便提供比系统所知更多的细节。
我举了一个孩子的例子,当他出生的时候,他需要学习一切,他听到了很多,然后提出了一些答案。他的妈妈/爸爸告诉他答案是否合适。
为了做到这一点,我想在hadoop系统中存储大量的聊天对话,并解析所有这些对话,以确定哪一个是给出的最常见的答案。有了它,我想建立一个神经数据库,其中包含有确定答案的对话类型。
所以我的问题是,我能在互联网上合法地找到一个或多个任何格式的聊天/对话数据库吗(文件、数据库、csv…)
我掌握的数据最多,我的机会最大,就是能够正确地确定答案;)
谢谢你的帮助和干杯,神父édé里克
附言:英语不是我的母语
4条答案
按热度按时间mitkmikd1#
从上面的“默认图片”的答案中可以看到大量的人类图书馆,人机交互资源https://breakend.github.io/dialogdatasets/ 包括研究中心提供的cmuhttps://github.com/dialrc/letsgodataset 这些资源也被用来在一级培训会话代理https://any.company/
qltillow2#
这里是一个相当全面的收集人类和人机文本对话数据集,以及音频对话数据集。https://breakend.github.io/dialogdatasets/
mo49yndu3#
有一组会话数据集。其中大部分是从公开渠道收集的。对你来说,最有趣的可能是圣巴巴拉语料库(尽管它是一个语音对话的记录)或电影对话数据集。
fykwrbwg4#
拥有聊天数据集的最好方法是自己生成。你知道你到底想要什么。但是irc有一些聊天数据集,其中一个已经用于本研究。