亚马逊的Mechanical Turk拒绝包含4字节UTF-8字符的CSV HIT文件-例如Emoji。然而,Emoji字符是工人任务不可或缺的一部分,我需要保留它们。
我在https://github.com/charman/mturk-emoji中找到了这个脚本,它将Emoji字符替换为等效的HTML跨度(例如,)。然而,当将预处理的CSV馈送到MTurk时,Emoji字符不会呈现。
亚马逊的Mechanical Turk拒绝包含4字节UTF-8字符的CSV HIT文件-例如Emoji。然而,Emoji字符是工人任务不可或缺的一部分,我需要保留它们。
我在https://github.com/charman/mturk-emoji中找到了这个脚本,它将Emoji字符替换为等效的HTML跨度(例如,)。然而,当将预处理的CSV馈送到MTurk时,Emoji字符不会呈现。
1条答案
按热度按时间krugob8w1#
我按照这些步骤设法解决了这个问题。
1.使用链接的GitHub repo中的脚本
encode_emoji.py
将CVS转换为UTF-8 Emojis。你得到,比如说,sample_with_emoji.csv
。1.在Mechanical Turk中,编辑当前项目并转到
Design Layout
。为了正确呈现带有emoji字节的HTMLspan
,您需要在MTurk的HTML编辑器的开头添加以下代码:上面的内容基本上是repo中README文件底部的内容,脚本
decode_emoji.js
是内联添加的,而不是源代码。1.按下保存键就可以了。现在,如果您上传
sample_with_emoji.csv
文件,表情符号将在预览中正确呈现。