每日最新情感日志速递平台 第一时间了解互联网的新鲜句子。

他们的结论大概在5到10之间

发布时间:2019-04-04 15:47 类别:数据库

  众包是一种通过互联网朋分劳动稠密型使命的手艺,将它们分成几小块,几十个,几百个以至几千小我在办公桌上完成每个几美分。

  麻省理工学院计较机科学与人工智能尝试室的研究人员正在开辟一种名为Qurk的新数据库系统,该系统将主动群集难以或不成能施行计较的使命。例如,存储在尺度数据库系统中的图像能够按照建立日期或一些其他数据标签进行分类,无论是主动使用仍是手动使用。然而,Qurk数据库中的图像能够按照所描画的人的大致春秋,或所描画的位置作为旅行目标地的吸引力,或其评估需要人类判断的任何其他属性来进行分类。

  在客岁的一对会论说文中,研究人员描述并展现了Qurk的一般计较框架。在他们本月在第38届超大型数据库国际会议上颁发的一篇新论文中,他们深切领会了一系列尝试,描述了若何最好地将常见数据库操作众包“排序”和“插手”。研究人员发觉,利用最较着的毗连操作实现,通过亚马逊的Mechanical Turk众包揽事组合两组图像需要破费67美元。通过尝试得出的改良实施,他们能够将成本降低到3美元。

  “当你利用像SQL如许的言语以声明式样式编写数据库查询时,”计较机科学副传授和Qurk论文的作者之一Rob Miller说,“数据库系统能够优化它们:它能够找到最快的体例,或资本最廉价的体例 - 无论这些资本是什么 - 做到这一点。您没有指定相关若何完成的所有细致消息。该系统将所有这些都处理了。“

  同样地,亚当马库斯(Adam Marcus) - 他与研究生Eugene Wu一路带领Qurk的成长 - Qurk旨在利用户无需细致申明若何众包数据库操作。“你能够说,我有这些图像调集,我想按照它们的可爱程度对它们进行排序,系统将真正弄清晰若何对数据集进行排序,”Marcus说。

  众包对于对人类来说微不足道但对计较机来说很难(若是不是不成能)的使命出格有用。范式如许的使命是图像识别:即便是最复杂,最耗时的图像识别算法也无法像人们那样分歧地识别图像中的对象。因而,在他们的尝试中,研究人员专注于图像数据库。在所有三篇Qurk论文中,Marcus,Wu和Miller都插手了电子工程和计较机科学系Sam Madden和David Karger传授的工作。

  若是你筹算利用Mechanical Turk来按照他们的可爱程度对图像进行排序,那么最较着的方式就是要求新兵 - “Turkers”,由于他们凡是都晓得 - 一次比力两个图像和排名他们; 然后,算法能够将成对排名拼接成主列表。麻省理工学院研究人员正在研究的工作之一是,Turker能够预期一次陈列几多图像并仍然供给有用的数据,按照使命的分歧,他们的结论大要在5到10之间。

  他们还将排名方案与评级方案进行比力,此中Turkers将为每个图像分派一到五颗星的评级。受亚马逊和Netflix等网站青睐的评级系统具有着名誉扫地的错误谬误,但麻省理工学院的研究人员开辟了一个界面,除了要评级的大图像外,还有一行10个较小的图像随机抽取数据库。因而,Turker评级他或她的第一张图像将对数据库中图像的平均可爱性有必然的感受,并可响应地校准评级量表。

  研究人员发觉,虽然排名供给了更精确的分类,但颠末校准的评级系统表示超卓得多且廉价得多。按照排序使命,完满精确性和用户预算的主要性,Qurk因而能够利用排名或评级或两者的夹杂,此中评级供给了初始排序,然后更高贵的排名然后改良。

  除了排序操作之外,研究人员还测试了毗连操作的众包实现,它归并了包含弥补消息的数据集。例如,一个数据集可能包含通过其名称援用公司的条目 http://takahangha.com/shujuku/19/


你可能喜欢的