期刊及会议

tcdb_qkjhy

DSE精选文章 | 基于众包的困难搜索任务设计与任务集构建 A Crowd-powered Task Generation Method for Study of Struggling Search

Data Science and Engineering (DSE)是由中国计算机学会(CCF)主办,数据库专业委员会承办,施普林格·自然(Springer Nature)集团出版的开放获取(OA)期刊。本篇文章精选自DSE最新一期发文,得到中新赛克赞助文章处理费。


文章介绍

困难搜索 (struggling search) 是指用户使用搜索引擎进行信息查询时,由于缺乏与查询内容相关的背景知识,无法给出准确的查询关键词或识别目标搜索结果等,从而无法及时搜索到有效信息的搜索情境。

困难搜索任务集的构建对协同 Web 搜索、交互式信息检索(IIR)等许多领域都是关键一步,正如TREC在传统信息检索技术发展中所发挥的作用。一个标准化、且规模足够大的困难搜索任务集,对探索合作搜索技术、研究用户行为等工作具有重要意义。然而,生成困难搜索任务往往需要具备一般用户不具备的专业背景知识,远比生成传统的简单搜索任务要复杂,目前仍没有一个统一标准的大规模的搜索任务集可用于困难搜索的行为研究或系统评测。

针对这个问题,本文设计了一个基于众包的困难搜索任务生成方案,这个方案利用知识库(knowledge base)中常见的复述语句(paraphrasing sentence)的特点,将困难搜索任务的生成过程转化为普通人可以理解并执行的步骤,从而降低搜索任务的生成成本,实现困难搜索任务的大规模生成。本文的主要工作包括:

1. 困难搜索任务创建

本文提出了一个基于众包的困难搜索任务创建方案。此方案的核心思想是利用网络文档库(online wiki如维基百科)中广泛存在的陈述句式复述语句。这些复述语句一般具有信息冗余、文字表达口语化、信息点描述不准确等特征,且通常语句有明显的关键词特征,如带有“in other words”“that is to say等解释连接词。将复述语句通过句式转换变为疑问句式的搜索问题后,转换成的搜索问题在语言描述上也具有表达口语化、信息点表述不准确等困难搜索任务的基本特点。在此,困难搜索任务生成模式可概括为三个步骤,分别是(1)复述语句识别、(2)复述语句过滤与隐藏、(3)复述语句句式转换。

基于上述困难搜索任务生成模式,本文设计并实现了一个基于众包的困难搜索任务生成平台TaskGenie该平台包含(i)任务生成模块和(ii)任务搜索模块,分别用来(i)组织众包实验生成困难搜索任务;(ii)组织用户实验研究用户困难搜索行为或分析生成的困难搜索任务特征。图1TaskGenie交互界面。目前,平台支持对包含解释连接词“in other words”“that is to say”复述语句自动检索。

图片1

1 TaskGenie交互界面

本文以众包的形式邀请不同参与者使用TaskGenie任务生成平台分别进行困难搜索任务构建实验。经过筛选,最终平台共收集到135个众包用户与平台交互设计创建的搜索任务。

2. 困难搜索任务验证与评估

本文分别从任务主题分布特征、检索词特征、点击行为特征、任务难度四个方面分析众包创建的搜索任务是否满足困难搜索任务特征,以及是否能让搜索用户产生困难搜索行为。为此,本文邀请众包用户进行全网范围的搜索实验。

2表明通过本文提出的众包形式,众包创建的困难搜索任务涉及主题广泛。搜索任务主题多样化符合搜索任务集构建的基本要求。

图片2

2 生成搜索任务的主题分布

3表示解决众包创建搜索任务过程中用户的检索词变化过程示例。我们发现,由于生成的困难搜索难度较大,在检索开始时,用户会选择直接将整个问题输入搜索引擎发起检索,检索词长度较长。当无法定位准确答案后,用户尝试理解搜索任务并逐步细化为具体子问题,检索词长度随之变小。这种变化一定程度上符合用户困难搜索行为特征。

图片3

3 用户检索词变化过程示例

4表明无论是任务成功用户还是任务失败用户,其前三次优化后检索词均与第一个检索词相似度很高。根据先前相关工作,这种相似度特征证实了生成的搜索任务成功地触发了用户的困难搜索行为。图5表明任务失败用户每次发起新的检索会话后,其post-query点击次数逐渐减少并最终放弃点击搜索结果,侧面说明用户的检索词对其信息需求描述不准确。同时经过统计我们发现,用户的搜索过程中出现了大量快速回跳点击。基于相关工作,这种用户点击行为特征也证实了生成的搜索任务成功地触发了用户的困难搜索行为。

图片4       图片5

      图4 检索词相似度变化                                    5 每次检索后的点击次数变化

本文统计了用户对平台生成的搜索任务的难度反馈和造成用户困难体验的原因。我们发现,用户普遍认为由平台生成的搜索任务难度较大,且难度高于其在生活中遇到的一般信息查询类问题。6表明,搜索任务使得用户产生困难体验的三个主要原因分别是:问题本身复杂度高、很难辨识与搜索任务相关的有效网页、任务涉及细节难度大。以上三条与困难搜索任务造成用户困难搜索体验的主要原因相吻合。因此从用户反馈角度,我们证实了生成的搜索任务符合困难搜索任务特征。

图片6

6 困难体验原因统计

此外,本文通过缩小搜索空间,设计与典型信息查询任务的对比实验,进一步评估生成的搜索任务特征稳定性。实验结果表明,即使搜索空间缩小,搜索空间内有用信息占比提高,生成的搜索任务依旧满足困难搜索任务基本特征,触发用户的困难搜索行为,任务难度明显高于典型的信息查询类任务。

最后,本文分别从人力成本和众包花费两方面,评估了基于众包的困难搜索任务生成成本分析表明,众包用户创建困难搜索任务时平均需与平台交互12分钟,经过少于2次点击;每个困难搜索任务的众包花费为1.5美元。与先前工作相比,本文提出的困难搜索任务生成模式具有较好的成本优势。

3. 困难搜索任务集与平台发布

基于上述工作,本文将生成的困难搜索任务整理一个包含80个困难搜索任务的任务集,并发布了匿名处理后的用户测试数据和TaskGenie在线搜索任务生成平台,今后研究提供基础。


作者简介

图片7

许鲁彦就职于中国北方电子设备研究所,研究方向为信息检索


图片8

周烜,华东师范大学现任数据科学与工程学院教授,研究方向数据库系统和信息检索技术。


期刊简介

2-7

Data Science and Engineering(DSE)是由中国计算机学会(CCF)主办、数据库专业委员会承办、施普林格 自然(Springer Nature)出版的Open Access期刊。为了迎合相关领域的快速发展需求,DSE致力于出版所有和数据科学与工程领域相关的关键科学问题与前沿研究热点,以大数据作为研究重点,征稿范畴主要包括4方面:(1)数据本身,(2)数据信息提取方法,(3)数据计算理论,和(4)用来分析与管理数据的技术和系统。

目前期刊已被ESCI与SCOPUS收录,CiteScore2020为4.9,在Computer Science Applications领域排名#181/693(73rd Percentile)。稿件处理费由赞助商中新赛克(Sinovatio)承担,欢迎大家免费下载阅读期刊全文,并积极投稿。


原文链接:https://link.springer.com/article/10.1007/s41019-021-00171-3