编辑导语:用机器做的训练集训练机器是一件有趣的事情。很多兼职平台上的人都是量产AI训练集,重复是他们工作的常态。随着AI和机器的不断自我训练和进化,AI训练AI是在不远的将来,未来这类平台的可能性会更小。
我们和何鑫谈话的时候,他正在做数据标注。
电脑屏幕上的图片,三三两两的人在操场上,跳绳或者看。何鑫想做的就是用鼠标框住正在跳绳的人。“你说出来可能不信,就画这个框吧。”何昕解释说:“比如你现在打开电脑,然后按下鼠标右键,拉一下,桌面上就是一个盒子,3分钱。”
何新在做数据标注工作,何新是为了图片。
何昕做数据标注已经一年多了。他成立了一个十几个人的小型创业团队。他们的项目涉及百度、网易、阿里等互联网巨头。他还做细致的“点点”工作,类似于在一只鞋的边框上点点一个星期,赚一两毛钱。
“阿里巴巴众包、JD.COM微工程、百度众包、有道众包.”市面上有很多这样的产品,它们的主要卖点就是利用碎片化的时间赚取收入,操作简单,没有门槛。这类大互联网公司推出兼职平台,主要以众包的形式将任务分配给用户,用户通过完成任务获得报酬。但是相比这些大厂商的知名产品,兼职平台的下载量并不高。
查询产品下载统计平台麦琪的数据后,我们发现最近30天,AppStore中阿里众包、腾讯搜狐帮、JD.COM微视、百度众包等4款产品的日均下载量都没有超过2000。
来源:麦琪数据查询时间:2021年4月27日
从产品数据来看,大互联网公司的兼职App只能说是不温不火。在灵活就业和兼职经济高度发达的当下,为什么这些兼职app还没有做好?谁在做这项工作?
# 1.收入太少,很难得到羊毛。
在大互联网公司生产的兼职APP中,运营流程是:平台发布任务,用户收到任务验收后获得收益。从各个平台的综合来看,主要有数据标注、数据采集和数据传递。细分到具体领域,它又分为信息处理的文字、图片、语音、视频等部分。任务的价格一般从几十美元到0.1元不等。
在腾讯的搜索帮里,李源接了十几单任务,收入不到两块钱。
放弃并不是因为缺钱,而是因为这份工作过于机械化和重复性的工作让李园很不舒服。他在大学主修电子信息工程,毕业后的工作比较闲。为了赚钱打发时间,李源下载了这个众包软件。
众包,通俗地说,就是从公众中寻找资源。它是指公司或组织将员工过去执行的任务以自愿的方式外包给不特定的(通常是大型的)公共志愿者。
以JD.COM微科技的数据标注为例,在最新的任务中,要求对文本进行情感判断,根据自己的认知选择文本是正面、中性还是负面。结算分为两点一项,以10项为结算单位,准确率为100%。
资料来源:JD.COM微型工程公司
数据采集一般是音频、图片和视频采集。周舟热衷于数字收藏。2019年高中毕业后,他开始尝试这个领域的兼职工作。两年时间,他赚了3000多。“我没有天天去看。阿里众包在年末、年初、年末都有很多任务。”
每一项任务,都有明确的要求。周舟认为这一点非常清楚,它可以迅速区分什么是好的,什么是不好的。
来源:阿里众包
与数据标注和采集工作相比,数据传输的门槛略高。所谓数据转录,主要是各种语言的翻译工作。比如在众包的少儿英语片段音频转写中,要求根据事实进行转写,如拼写错误、语法错误等。这对于英语水平不低的受访者来说。
来源:有道众包
为了保证用户提交的产品质量,除了对提交的内容有要求外,用户在提交前也要经过培训。在腾讯搜索帮助中,需要先参加考试,考试通过后才能答题。周舟曾经做过这种类型的试题,完成了20道题,得到了11道正确的题。他得出结论,他会裸考不及格。
李园没有参加过这种考试。“这种话题需要耐心和细腻的语感,而我是一个大大咧咧的人,屡次失败带来的挫败感太可怕了。”
图源:腾讯搜活帮
等平台发任务――做任务――等平台审核是这类众包软件使用的常规流程,而在这些流程里有任何一个环节脱节,都会带来不好的用户体验。
下载软件发现无任务可做,做任务时发现门槛过高,任务完成发现审核太久,审核后发现正确率不合格……在这条任务链里,用户会遭遇各样的问题,有网友在五个任务都审核失败后发文称“费力不讨好。”
部分平台审核不合格后,价格会打折扣。但还是有人赚到钱了,在有道众包的3月酬劳排行榜上,第一名酬劳1945.99元。周舟对于自己两年多攒的3000多元表示满意,“因为目前还是在校生,没有工作。”
“一小时10元吧。”何信评估了一下做众包工作的平均报酬。
# 二、用户下沉,也在内卷
兼职众包的平台用户,有一种团队化的趋势。
就目前市面上的众包产品来看,任务很多是不定期推送的,新用户注册后平台上有可能面临无任务可领的情况,而相较于加公会做团队而言,普通用户赚的钱是很少的。
而这份工作的主力,互联网巨头们可能也并没有瞄准客户端的普通用户。据何信了解,向他这样做团队接项目的同行有不少,在平台活跃着的也有很大部分是像他们这样的团队。
相比于单独个人当兼职做,团队化容易的多。价格在近些年也有了不小的变化,以前价格很贵,现在的价格越来越低,由此带来用户的不断往下沉淀。何信表示用户下沉是要找便宜的劳动力。
2016左右,那时候做数据标注的人还不是很多,何信说那时候价格是目前两到三倍,画一个框大概七八分钱。“以前做的人少就挣钱,现在做的人多了就不值钱了,就这个意思。”兼职众包的用户们,也在不可避免地遭遇内卷。
在何信团队里,一个成熟的员工一小时能画600个框,按照一个框3分的标准,能赚18元。“但是这个价格是我完全不赚钱。”何信说。而3分的价格在面向用户的平台里很少出现,在用户平台端三分的价格算是很高的。何信找的熟人介绍做项目,一般接一个项目几千上万的量,然后做上一个月。
这个行业流动性很大,重复性劳动和越来越低的价格让很多人止步于此。何信的团队不算大,上个月还是五六个人。来的员工一般都是学生,兼职在做这份工作。五六个兼职的同学才能留下一个,何信对自己团队流动习以为常。
“一开始不熟悉业务,做不了那么快,几乎就赚不了什么钱,完全看自己做的数量。”何信解释团队流动大的原因。
除了数据标注,何信的团队也做过涉及语音转义、数据采集等方面的工作,两三岁孩童的语音、粤语、陕西话的转义他们都做过。语音转义一般来说三分钟能给到七块左右,数据采集工作相对来说赚的更多,但过于费时费力,这块业务也慢慢搁下了。
“车道线、车、人脸,人体……”何信做的数据标注类目有很多,但都是二维的。数据标注的同行们有的在做三维标注,这样的工作日薪能达300元左右。
图源:百度众测
但这样的薪资并不是普遍化的,简单重复性的二维图片数据标注工作薪资并没那么可观。
小作坊的出现,是数据标注团队的一个大趋势。何信对于这份工作的人有大概的画像。在城乡结合部,或者乡村小作坊,有那么一批人,二三十岁,学历不是很高,就在县城做这样的工作。而很多人也有投资这种数据小作坊的打算。
“我就形容它是网络时代的那种手工作坊。”何信对这种城乡结合部的小作坊下了一个定义。
“网络时代的民工?”
“完全就是民工了,这不是调侃。”
# 三、互联网大厂,为什么需要人兼职训练AI
“训练AI啊。”
何信很明确的知道自己所做的工作,电子信息工程专业的李元也知道这份工作的意义,“平台给你提供的题目相当于是一个训练的样本。所有你做的题目就是AI的训练集,它会通过人类的这种思维判断去训练AI。”
“能知道的只有他(平台)告诉我的。具体数据去哪了,用于什么了,没有去深究。”周舟只知道平台告知的信息,在阿里众包的一个任务中显示,您接受的任务中涉及对个人信息的收集,任务发布者承诺在此任务中收集到的个人信息将会用于“算法训练――牙齿病种识别”的目的,并仅限于任务发布者使用,并不向任何第三方转让、共享以及披露,匿名化或去标识化的除外。
图源:阿里众包
“我们要教机器认识一个苹果,你直接给它一张苹果的图片,它是完全不知道这是个什么东西的,需要现有苹果的图片,上面标注着“苹果”两个字,然后机器通过学习了大量的这类图片,才能认识苹果,其中将图片表示为“苹果”的工作就是数据标注。”
腾讯搜活帮用上述例子,说明了数据标注的意义。数据标注员的工作就是在教机器学习。
人工智能包含着机器学习,而监督学习是机器学习的一种训练方式,通俗来讲,是要给机器一种标准答案来不断进行训练,以此来达到人类一些识别认知的能力,这也是深度学习的一个目标。
深度学习的成功所依赖的既不是算法,也不是计算能力,而是训练和验证数据的可用性,这些数据最终是通过人的参与获得的。这是一个非常重复性的劳动,因为机器学习需要大量的样本,大量的样本是由无数重复性劳动所造就的。
而这种重复性劳动在很早之前就有了。2003年,一款“ESP游戏”就用了这种劳动,它的目的是通过互联网上人们的自由参与来获得描述图像的标签。
在一个游戏中,两个玩家在屏幕上看到相同的图像,并被提示输入描述该图像的关键字。他们看不到对方正在键入什么,但如果两人输入相同的关键字足够快(“匹配”),他们就会得到分数。实际上,这些关键字可以用作图像的精确标签。“ESP游戏”后来被谷歌收购,被称为谷歌图像标签。
不止人工的重复性劳动,验证码也是训练机器的一种方式。验证码本身是在人机交互中构建,以验证用户实际上是“人工用户”的工具。
reCAPTCHA公司扩展了这一原则,将人类用户的反应重新用作工业深度学习项目的培训数据。为此,用户需要解决一个小任务,如图像识别或文本识别,这对人类来说是一个低的障碍,但对计算机机器人来说是一个高的障碍。而reCAPTCHA也被谷歌收购了。
科技自媒体“品玩”曾报道过类似的现象,验证码越来越有内容,比如标注门牌路牌,让用户帮分类数据库等。“品玩”也指出在 reCAPTCHA 官网上,Google
公开说明了 reCAPTCHA 集众人之力标注数据,训练 AI 的“众包”模式。
网络中识别图片的验证码
捕获人类的认知的方式已经不再局限于众包中的重复性劳动,将人类的认知嵌入到计算机网络中,让人和机器的关系更加密切,而这种隐性的认知捕获在互联网的各个角落都在发生着。在重复性劳动不断减少的当下,何信准备谋求新的出路。他的同行朋友们已经开始在做简单的数据AI,让简单型的数据标注工作交给机器来操作。
用机器做出来的训练集来训练机器,是一个有意思的事情。
在城乡结合部,一批二三十岁的人正在批量生产着AI训练集,重复是他们工作的常态。也正是因为如此,工作枯燥、报酬微薄,充斥着“训练AI”任务的众包兼职平台相当乏味,劝退了不少被兼职平台大厂背景所吸引的用户。
而随着AI和机器的不断自我训练和进化,AI训练AI就在不远的未来,这类平台的未来可能性将会更小。
备注:以上何信、李元、周舟均为化名
参考资料:《Human-aided artificial intelligence: Or, how to run large computations
in human brains? Toward a media sociology of machine learning》,Rainer Mühlhoff
作者:刘鑫,编辑:园长;公众号:刺猬公社(ID:ciweigongshe)
原文链接:https://mp.weixin.qq.com/s/WzBGk2TMEQp69yJtMG8wQA
本文由 @刺猬公社 授权发布于人人都是产品经理,未经许可,禁止转载
题图来自 unsplash,基于 CC0 协议