有多少人工,就有多少智能。目前的人工智能在被投喂了大量数据之后,才能认出三岁小孩子都能认出的东西,学会“黑猫白猫都是猫”。
当然,狸花猫也是猫。然而,在人工成本更高以及对数据标注要求更复杂的阿里云、百度云工程师们需要寻找其他出路来获取大规模的高质量有标记数据。
工作室开销
开销方面一般有以下几点
员工工资,一般当地的基础工资加上员工多劳多得的提成;
场地费用,工作室面积不需要很大能够容纳10-20人足以;
工具费用,能够正常访问浏览器的电脑价格很低。
工作室利润
拉对一个框能赚8分钱左右
员工需要做什么比如一组数据需要把图片上的碗、碟、杯子、筷子等餐具都框出来,然后选好属性、分好类。拉对一个框能赚8分钱,当然根据事情数据不同标注的内容不同价格也有上下的浮动。
一般新员工一周熟悉后每天能拉几千个框,给老板带来产值在400-600不等甚至会更高。
当然有标注就会有审核,审核就是检测标注的数据是否正确,是否完善等。数据的审核也是数据处理不可缺少的一部分,当然数据审核带来的利润会更高。
AI数据标注与审核的市场空间
2020年全球需要被标注的数据量达433EB,数据标注市场规模为13.1亿美元(来源前瞻研究),因此数据标注与审核行业的市场才刚打开,对于数据审核的要求也在随着数据质量的提高而不断有新的要求,也将迎来爆发式的增长。在众多的数据标注企业中,依然在沿用传统的标注工具,“小米加步枪”式地进行数据标注,这也导致数据标注审核行业依然逃脱不开魔咒,面临一些人才缺失、资源与需求不匹配等诸多问题。
从事数据标注半年多,从3月份到现在,已经快半年了。
但是,这半年的经历,真的让我感慨万千。我来这里是想告诉大家如果做数据标注会遇到哪些坑,让以后想做的朋友有个思想准备。
其实对于主办方和一线标签来说,坑是不一样的。这次从一线标签来看可能会有哪些坑?
1、项目周期短
其实项目周期短,不是坑。主要是短期数据阅卷项目,学习成本太高。没多久就学会了,打算放手的时候,项目没了!其实赚的钱还不如耽误的时间成本。时间成本其实是非常昂贵的成本!
2、长期项目被打破
长期项目的研究既复杂又困难。目前手头的长期项目至少需要3-6个工作日的培训周期,培训难度大,成本高。终于稳定了队伍后,我突然不说话了。对于贴标来说,突然无所事事,无论是心理上还是生活压力下,都突然加倍。数据标注本身就是计件工资,要花很大功夫去学习,切题也要花很长时间。如果很严重,可以贴上抑郁症的标签。
3、无限返工
这主要是为了一线质检。当质检员遇到项目发起人,对任务的要求100%正确时,这个问题就凸显出来了。保证标注项目的准确性是质检员的职责,但有一个基本情况是人会犯错,人不是机器。很难保证项目100%的准确性。但是如果是一线阅卷和一线质检,我统计过如果从事这个行业3个月以上,无论是质检还是阅卷,阅卷的项目准确率都会很高,因为阅卷的结果已经是身体的本能了。
4.遇到骗子
我们经历了打破问题的折磨。在破题之后,我们尝试了各种方法为大家寻找项目。当然要有学费。最痛苦的学费就是遇到一些不靠谱的公司,完成工作。一句话,质量不合格,包拿回来。无偿为别人工作。这种骗子公司,在贴吧、qq群到处行骗,打着试题的幌子骗人白干,有的人总是上当。
从组织者的角度来看,其实更难。投资设备,租房子,花大量时间招聘,花大量成本培训,结果还是各种坑。但发现很多贴标公司都在坚持。为什么坚持?
马云说:很多人相信是因为看到了,只有少数人在看到之前就相信了。
这就是原因。人工智能产业越来越发达。顶层算法确定后,需要数据集辅助算法进行深度学习。数据集的收集、清理和标注都必须手工完成,这需要我们的标注成员坚持并共同努力。
因为这个信念,大家还是一起坚持。为了家庭,为了在人工智能领域深化细分!
只要你完成卡槽,分工明确,相信在人工智能技术创新在各个领域不断爆发的情况下,你会获得更多的收益。
当然,为了避免掉进坑里我们又一次掉进去了。
我们精心挑选了四个长期稳定项目。都是图像标注处理,规则清晰,返工少,结算及时。我们还以通俗易懂的方式录制了这些项目的视频资料,包括行业内各种综合性的技术白皮书。让大家学会下载。关注后给我发私信获取信息!