Tik Tok没有公布判断行为的算法和逻辑。一切都是猜测,包括世界上每个人都在谈论什么,所以让我们大胆猜测Tik Tok是如何判断原创性或处理的。
最简单最古老的方法自然是视频的MD5编码。只要我们不需要软件修改,不管下载保存转发多少次,他的编辑永远不会变。但是只要对视频内容稍加修改保存,就会重新生成这个MD5编码。因此,
这只是判定原创与否的第一重检测手段,并不是最主要的.
我们可以用压缩包工具看到视频的MD5编码,在菜单中选择操作和属性,如上图。现在这套已经过时了,修改编码太简单了,所以Tik Tok有更先进的技术判断。
那么我们如何判断呢?我们知道很多年前,图像相似度比较技术非常成熟,Tik Tok就用这个技术来判断视频是不是原创的。当然系统无法完全判断,因为数据太大,服务器无法加载,条件不允许,需要人工配合。这也是为什么我们上传视频的时候,系统也推荐了,在达到几千赞之后,就被判定为违法。
有编辑经验的用户都知道,中文视频的码率是每秒25帧。当然也有人以每秒30帧的速度拍摄视频,这样画面的流动会更加细腻。我们知道视频是图片连续流动产生的,所以可以拆分成图片,每一帧就是一张图片。当我们上传作品时,Tik Tok会合成视频。这个前台有提示,但其实这个合成不是上传。相反,质量在传输服务器中被压缩。在这个过程中,系统已经分割或未分割视频,并且保留了捕获的样张。每个视频可能有5-10个截图,开始和结束图片至少会拍一张,其他图片未知。
当我们上传作品时,系统至少会做四个动作,比如压缩视频降低音量、单独剥离音乐、截取样张、对比样张。其中,对比样张不仅仅是判断服务器中的视频是否重复,还可以判断视频样张中的图片是否包含广告和敏感内容。系统不是人眼,他无法知道什么是违法,什么是广告,什么是重复内容,只能对比数据图片。
过去流行过的朋友都知道,当一部作品的播放量超过一万的时候,会推荐人工审核。手册怎么知道作品是经手的还是原创的?这还是需要系统推荐的。刚才我们上传视频进行合成的时候,系统已经把这些数据全部对比了一次,所以会列出相似度高的内容,比如相似度91%,相似度85%,相似度80%。这些作品都是列出来的,前五名或者前十名,工作人员在与作品一致的时候,点击相似度视图,就可以很容易的识别出作品是原创的还是经过处理的。
广告和非法内容的识别是一样的。系统计算结果,列出它们,并手动比较数据。这也是为什么它从来没有在一个受欢迎的账户上。处理和违规活动供以后参考的概率很低。你知道这是怎么回事。
有人可能会问,Tik Tok还有一种说法,第二把火会打,但是第二把火会处理。按照你的逻辑,系统可以直接判断100%。这是一个处理过的工作。不管是哪张图片,都和服务器截取的对比数据一模一样。是的,是,但是你忘了第二把火有一个前提,就是同一个人出版两次。
自己的作品再次发布,不算搬运行为.