韩三千小说

手机浏览器扫描二维码访问

第111章 系统改造(第1页)

6道升总算赶在出去北京之前完成了对c.{0,10}o.{0,10}m爬虫系统的改造。在原有流程上做了一些优化,以及新增了一个在线的评审系统。

前世c.{0,10}o.{0,10}m创始人李兴平是通过个人的全身心投入来保持c.{0,10}o.{0,10}m的不断更新和迭代,每天要花十多小时在人力检查链接是否失效或者被移花接木的问题上。

失效的问题对6道升来说很好解决,就是网站打不开了而已,可能是暂时的网络问题,也可能是确实网站停止服务了。

总之就是写程序通过网址来请求网站内容,分时段多试几次,如果都请求不成功,那就是失效了。

最多再加一个每个时间段内失效网址数量的监控,占比不阈值,那么就确认这是失效网址,如果过阈值,可能是网络问题造成网站集体访问失败,送报警到6道升邮箱但不做处理,等过段时间再次检测即可。

网址被移花接木就很麻烦了,想通过技术手段对比会很费事,投入产出严重不值得,大头还是靠人工。

有很多网站运营一段时间后难以为继,就会关张大吉,其拥有的网址往往会被其他人买走另作他用。

这个另做他用对6道升来说就很头疼。

比如之前做游戏的网址被换成做娱乐,那就应该从游戏分栏里转移到娱乐分栏。更头疼的是还有的网址直接被买走搞成了涉黄网站,这就根本不能留了,得直接干掉。

而要做以上判断,就需要人工审阅。

为了减少审阅工作量,6道升特意写过一个对比过滤的流程,即把网站上一次的文本内容缓存下来,下一次爬取时进行一个对比,如果网页结构和内容变化比例没过阈值,则直接略过,认为可以保持原有判断,如果过阈值,那就整理起来输出为列表,再由人工来一条条对比审核。

6道升本以为针对不同的网址分类,可以通过设置不同的差异度阈值来进一步减少需要人工审核的数据量,结果现同网址分类下各个网址的更新强度天差地别,很难得到一个大分类适用的数值,只得作罢。

另一个雪上加霜的情况就是新网站越来越多,新网站的加入都需要人工处理以确定是否有收录的价值,以及如何分类、排序。

虽然通过技术手段已经压缩了绝大部分的工作,但是c.{0,10}o.{0,10}m带来的时间开销在不断攀升,6道升有些担心自己哪怕加上左文杏的时间精力都不足以在保障好网吧管理系统开的同时做好c.{0,10}o.{0,10}m的维护工作。

而在c.{0,10}o.{0,10}m带来正向的广告收入之前,这段时间股市的收益也没有兑现,6道升手里的可用资金并不多,招不起人。

也不是说招不起几个临时工,或者找几个网管就当给他们个机会赚赚外快,但是这样的人的责任心很难保障,钱不怕多花,事儿不能做岔了,宁可等手头充裕了挑几个合用的。

现阶段,就只能依靠技术优势暂时压住增长的运营人力开销了。

另一个在线的评审系统,则是6道升在浦外听到人议论自己时临时想到的,那就是能不能把c.{0,10}o.{0,10}m的审核工作给改造一下,然后变成可以分的小块任务,通过邮件分给不同的人来处理,处理完成后进行结果的集中处理。

联想的过程大概如下,听到有人议论自己,觉得自己好厉害,心中先暗爽一会儿。

接着想到议论自己的可都是素质极高的大学生,个人素质过硬,这要是能凭自己现在的校内名气给请来帮自己分担一些c.{0,10}o.{0,10}m的人工审核工作,自己可能就不用天天担心对c.{0,10}o.{0,10}m的精力投入不足,有一天会被竞争对手干掉了。

而想到这种多人分担工作任务的情景,6道升立马回想起前世出现的一种人工标注平台的业务模式(比如appen.)。

在大数据时代,为了使一些机器学习算法取得良好的效果,就需要大量的样本数据供算法进行模型训练。但有时候搜集不到那么多的有效样本数据,就需要人工进行诸如文章分类、图片标注等工作,来人力产生足够多的样本数据。

也有一些靠机器学习算法解决不了的问题,比如色情图片,恶意评论等等,也需要人力审核来进行捕获。

以上这些事情,大大小小的互联网公司都有需求,但是绝大多数公司都不会亲自雇人来做这个事情,而是会转交给专门从事标注工作的第三方公司来完成。

标注工作在参与人员上也有讲究,那就是不能人员数量太少且固定。如果就是雇佣几十上百个人,然后去标注百千万的数据,那么很可能会出现认知偏见。最好是能有更多的不相关的人来参与标注,这样累积出来的数据才不会出现明显的偏向性,才能让机器学习算法训练出适用性最强的预估模型。

为此,这些标注公司演化出了一种分派式的业务模式。

即先从需要对数据进行标注的公司那里获取待标注的数据合集,然后将数据合集分割成一个个数量很少适用于单人的问卷,再将这些问卷通过自己构建的平台分给平台上的答题人。

一份问卷会多次分配给不同的答题人,以降低回答结果因为个人偏见而离实际太远的概率。

这些答题人可能是在校学生、可能是家庭主妇、可能是待业青年、可能是公司白领等等等等,总之只要在平台上注册了答题人账户,且通过了一些很基本的测试,就可以获取分派的标注问卷,通过回答问卷来获取一定的金钱报酬。

虽说这种在大数据时代兴起的标注平台需要互联网普及带来的上网便利,加上电子支付的展带来的支付便利,此时不能直接照搬,但是这种思想还是可以借鉴的。

c.{0,10}o.{0,10}m的日常维护工作并没什么特别的技术含量,主要就是耗时耗力,完全可以采取类似的方案进行工作切分和派。

不仅能解放自己,更重要的是可以集众人之偏好综合评断,就算出现李兴平这样对用户需求具备深刻洞察的竞争者,在6道升这种直接聆听大众用户反馈的方法面前,也占不到太多便宜了。

系统开暂告一段落,6道升给芮青打了通电话告知行程后,收拾好行装就坐上火车开始一路向北。

火车上,6道升皱着眉头回想着和芮青的通话。

电话是拨给芮青在北京的住处,也就是自己帮芮青找的地方。

只是在互道再见准备放下电话时,6道升似乎还听到了另一个女人的声音。

……

喜欢此生应无憾请大家收藏此生应无憾本站更新度全网最快。

热门小说推荐
奶包三岁半,我是全豪门的团宠

奶包三岁半,我是全豪门的团宠

三岁半小奶团小岁安在孤儿院过着吃不饱穿不暖的日子,只吃一个馒头都会被院长挨打怒骂,在小岁安被饿晕的前一刻,天降神秘霸气的豪门帅爸爸,将她带回家。秦氏总裁冷...

总有逆臣想撩朕

总有逆臣想撩朕

文案宋悦穿成了一个女扮男装的亡国皇帝。穿越当天,权倾朝野的逆臣谋反逼宫,杀到了她面前。龙椅还没坐热,就当场去世。死后,宋悦重生了。系统趁着逆臣还小,一切都来得及挽回!宿主快上!抱大腿!养好感!把他攻略掉!宋悦不,我要收养他,掰正他,培养他,把这朵染了毒的黑莲花培养成我的忠犬大贤臣!等他成为了我干儿子,总没有带兵杀老子的道理吧?宋悦身处日渐腐朽的燕国,面对空空如也的国库,一面发展经济,一面与各怀鬼胎的臣子斗智斗勇,和虎视眈眈的邻国艰难建交。最后,终于让燕国走向正轨。转眼又到了逼宫的日子,他却带了几大车聘礼进宫。宋悦你终于长大了,不过别给朕戴绿帽,后宫妃子的主意不准打。除非除非你肯做我干儿子,叫我一声娘!逆臣娘子。1架空背景,剧情偏苏爽的搞笑文,谁都帅不过女主2女主在感情方面脑回路清奇,我把你当儿子,你却的故事内容标签穿越时空女扮男装朝堂之上主角宋悦┃配角┃其它...

渣女改拿救赎剧本【快穿】

渣女改拿救赎剧本【快穿】

简介关于渣女改拿救赎剧本快穿沈知念死后才得知她是十世渣女,所以她的倒霉体质也就有所解释了。为了赎罪,也为了有投胎的机会,她被迫绑定渣女洗白系统,开启漫漫赎罪路。赎罪路上,她现自己就是个大傻子,以前的她这么忍心辜负这么好的他们呢?所幸一切都还来得及,她还有机会。她从一开始的不情愿到后面的甘之如饴,她是真的爱上了他们。而且沈知念现,只要自己往前走一步,他们就会毫不犹豫的奔她而来,宠她入骨。在她不知道的时候,已经有人朝她走了99步。女主的渣是有原因的哈,可以把女主和原主分开来看一抛夫弃子的知青完二精神出轨的女总裁完三总裁的作精老婆完四无能且家暴的妻主完五杀夫证道的剑修...

穿成虐文恶毒女配,疯批反派跪求我当他王妃

穿成虐文恶毒女配,疯批反派跪求我当他王妃

作品简介阮娇娇一觉醒来,现自己穿书了。她正趴在一位俊美王爷的身上。什么书这么好,一过来就男人?后来阮娇娇才知道,她睡错了人。她睡了虐文中爱慕女主冷酷无情且患有狂症的反派秦越!作为恶毒女配,她最后的结局被秦越削成人彘,装在瓮里。瑟瑟抖阮娇娇他要杀我了!他正在杀我!他娶我也是为了杀我!她逃,他追,插翅难飞可惜她逃不过秦越的强娶豪夺,反倒现自己的金手指她包治百病,是一颗行走的大补丸,且不止对秦越一人有效。于是阮娇娇开始了她开挂(作弊)的医妃生涯...

辞曾相识燕归来

辞曾相识燕归来

作品简介爱情的存在,可以是单方面付出,也可以是双向奔赴,更可以是同性吸引,所以你问我爱情是什么,爱情就是辞曾相识燕归来夏轩宇所写的辞曾相识燕归来无弹窗免费全文阅读为转载作品章节由网友布。...

每日热搜小说推荐