2016-07-26 14:51
为人工智能服务的数据处理众包平台
(一) 大数据在机器学习中的重要性
图一高质量的训练数据是是智能化水平提高的关键
众所周知,训练一个好的人工智能模型需要大量的数据,目前基本上是数据越多,质量越好,得出的模型效果越好。并且有了很好的模型之后,又能获取大量高质量的输出数据,所以,训练数据的质量高低直接关系到预期结果(识别/预测/推理)的正确性和准确性。但与此同时,却存在着另外的一个悖论,就是在任何一个人工智能算法的训练初期,队训练数据的预处理工作,确实无法用机器完成的。当针对海量的训练数据做预处理的时候,即便是一个相当简单的处理,例如打标签,所带来的工作量,也会随着观察维度数量的增长而飞速增长。
在共享经济高速发展的今天,这个模式正好为海量训练数据的处理提供了一个契机。借助这个模式,数据的拥有者可以把数据的预处理任务化整为零,分散到不同的处理节点(各类移动客户端或者常规的Web客户端)上去,待预处理完毕,再由平台统一回收,再经专业的质量控制人员采用抽样等质量把控手段,完成二次筛选。
(二)博彦科技的数据处理众包平台-“有月饷”
数据处理的种类和方式
▪ 图像识别:通过大量图片标注,帮助用户训练机器学习,以提供更多图片相关的智能应用。
▪ 人脸识别:通过对年龄、肤色等多维特征进行人脸、人体动作标注,帮助训练机器学习,实现人脸检测、刷脸支付等功能。
▪ 信息检索:基于人工判断优化、分词标注技术,智能推荐最优页面,帮助优化搜索引擎结果排序,提高用户体验
▪ 语音识别:大型语料库中不同场景、不同发言人的语音内容识别,并转化成文本,帮助实现智能识别语音指令、语音搜索和语音对话等功能
▪ 语义分析:在当前语境下分析语义,然后对句子进行拆分,将句子中能够表达独立意义的词汇或短语用空格分开以告诉机器这句话的意思。
移动客户端App和Web客户端
图二,“有月饷”的移动客户端和Web端页面
▪ 主要功能
√ 任务发布:客户可以在在线发布任务,确定任务要求,明码标示出每单任务的酬劳价格。
√ 任务领取:在线认领任务以后,可以即时完成,提交后,支付报酬。
√ 任务种类及如何完成任务的介绍:无论是移动客户端还是Web端页面,都以图文并茂的介绍和操作示例来指导任务认领者高效高质的完成任务。
▪ 特色亮点
√ 任务内容描述简洁明确,粒度划分大小适中,适合任务认领方使用碎片时间,随时随地完成。
√ 任务认领对象主要为学生,这一任务认领群体,整体对新鲜事物领悟快,认可度高,而且整体的IT素养较高,为任务完成的高效性和准确率提供了人力保障。
√ 明码标价,完成即付,概不拖欠。诚信认领任务,即时完成,即时支付,‘有月饷’诚信兑现每单任务的酬劳。
可靠的数据质量把控
图三,质量把控概括图
▪ 团队:400人全职数据服务团队,超过10万众客
▪ 团队构成:大量6年以上50人项目管理经验
▪ 质量管理机制:人力配比,标注质检流程,项目预案
▪ 质量管理:阶梯化,抽查制,互查制,反馈制
▪ 背景:10年数据服务经验,世界一流互联网公司及人工智能公司服务经验。数据类型及应用覆盖大部分产品及应用。
(三)成功案例介绍
▪ 服务对象:国内最大的C2C电商务交易平台
▪ 服务内容:对商品的主要元素、颜色、纹理、款式等进行特征提取,并对学习后的搜索结果进行评测优化
▪ 客户收益:电商周年活动日期间,用户通过以图搜图功能成交超过数千万元
规模:
网站: http://www.beyondsoft.com/
粉丝0
服务热线:010-58423356