吕梁新闻网首页  > 首页  > 吕梁新闻

冯锦绣:专注数据标注 助力科技创新

□ 本报记者 王涛

2025年07月25日 08:20:29 来源:吕梁新闻网 编辑:成柏

人脸识别、无人驾驶、智慧安防、智能客服等人工智能产品正逐渐融入我们的日常生活,然而,这些热门的人工智能应用场景,是如何实现的,大多数人就知之甚少了。作为人工智能行业的基础,数据是实现这一能力的决定性条件之一,数据标注是数据采集的基础性工作。

冯锦绣是我市本土企业山西盛霖集团的一名业务骨干,虽然年仅26岁,却有着3年的数据标注技术研发经验,是吕梁数据标注行业的领军人物。

冯锦绣毕业于吕梁学院数学系。大学毕业后,她进入山西盛霖集团,开始从事数据标注技术研发。作为项目组组长,她带领公司60多人,刻苦钻研、辛勤工作,取得了重大成果,为我市数据标注行业的发展作出了突出贡献。在今年团市委主办的第十二届“创青春”山西青年创新创业大赛中,冯锦绣带着她的《数据标注》项目参加了数字经济类的专项比赛,受到了评委的广泛好评。

对于数据标注这一新兴行业,许多人都是云里雾里,感觉高深莫测。冯锦绣介绍说,数据标注是数据标注员借助某种工具软件,对人工智能算法的学习数据集进行加工的一种行为,是人工智能的基础性工作。数据标注的主要作用是为人工智能算法标记用于训练机器学习模型的数据集合。人工智能算法需要“吃掉”大量的数据,才能学会某种技能,数据标注的工作就是为人工智能算法加工“食物”。

冯锦绣说:“早期数据标注的工作是由研究人工智能算法的工程师完成的,但随着人工智能在商用场景的落地,待标注的数据量呈‘指数级’增长,他们已经无法完成大量的数据标注,出现了一些专门从事数据标注的人员。目前,学术界尚未对数据标注的概念形成统一的认识,比较认可的是由王翀和李飞飞等人提出的定义。他们认为,数据标注是对未处理的初级数据,包括语音、图像、文本、视频等进行加工处理,并转换为机器可识别信息的过程。”

当今社会,人工智能应用非常广泛,智能化应用正改变着社会生活的方方面面。冯锦绣说:“人工智能行业的快速发展需要海量、高质量的标注数据作为支撑,在人工智能产业高速发展的背后,数据标注这个新兴行业的从业人数也在不断增加。数据标注行业流行着一句话‘有多少智能,就有多少人工’。目前人工智能算法的学习数据必须通过人工逐一标注,这些人工标注为人工智能产业提供养料,构建起了人工智能金字塔的基础。目前国内已有大小近千家数据标注公司,有约20万的数据标注员。数据标注行业发展到现在已经不是简单的拉框或打点就能满足的,市场也对数据标注行业提出了更高的要求。从标注的复杂程度看,以无人驾驶的汽车拉框标注为例,以前只需要标注基本轮廓就可以,现在不仅从2D平面进化到3D立体,而且还要标注车头的方向、车辆的左侧和右侧、刹车灯是否开启、转向灯是否开启等。从学历要求方面看,之前有初高中文化程度就足以胜任数据标注这份工作,现在则普遍要求专科或本科的教育经历,而且某些标注项目还需要行业专业人士来进行,例如,涉及金融、医疗等行业的数据标注项目,如B超、CT的标注,必须由专业医师才能胜任。”

在冯锦绣的带领下,山西盛霖集团的项目数据标注团队成员都具备了丰富的标注经验和专业技能,平均标注准确率可达99%,显著提高模型训练效果。公司的标注业务,通过专业的标注团队,可以为企业提供高精度、高效率的数据标注服务。

冯锦绣说:“随着AI浪潮席卷全球,对于我们这样的数据标注公司而言,正是业务快速增长的时机。通过公司业务拓展和人员规模增多,公司承接业务能力与业务熟练度提升后,100人的数据标注团队预计第一年营业额能达到500万元,第二年增长至1000万元,第三年达到1500万元,年均增长率保持在30%以上。”