数据是数字化的根基,数据清理是数字化最基础的技术之一,各个行业都会用到它。供应链管理活动会处理大量数据,有许多数据清理的场景,今天就来聊一聊这个话题。
相信许多小伙伴都听过这样一句话“Garbage in, Garbage out”,中文的意思是“输入数据是垃圾,输出的结果也是垃圾”。这个垃圾不是我们日常生活中的废弃物,特指无用的、错误的数据。为什么会是这样?这需要从数据处理的过程说起。
当我们从外部数据源获得数据后,根据一定的公式和模型对数据进行分析处理。源头是输入input,输出结果就是output。
我们可以把整个计算过程想象成一个函数公式,有些是无比复杂的计算,比如物料需求计算,已经不能依靠手工计算,必须依赖于MRP系统。
还有一些简单的线性函数,比如计算运输费用,一般会有一个基础起步价,然后根据距离乘以每公里的收费标准,得出这趟的运费是多少。
在这过程中,A点和B点之间的距离是一个变量X,根据计算公式得出费用Y的值。如果我们获得的X值是错误的,那么计算出的Y值肯定也是错误的。输入的源头数据是错的,输出的结果必然也是没用的,这就是Garbage in, Garbage out的意思。
数据错误的情况在供应链日常工作中比比皆是,比如盘点的时候清点错了,输入了错误的库存数量,那么库存总数和金额就是错的。我列举了几种典型的错误类型,欢迎大家对号入座。
1.错误的数值
表格中的无效值,比如加了空格和句号。有时候数据还会出现负值,例如库存,它怎么会是负数呢?可能是扣账的时候有一笔收货没有入库,就出现了负值。
有些数值出现在了文本单元格里,自然就不能被统计到。还有合并单元格,会导致数据统计错误或缺失。
2.重复项
有些编号应该是唯一的,比如货物追踪号,一票货对应的是一个追踪号码,是一对一的关系。我们得检查有没有出现重复的情况。
3.人为操作错误
只要是手工输入的,就存在一定出错的概率。输入数据的人手指一滑,碰到了其他的键,就输错了。或是在排序的时候没有全部选中单元格,还有可能是在用公式的时候输错了。
4.其他
有些数据和大部分数据差距过大,比如在一个产品系列中,大多数产品单价在0.5元至10元之间,突然出现了一些超过100元的数据就很可疑。可能是系统里的报价前者是美元,后者是日元。
我们需要仔细地查看数据,每次可能都有新发现,那种感觉就像是哥伦布发现新大陆一样,总会给人惊喜。
找出错误数据就像是在大海里捞针,如果没有合适的方法,可能看了半天数据只会看到满天的小星星。这里介绍几种方法供大家参考。
1.使用公式
首先要确保数据是有效的,因此要做一次的大排查,把数据中的无效值找出来。比如我们可以用求和或是查找的公式快速查看,根据公式结果判断是否有无效值。当一列数据求和结果为零时,说明这些数据格式不是数字。
如果想要把无效值抓出来,在Excel中可以用vlookup公式,如果返回值是“#N/A”,说明这个记录有问题,可能是输入错误,或是有空格。
2.使用目视化图表
用图表可以快速查看是否存在异常数据,比如用散点图和柱状图目测是否有特别离谱的数值。
在上图中,在Y轴上方有几个游离在大部队之外的数值需要重点看一看。
3.使用数据透视表
数据透视表汇总看异常,Excel中的pivot table也就是数据透视表是个很好用的工具。拖拽起来方便,而且容易理解。
上图中,从左边的原始表格汇总出来的数据存在两个错误点。首先是两个产品号ABC50535没有被汇总,说明其中一个的产品件号存在无效值。
其次,产品ABC35816汇总数量为零,但是左侧没有为零的数值,说明这个产品的库存数量单元格存在错误,可能是格式问题。
4.分析变异系数
使用变异系数反映数据离散程度,也叫离散系数。简单地说,在进行数据统计分析时,如果变异系数大于一定程度,比如大于1,意味着数据变化较大。这是进阶的内容,属于概率和统计分析的概念,具体就不在这里展开了。
找到数据问题点后,最后就是要做数据清理了。具体的方法有许多种,每个人都有自己擅长的方式。在这里我们就讨论一下通用性的原则。
1.先备份
以前我在打电脑游戏的时候,一般在和大BOSS决战之前都要先存档,万一打输了就调档,这样我就不会Game Over。
我们做数据清理之前也要先备份存档,万一没处理好,至少还有原始数据,否则后果不堪设想。
在做改动之前,我们一定要先把旧的文件存好,在Excel里另存或是复制。我们修改过什么,也要留下记录。
如果发现可疑数据,在清洗之前,需要和相关人员确认一下。比如价格汇率到底是美元还是日元,找到相关采购员问一下,确认后再进行修改。
盘点库存的时候发现可疑数据,先不要急着改,再去现场盘点一次,然后再根据实际情况修改。万一自己是错的,把数据改了岂不是太过草率?
2.做记录
一定要把我们发现的问题和采取的措施完完全全地记录下来。对于所有的改动,我们都要确保能解释清楚。
人的记忆力没那么好,好记性不如烂笔头,记录一下也没什么损失。以后万一有需要,我们还可以随时找到改动过的地方,撤销改动。所以说原始数据永远不要删,把它们复制一份保存好,把清理过后的数据用于以后的分析。
原始的数据绝没有我们想象中那样干净,需要花点时间进行清洗,然后才能用于下一步的整理、汇总和分析,并进一步提炼出洞察。我们要时刻对外部数据持有怀疑态度,警惕地观察一切不合理的数据。
首发 | 富勒科技完成3亿元融资,经纬领投,高成和高瓴跟投
11285 阅读苹果社招运营与供应链类岗位
4612 阅读中国兵工物资集团有限公司2025届校园招聘供应链管理、仓储管理等岗位
4549 阅读近1500人!中远海运24-25届全球招聘启动
4028 阅读宁德时代社招物流工程师-YBSJ;高级物流工程师-进出口;海外物流规划工程师;物流规划工程师;机械工程师(物流)
3609 阅读中国物流集团社招仓库管理员-泰州;财务出纳专员-常州;人力资源管理-北京市-丰台区
3555 阅读拼多多集团-PDD | 2025届校招正式批网申时间延长至2025年1月12日
3455 阅读TCL实业2025届全球校园招聘供应链管培生等岗位,截止11月30日。
3232 阅读顺丰社招仓储管理经理、KA客户经理、SME客户经理、灵活业务资源专员、散单管理岗等
3263 阅读招贤纳新丨美通招聘这些岗位人才
3101 阅读