人们收集的大部分数据(从人类通信到机器日志)很有可能堆积起来,几乎没有计划实现其潜力。良好的治理和人工智能可以提供帮助。
寻求从企业收集的数据中获取商业价值的IT领导者面临着大量挑战。或许最不为人知的是,失去了利用已创建、经常存储但很少与之交互的数据的机会。
这种以物理暗物质命名的所谓“暗数据”是在开展业务过程中经常收集的信息:它由员工、客户和业务流程产生。它由机器、应用程序和安全系统生成为日志文件。出于合规目的必须保存的文档,以及不应该保存但仍然保存的敏感数据。
根据Gartner公司的说法,企业信息领域的大部分是由“暗数据”组成的,许多企业甚至不知道他们拥有多少这些数据。存储它会增加合规性和网络安全风险,当然,这样做也会增加成本。
弄清楚您拥有哪些暗数据、保存在哪里以及其中包含哪些信息,这是确保这些暗数据中有价值的部分安全且不应该保留的部分被删除的重要步骤。但挖掘这些隐藏数据的真正优势可能在于将其用于实际使企业受益。
但挖掘暗数据并非易事。它有多种格式,可以是完全未格式化的,例如锁定在扫描的文档或音频或视频文件中。
以下是一些组织如何将暗数据转化为商机的情况,以及业内人士对希望利用暗数据的IT领导者的建议。
来自赛车手的编码音频
五年来,Envision Racing一直在收集100多场电动方程式比赛的录音,每场比赛都有20多名车手参加。
帮助Envision Racing利用这些数据的咨询公司Genpact的全球分析负责人Amaresh Tripathy说,“任何人都可以在开放频率上收听广播流。”
此前,总部位于英国的赛车队的赛车工程师试图在比赛期间实时使用这些音频传输,但车手使用的代号和首字母缩略词使得很难弄清楚所说的内容以及如何使用它,因为Tripathy说,了解其他车手在说什么可以帮助EnvisionRacing的车手制定他们的赛车策略。
“比如什么时候使用攻击模式。何时超车。什么时候踩刹车,”他说。
Envision Racing还从自己的汽车收集传感器数据,例如轮胎、电池和刹车,并从供应商那里购买外部数据,例如风速和降水量。
Genpact和Envision Racing合作释放这些数据流的价值,利用自然语言处理构建深度学习模型来分析它们。从准备数据管道到提取数据、过滤掉噪音,再到进行有意义的对话,这个过程花了六个月的时间。
Tripathy说,人类需要5到10秒才能弄清楚他们在听什么,这种延迟使无线电通信变得无关紧要。现在,由于人工智能模型的预测和洞察力,他们现在可以在一到两秒内做出响应。
7月,在纽约举行的ABBFIA电动方程式世界锦标赛上,EnvisionRacing车队获得了第一和第三名,Tripathy将这一结果归功于利用了以前的暗数据。
暗数据黄金:人工生成的数据
Envision Racing的音频文件是人类生成的暗数据示例,旨在供其他人使用,而不是由机器使用。数据归档平台提供商ZLTechnologies的联合创始人兼首席执行官KonLeong表示,这种暗数据对企业非常有用。
他说,““它对于理解企业人性的每一个要素,包括文化、绩效、影响力、专业知识和敬业度,都非常强大,员工每天都在分享绝对海量的数字信息和知识,但到目前为止,它基本上还没有得到开发。”
电子邮件、消息和文件中包含的信息可以帮助组织获得洞察力,例如谁是组织中最有影响力的人。Leong说,“企业80%的时间都花在了沟通上。然而,分析通常处理的数据只反映了我们所花费时间的1%。”
处理人工生成的非结构化数据极具挑战性。例如,通常不会设置数据仓库来处理这些通信。此外,收集这些通信可能会给公司带来需要处理的新问题,与合规性、隐私和法律发现有关。
Leong说,“这些治理能力在今天的数据湖概念中并不存在,事实上,通过将数据收集到数据湖中,你会创建另一个孤岛,这会增加隐私和合规风险。”
相反,公司也可以将这些数据保留在其当前所在的位置,只需添加一层索引和元数据以实现可搜索性。他说,将数据保留在现有的合规结构内也将保持原状。
有效治理是关键
处理价值和来源可疑的暗数据的另一种方法是从可追溯性开始。
数据可观察性基础的作者Andy Petrella说,“暗数据现在被认为是一种可以利用的未开发资源,这是该行业的一个积极发展。”目前可从O'Reilly以预发布形式获得。Petrella也是数据可观察性提供商Kensu的创始人。
他说,“利用暗数据的挑战在于对它的信心不足,尤其是在收集数据的地点和方式方面。“可观察性可以使数据沿袭透明,因此可追溯。可追溯性使数据质量检查成为可能,从而使人们有信心使用这些数据来训练AI模型或根据它带来的智能采取行动。”
专注于监管、风险和合规问题的全球咨询机构StoneTurn公司的总经理ChuckSoha认为,处理暗数据的常用方法(将所有内容都放入数据湖中)会带来重大风险。
他说,在金融服务行业尤其如此,企业多年来一直将数据发送到数据湖中。他说,“在典型的企业中,IT部门将所有可用的数据转储到一个带有一些基本元数据的地方,并创建与业务团队共享的流程。”
这适用于内部拥有必要分析人才或为特定用例引入外部顾问的业务团队。但在大多数情况下,这些举措只是部分成功,Soha说。
“首席信息官从不知道他们不知道什么转变为知道他们不知道什么,”他说。
相反,公司应该从数据治理开始,以了解存在哪些数据以及可能存在哪些问题,其中数据质量最为重要。
Soha说,“利益相关者可以决定是对其进行清理和标准化,还是从更好的信息管理实践重新开始。”并补充说,投资于从包含不一致或冲突信息的数据中提取洞察力将是一个错误。
Soha还建议将各个业务部门内部已有的良好运营数据联系起来。他说,“弄清楚这些关系可以产生快速而有用的见解,可能不需要立即查看任何暗数据。它还可能识别出可以优先考虑在暗数据中的哪些位置开始寻找填补这些空白的空白。”
最后,他说,人工智能在帮助理解剩余的非结构化数据方面非常有用。“通过使用机器学习和人工智能技术,人类可以查看低至1%的暗数据并对其相关性进行分类,”他说。“然后,强化学习模型可以快速生成剩余数据的相关性分数,以优先考虑更仔细地查看哪些数据。”
使用人工智能提取价值
用于处理暗数据的常见人工智能解决方案包括亚马逊的Textract、微软的Azure认知服务和IBM的Datacap,以及谷歌的CloudVision、Document、AutoML和NLPAPI。
Tripathy说,在Genpact与EnvisionRacing的合作中,Genpact在内部对机器学习算法进行了编码。他说,这需要Docker、Kubernetes、Java和Python以及NLP、深度学习和机器学习算法开发的知识,并补充说MLOps架构师管理了整个过程。
不幸的是,这些技能很难获得。在Splunk去年秋天发布的一份报告中,在接受调查的1,300多名IT和业务决策者中,只有10%到15%的人表示他们的组织正在使用AI来解决暗数据问题。缺乏必要的技能是利用暗数据的主要障碍,仅次于数据本身的数量。
问题和机会正在增长
与此同时,暗数据仍然是一个不断增加的风险和机遇宝库。根据行业的不同,企业数据中隐藏的部分的估计值从40%到90%不等。
根据由Quest赞助的Enterprise Strategy集团7月份的一份报告,平均47%的数据是暗数据,五分之一的受访者表示他们的数据中有70%以上是暗数据。Splunk的调查显示了类似的结果,平均55%的企业数据是暗数据,三分之一的受访者表示其组织的75%或更多数据是暗数据。
而且情况在好转之前可能会变得更糟,因为60%的受访者表示,他们组织中超过一半的数据根本没有被捕获,其中大部分甚至不被理解为存在。随着数据的发现和存储,暗数据的数量将继续增加。
现在是CIO制定如何处理它的计划的时候了,着眼于充分利用任何显示有希望为业务创造新价值的暗数据。