CIO关于生成式AI项目的数据管理需要做好这三件事-51CTO.COM

在对生成式AI进行了近两年的试验之后，许多IT领导者已经准备好扩大规模了。然而，在此之前，他们需要重新考虑数据管理问题。

根据Nvidia公司AI模型、软件和服务副总裁Kari Briski的说法，成功实施生成式AI取决于有效的数据管理以及评估不同模型如何协同工作以服务于特定用例。Nvidia等少数精英组织把生成式AI用于设计新芯片等工作，但大多数组织还是决定瞄准那些模式简单的、不复杂的用例，而且可以专注于实现卓越的数据管理。

自动化和人工智能从业者、Gartner同行社区大使Doug Shannon表示，绝大多数企业现在把重点放在了最有可能带来积极投资回报的两类用例：一类是知识管理(KM)，包括收集企业信息，对其进行分类，提供允许用户查询的模型;另一类是检索增强生成(RAG)模型，其中来自较大来源的数据片段被矢量化，以允许用户“与”数据“对话”。例如，他们可以获取一份长达一千多页的文档，让模型进行提取，然后向模型询问有关它的问题。

Doug Shannon，Gartner全球智能自动化负责人

Shannon说：“在这两种用例中，企业都依赖于自己的数据，而利用自己的信息是需要花钱的。与那些负担遗留流程、工具、应用和人员的大型企业相比，中小型公司拥有巨大的优势。当我们坚持旧习惯的时候，我们有时会遇到自身带来的麻烦。”

如果数据管理做得不好，会导致收益减少和额外成本。例如，由不良数据引起的幻觉，需要花费大量额外的时间和金钱来修复——并且会让用户对工具失去兴趣。有些IT领导者做得好是因为他们专注于以下三个关键方面。

收集、过滤和分类数据

首先是一系列过程——收集、过滤和分类数据——对于KM或RAG模型来说，可能需要几个月的时间。结构化数据相对容易，非结构化数据虽然分类难度更大，但却是最有价值的。“你需要知道数据是什么，因为只有在你定义了数据并将将其分类了之后，你才能用它做任何事情，”Shannon说。

Nvidia提供了相关的开源工具和企业软件用于进行过滤，用户可以配置这些工具和软件以删除个人身份信息(PII)或对特定领域有害的信息。工具包中提供了分类器，允许企业设置阈值。“我们还进行数据混合，将来自不同来源的数据组合在一起，”Briski说。

在这个混合过程中，用户可以重新排列数据以改变相对数量。例如，一些企业可能希望30%的数据来自18至25岁之间的人，只有15%的数据来自65岁以上的人。或者他们可能希望20%的训练数据来自客户支持，25%来自售前。在混合的过程中，还可以消除重复性的信息。

Kari Briski，Nvidia公司AI软件产品管理副总裁

信息也应该经过过滤以确保质量。据Briski介绍，这是一个迭代的过程，涉及到各种任务以获得最高质量的数据——这些信号可以提高模型的准确性。而且，质量是和你所在领域的背景有关的，例如，某个对于金融行业来说是准确的响应，对于医疗行业却是完全错误的。“通过高质量的过滤，我们找到了正确的信号，让我们可以合成类似类型的数据来提高信号的重要性。”

Briski还指出，对用于训练AI的数据集进行版本控制也是很重要的。由于不同的人会过滤和扩充数据，因此你需要追踪都有谁做了哪些更改，以及为什么这样做，而且你要知道使用哪个版本的数据集来训练特定的模型。

由于企业必须管理所有数据，因此数据收集、过滤和分类过程的自动化就变得至关重要。哈佛大学副总裁、首席信息官Klara Jelinkova表示：“很多组织拥有数据仓库，用结构化数据进行汇报，还有很多组织已经采用了数据湖和数据结构。但随着数据集随着生成式AI而增长，确保数据的高质量和一致性成为一项挑战，尤其是在速度不断加快的情况下。自动化和可扩展的数据检查，就成了关键。”

完善数据治理和合规性

数据管理需要关注的第二个方面，是数据治理和合规性，哈佛大学进行的实验清楚地说明了这一点。去年，哈佛大学IT部门推出了AI Sandbox，一个内部开发的生成式AI环境，免费提供给用户社区。这种沙盒提供了多种不同的大型语言模型，让人们可以尝试各种工具。

哈佛大学的IT部门还运行了一些创新计划，让人们可以在那里推广生成式AI项目，其中必须包括预期投资回报率的内容，不一定是关于财务回报，但可能是其他收益的组合，例如获得新知识和新发现，或者流程得到改进。如果项目获得认可，就会得到一小笔种子资金，而那些显示出预期收益的项目可能会进一步扩大规模。

Klara Jelinkova，哈佛大学副总裁兼首席信息官

据Jelinkova称，生成式AI项目的数据管理中，最要的一个方面就是重新审视数据治理，思考需要改变什么。她说：“我们从通用AI使用指南开始，只是为了确保我们的实验是设置了护栏的。我们进行数据治理已经有很长一段时间了，但当你开始谈论自动化数据管道时，很快就会发现，你需要重新思考那些围绕结构化数据构建的旧数据治理模型。”

合规性是另一个重要的关注领域。作为一个考虑扩展部分AI项目的全球性企业，哈佛大学密切关注着世界各地不断变化的监管环境。哈佛大学有一个活跃的工作组，致力于遵循和理解欧盟AI法案，在用例投入生产之前，他们会经历一个流程，以确保满足所有合规义务。

“当你使用新技术的时候，你就走在了前沿，而且随着时间的推移，立法环境可能会发生变化。对我们来说，这都是数据治理的其中一部分。你需要有一个合规框架，允许你随着立法环境的变化，重新处理你以前做过的事情。”

优先考虑数据隐私和保护知识产权

第三，就是数据隐私和知识产权(IP)保护。对于大多数组织来说，数据管理本质上与隐私息息相关。他们需要确保自己不会面临风险。Jelinkova说：“你需要过滤、规范化、以及某种增强，必须对数据进行注释。你还需要解决数据的安全性和隐私性问题，需要保护自己的知识产权。”

在深入研究数据时，很多企业会发现，他们不了解与某些数据相关的、基于角色的访问控制(RBAC)——如果有的话。因此，他们不知道在企业内部甚至外部共享了哪些数据，这个时候就体现出了指导方针和护栏的重要性，也是需要提前实施的一个原因。

Jelinkova说，哈佛大学在隐私原则方面非常积极主动，并且有一个全面的数据安全计划，其中包括了数据分类和指导哪些数据可用于不同类型的AI。她说：“我们对知识产权是非常谨慎的，当我们收集数据来构建AI导师时，需要确保我们对于将要输入的所有数据是拥有相关知识产权的。”

而且，和大多数大学一样，哈佛大学自己也有很多知识产权，因此必须要保护这些知识产权。对于内部创建的AI工具来说，这并不难。但是，当使用公共模型的时候，就必须采取额外的措施，以免他们直接或间接地利用你宝贵的信息来获取商业利益。为了安全起见，哈佛大学与第三方AI工具供应商签订了合同保护措施，以确保数据的安全和隐私。

Shannon表示：“在非常庞大的基础模型中使用自己的数据时，仍然存在着很多误解，而且对于某些工具如何处理你的数据，其透明度也不高。Azure支持使用OpenAI，因此即使他们说他们不会获取用户数据，并为你提供了一份所有受保护内容的长列表，但仍然是一个黑匣子。”