第160期
2024 年 6 月 12 日
  北美智权官网 智权报文章分类/搜寻   历期智权报   订阅北美智权报  
 
浅谈全球人工智能热潮如何推动数据管理市场
苏翰扬/产业分析师

对于人工智能用户而言,数据管理对于人工智能项目是否成功扮演着重要角色,因此,企业如何建立出色的数据管理并决定与那些公司合作非常重要。


图片来源 : shutterstock、达志影像

2024 年第一季度,近 1/3 的公司执行长在财报会议中提及人工智能,但只有极小部分(占所有财报会议的 1%)讨论数据管理的应用。事实上,数据管理对于人工智能的成功至关重要,调研机构指出,从2023 年到2030 年,整体成长率预计为每年16%,到2030 年底,市场预计将达到5,130 亿美元。若进一步观察,人工智能模型大幅依赖数据进行训练和操作,而为了训练专门设计用于特定业务流程和环境的模型,公司必须评估其数据管理技术堆栈的 7 个关键要素。

要素一:数据源

数据源包括来自多个储存库的多种数据格式,可能包括企业资源规划 (ERP) 或客户关系管理(CRM) 等企业系统、来自可程序逻辑控制器 (PLC) 或传感器等装置的物联网数据,或其他外部数据(例如社群媒体或政府数据)数据等。数据源为人工智能训练奠定了基础,因为复杂的人工智能通常需要来自不同来源的大量数据组合。连接的数据源越多,人工智能模型就越强大、越通用。因此,确定需要那些数据、从那里获取数据以及如何收集数据是关键,例如生成式人工智能主要处理非结构化数据,即无法完全适合关系数据库的讯息,例如文字或图像,这些非结构化数据必须被识别、整合并整合到数据储存系统中,以最大限度来发挥人工智能的潜力。

要素二:资料撷取

数据撷取主要来源(ERP、CRM、PLC 或外部来源)收集数据,并使用连接器将其统一到储存系统中,以确保兼容性和正确的格式处理,企业必须持续收集各种来源的数据并将其输入人工智能算法,为了确保人工智能模型发挥作用,避免可能导致数据缺口的连接问题至关重要,连续数据流对于需要实时数据的应用程序尤其重要,延迟可能会导致错失机会或增加风险。一个例子是,美国非营利组织Apache的 Kafka(分布式事件流平台)等技术可以以高吞吐量和低延迟促进实时数据收集和处理,这使业者能够数据生成时采取行动,从而提高响应能力和营运效率。例如,在线串流服务Netflix运用Kafka 管理超过 7,000 亿个日常事件,确保数据流与实时处理,以维持超过 2.6 亿订阅者的高质量用户体验。

要素三:数据储存

储存使用技术和架构来保护、组织和储存数据。有两个主要组成部分,分别是(1)储存技术,包括用于数据储存的硬件(HDD 或 SSD)和软件(数据库管理系统 (DBMS));(2)数据架构,包括数据仓储、数据湖或云,用作数据架构和数据存取的蓝图。数据储存可确保有效存取所需数据。储存至关重要,因为它提供了必要的基础设施来集中组织和管理人工智能模型所需的大量数据。储存技术确保数据的快速访问,直接影响人工智能应用的效能。此外,随着人工智能项目的扩展和发展,可扩展的储存系统支持不断增长的数据需求。

数据储存市场是由数据架构细分市场的成长所推动的,随着资料量持续成长,多家机构预测,到 2030 年资料架构细分市场的年复合成长率将达到 18%,这显示出企业数据以产生有价值的见解的重要性日益增加。相较之下,储存技术同期复合年增长率预计将低于平均 8%;过去十年,硬件储存成本大幅下降,例如,2016 年,内存成本为每 TB 203 美元,此后固态储存成本已降至每 TB 49.50 美元,预计该趋势将导致储存技术细分市场的成长率低于平均值。另外,向量数据库在产生人工智能用例中越来越受欢迎,这些数据库对于索引和搜寻用于相似性搜寻,及模式匹配的高维向量至关重要,该趋势表示特定人工智能应用正在转向新的、先进的数据管理系统。

要素四:数据转换

数据转换为将数据细化并重组为适合详细分析的格式,堆栈的这一部分涉及清理、整合和修改数据,以确保质量以及与分析工具和储存结构的兼容性,提取数据,将其转换为标准化格式,并将其加载到目标储存中,此流程可确保数据干净、结构化并可供分析。数据转换对于人工智能至关重要,因为它将原始数据转换为干净的结构化格式,使其易于人工智能训练和操作,此过程包括文件格式转换、数据清理、保护敏感数据(对于生成式人工智能尤其重要)以及宏数据以支持查询,预测人工智能和产生人工智能都将需要预处理数据以保持数据质量和有用性。

此外,反向 ETL 对于将 AI 产生的见解整合到业务流程中非常重要。与将数据移至集中式储存系统(例如集中式数据仓储、数据湖或云端)进行分析的传统 ETL 不同,反向 ETL 从这些系统中提取数据并将其同步回营运应用程序。透过将 AI 产生的见解转移到 ERP 等系统,反向 ETL 使组织能够将 AI 结果整合到业务流程中,确保这些见解能够及时应用以增强业务营运、决策等。

要素五:资料分析

分析将数据转换为有意义且可操作的信息,这部分堆栈包括商业智能工具,将数据转换为可视化报告、仪表板和指标,使理解和交流见解变得更加容易。第二是数据科学工具,透过识别传统方法可能无法立即看到的更深层的模式、趋势和相关性来增强分析。数据分析对于人工智能至关重要,它提供开发和完善人工智能模型所需的工具,业者透过利用资料探勘、统计分析和机器学习等技术,分析有助于发现模式和趋势,从结构化和非结构化数据中提取洞见。到2030 年,分析细分市场的年复合成长率(CAGR) 为20%,而商业智慧细分市场预计将成长最快,年复合成长率为27%,这些预测强调数据驱动决策的重要性和投资日益增加。

举例而言,Airbnb利用人工智能来改进其主人-客人匹配流程,透过使用A/B 测试、图像辨识和预测建模等技术来增强用户体验和增加预订,公司的模型根据用户搜寻来预测预订机率,并且他们的价格提示功能可以为房东提供最佳定价建议,此外,为了解决某些亚洲游客的高跳出率问题,Airbnb 对网站进行修改,使将转换率提高10%。

要素六:数据治理与安全

数据治理和安全性透过策略、流程和角色确保组织数据的完整性、可用性和一致性,确保其对业务营运的可信度,且在近期欧盟人工智能法案通过下,数据治理的重要性又更上层楼,数据治理和安全性对于人工智能至关重要,因为它们可以保护数据和人工智能模型,这对于开发准确、符合道德的人工智能模型以及保护投资这些模型的知识产权至关重要,数据管理不善可能会导致专有和私人信息泄露,从而可能导致罚款和负面宣传;此外,强有力的措施可确保所使用的数据准确且不受影响,从而提高人工智能模型的质量,它们还能防止信息外泄以及对人工智能及其底层模型程序代码的未经授权的存取。数据治理大概可以分成三种模式,第一种为集中式模型,意即单一数据治理实体监督并标准化组织内所有主题领域的活动;第二是复制模型,指各业务单位独立采用并实施相同的数据治理模型与标准;最后则是联合模型,数据治理机构与多个业务部门协调,以确保整个组织的定义和标准的统一。

要素七:资料编排

数据编排是对不同系统和服务之间的数据流进行系统化管理和协调,它牵涉到自动化数据移动,以确保以适当的格式和位置提供分析和决策的可用性,数据编排确保数据在各个系统之间的无缝整合、协调和流动,并促进人工智能模型的训练、部署和细化。

AWS、微软和Google这三大超大型企业将在 2023 年占据数据管理市场的总计 52% 的市场份额,并在上述每个细分市场提供领先的服务。值得注意的是,这些公司并未提供最复杂和最受好评的解决方案,但他们提供经济高效且高度整合的服务,这些服务易于为客户扩展,使用者面临着一个重要的选择:他们可以选择来自小型专业公司的多种最佳数据管理解决方案,或者他们可以利用一两个超大规模的便利性和全面的产品,将这些解决方案统一在一个解决方案下提供所有必要的服务。

 

好消息~北美智权报有微信公众号了!

《北美智权报》内容涵盖世界各国的知识产权新闻、重要的侵权诉讼案例分析、法规解析,以及产业与技术新知等等。

立即关注北美智权微信公众号→ NAIP_IPServices

~欢迎读者分享与转发~


【本文只反映专家作者意见,不代表本报立场。】

作者: 苏翰扬
现任: 产业分析师
学历: 台湾中正大学企研所
专长: 产业分析与市场研究

 


 





感谢您阅读「北美智权报」,欢迎分享智权报连结。如果您对北美智权电子报内容有任何建议或欲获得授权,请洽:Editorial@naipo.com
本电子报所登载之文章皆受著作权保护,未经本公司授权, 请勿转载!
© 北美智权股份有限公司 & 北美联合专利商标事务所 版权所有 234 台湾地区新北市永和区福和路389号五楼 TEL:+886-2-8923-7350