5月22日,美国政府制裁实体名单再次扩大,中国13所大学上榜,随之而来的还有Matlab中止了“榜上有名”的哈工大、哈工程的相关授权。此事成为继华为等之后美国霸权另一个精准打击的案例。消息一出引发了科技、工程、IT等领域人士的广泛关注与讨论,话题包括会带来哪些影响、有没有替代品、未来如何发展等。
工业数据分析不只有Matlab
有人用“工程人士的office”来形容Matlab,足见其在工业领域的重要作用。其功能涵盖算法开发、数据分析、仿真等,并应用在军事、制造等极其广泛而关键的领域。如果按照Matlab庞大的功能集来对标,目前国内甚至全世界可以说还不能找到能够完全与之匹敌的产品。
虽然没有一款产品能够像Matlab那样“大而全”,但也不乏其各种相应功能的替代品。比如开源数学软件GNU Octave、SageMath,以及计算工具blas、求解器mumps、CFD仿真类OpenFOAM;还有中物院高性能数值模拟软件系列、大连理工的JIFEX、中航的HAJIF仿真等国产软件。在数据分析等领域,开源Python生态这些年发展迅速,尤其在国外其热度已经碾压Matlab。
由此可见,Matlab或者更多的相关软件被禁用虽然会对我国高校等带来很大影响,但也不至于让相关研究、生产“停摆”。当然,诸如Python、R等开源数据分析产品有免费、可控等各种优势,但也存在着“坑”比较多、没有服务等不足,以及一些场景在使用体验上不如Matlab等商业软件。
在“国产化”呼声下,值得关注的是中国有没有必要完全对标Matlab开发一套相匹敌的产品呢?曾经有人推算如果开发一套与Matlab相当的软件至少需要10年的时间。我们认为这是完全没有必要的,而且也不现实。今天的IT技术趋势是微服务、模块化、快速迭代,相比传统的大型单体应用拥有各种优势。在充分的发挥当前技术优势的同时,“化整为零”是中国当前发展工业软件最好的选择,也就是鼓励更多的开发者专注攻关某些领域,将整个生态发展起来。
比如,寄云科技研发的全流程大数据建模分析平台DAStudio就是这个生态中极具创新性的工业数据分析产品。寄云DAStudio平台以发展的眼光“向前看”,将有限的精力专注在工业“大数据”分析领域,事实证明工业大数据分析已经成为中国乃至全球打造未来工业竞争力的关键。
DAStudio勇担国产化重任
寄云DAStudio平台面向IT人员和业务分析人员,聚焦工业领域的各类数据分析场景,以最新的大数据、机器学习、深度学习等前沿技术为基础,以解决工业实际业务问题为导向,以创造实际价值为目标,得到多个工业领域大型企业的应用与认可。在越来越多的实战应用中,平台的易用性、工作流、专注以及大数据分析等特点也愈加明显。
前期数据准备、中期模型测试与迭代、模型复用、后期模型的应用等是数据分析工作人员的几大痛点。在前期数据准备阶段,寄云DAStudio平台能够直接对接文件、Hive、HBase、PG、MySQL、MongoDB等多种数据源,并提供丰富的数据预处理(去重,过滤缺失值,自定义过滤,插值,类型转换,时间戳类型转换,特征分桶,重命名,自动分箱,标准化,归一化,PCA等)组件,并提供拖放、连接等可视化的操作,显著提升工作人员的数据准备效率。
通过寄云DAStudio平台,用户可以将物理世界中的设备、流程抽象成一个数据模型。这个数据模型包含了这类对象的静态和动态属性。每个数据模型可以实例化成多个数据对象。实例化的过程是将数据模型中的每个属性绑定到数据库的具体某个数据点的过程。定义好的数据对象可以直接作为组件在分析工程中使用。
同时,在核心的建模工作方面,寄云DAStudio平台也是采用了拖放、连接等可视化操作,用户只需将相应的数据对象、数据预处理组件以及机器学习等算法组件拖放到工作台,并进行相应的参数配置,再通过组件之间的连接即可实现分析模型和工程的构建,还提供图形化的执行结果展示。
此外,寄云DAStudio平台也提供部分模型评估器组件,能够让分析人员快速对模型的质量进行评估,以确定是否采用该模型。模型训练成功即可发布为模型实例,最终应用到实际的数据集中。模型实例可以多用户共享、多次复用。可以说,寄云DAStudio平台的易用性、高效已经覆盖到了数据分析的全流程。
在协同工作等方面,寄云DAStudio平台相比传统软件也有多方面的先天优势。首先平台支持多用户协同工作,用户之间可以共享各自的工程、模型等。模型实例可以直接发布为实时任务,并进一步对接各种业务应用;另外,在线部署模型实例后,对接到实时数据源,就能完成分析任务构建,实现实时的数据分析。
寄云DAStudio平台的产品理念十分简洁,大部分的分析工作都已经组件化,包括数据预处理、特征工程、机器学习算法、模型评估器、建模等都以可拖放、可连接的组件形式出现。除了平台本身已经部署并且未来还将不断扩展的各种分析组件之外,用户还可以将Python、R语言的自建组件上传到平台上,就像平台自带组件一样进行使用。
寄云DAStudio平台极佳的易用性、高效率,尤其在面对海量数据的全流程分析时更能凸显其优势,使得海量数据的准备、处理、训练模型、部署任务游刃有余。不但如此,平台还支持可扩展的并行计算引擎,能够解决传统分析软件无法应对海量实时/非实时数据的挑战。
DAStudio保障基础技术可控
Matlab被禁用其实还反映了中国在基础技术领域的薄弱,操作系统、编程语言、仿真、分析等,这些都是顶层应用的基础技术支撑,无论是迫于形势还是为了将来的发展都应该从现在开始努力追赶;另一方面也反映了我国在IT教育资源采用方面的不足,教育是国家的根本,而在最根本的高校教育领域竟然一直采用不可控的国外商业产品,这一点确实令人唏嘘。
况且,原则上讲“教育场景”不是“生产环境”,要的不是尽可能的简单,而是尽可能的让学生掌握原理。从在这一点上讲其实开源的Python等更适合教育使用,因为这能让学生了解的更多。寄云DAStudio平台分析组件采用Python语言编写,结合其云化的部署和服务方式,客户端学生只需要浏览器即可使用全部的平台功能。可以说,既满足了学生学习的需要,又为学校的教育环境搭建带来了极大的便利,非常适合当下热门的大数据分析培训与教育需求。
当然,作为一种基础平台,教育和培训只是寄云DAStudio平台的一个应用场景。其实,平台目前还有更多的项目应用领域,比方在半导体装备、油气装备、智能制造、化工安全生产管控等关键基础行业,实现了基于物联网和预测性维护的智能装备,以及基于实时数据和大数据分析的智慧安全生产管控等应用。
目前,寄云科技以寄云NeuSeer工业互联网平台、寄云DAStudio平台等产品为基础,为包括中石油、腾讯云、中海油、河南能化、中国中铁、中国电子、大唐电力、隧道股份、深圳地铁等数十个大型客户提供了服务,寄云科技正在用实际行动保障国家基础技术高效可控。