大数据有许多新术语,有时不好理解。因此,我们列出了一份大数据术语表,以便大家深入了解。当然,这份大数据术语表并不是百分之分全面,要是你认为遗漏了什么术语,请告知我们。
A
聚合-搜索、收集和显示数据的过程。
算法-可以对数据执行某种分析的数学公式。
分析―发现数据蕴含的洞察力。
异常检测-搜索数据集中与预测模式或预期行为不匹配的数据项。异常又叫outlier、exception、surprise或 contaminant,它们常常提供了关键的、可付诸行动的信息。
匿名化-使数据匿名,即移除可能表明个人身份的所有数据点。
应用程序-让计算机能够执行某项任务的计算机软件。
人工智能-研发智能机器和软件,它们能够感知周围环境,并且在需要时采取相应的动作,甚至从那些动作中学习。
B
行为分析-这种分析可以表明如何、为何和什么,而不是仅仅表明是谁和何时。它可分析数据中的人性化模式。
大数据科学家-能够开发解读大数据的算法的人。
大数据初创公司―开发新颖大数据技术的新兴公司。
生物特征识别-根据人的生物特征来识别人的身份。
波字节(BB)-约等于1000尧字节,相当于未来数字化宇宙的大小。1波字节有27个0!
商业智能-让数据易于理解的一套理论、方法和过程。
C
分类分析-从数据获取重要相关信息的系统化过程,又叫元数据,即描述数据的数据。
云计算-网络上用于异地存储数据的分布式计算系统。
聚类分析-识别彼此相似的对象并聚集成类的过程,以便了解数据里面的相似之处和不同之处。
冷数据存储-将很少使用的旧数据存储在低功耗服务器上。检索数据耗时较长。
对比分析-它确保采用逐步的比较和计算过程,以便发现非常大的数据集里面的模式。
复杂的结构化数据-由两个或多个复杂的关联部分组成的数据,它们不容易被结构化查询语言和工具来解析。
计算机生成的数据-计算机生成的数据,比如日志文件。
并发-同时运行或执行多个任务或进程。
关联分析-分析数据,以便确定变量之间的关系,确定这种关系是负关系(-1.00)还是正关系(+1.00)。
客户关系管理(CRM)-管理销售和业务流程,大数据会影响CRM策略。
D
仪表板-使用图形化显示算法执行的分析的工具。
数据聚合工具-将分散于众多数据源的数据转化成单一新数据源的过程。
数据分析员-分析、建模、清理或处理数据的人员。
数据库-数据通过某种技术存储起来的数字化集合。
数据库即服务-托管在云端的数据库,按使用量付费,比如亚马逊网络服务(AWS)。
数据库管理系统(DBMS)-收集和存储数据,并提供数据访问。
数据中心-放置用来存储数据的服务器的实际场地。
数据清洗-审查和修订数据的过程,以便删除重复数据、纠正错误,并提供一致性。
数据管理员-负责数据存储所需技术环境的人员。
数据道德准则-帮助企业组织在数据方面做到透明的准则,确保简洁性、安全性和隐私性。
数据源-一种数据流,比如推特数据源或RSS。
数据市场-进行数据集买卖的在线环境。
数据挖掘-从数据集中找到某些模式或信息的过程。
数据建模-使用数据建模技术来分析数据对象,从数据获得洞察力。
数据集-数据集合。
数据虚拟化-数据整合过程,以便获得更多的洞察力。它通常涉及数据库、应用程序、文件系统、网站和大数据技术等等。
去身份识别-跟匿名化一样;确保无法通过数据来识别人员身份。
判别分析-对数据分类;将数据分成不同的群组或类别。数据中的某些群组或聚类事先已知的情况下使用统计分析,利用该信息生成分类规则。
分布式文件系统-提供一种简化的、高可用的方法来存储、分析和处理数据的系统。
文件存储数据库-一种为了存储、管理和检索文档而专门设计的一种面向文档的数据库,又叫半结构化数据。
E
探索性分析-不用标准的程序或方法,找到数据里面的模式。这是发现数据、找到数据集主要特点的一种方法。
艾字节(EB)-约等于1000拍字节或10亿吉字节。如今全球每天生成的新信息量约为1艾字节。
提取、转换和加载(ETL)-这是数据库和数据仓库的一种方法,从各个数据源提取数据,转换数据,以适合业务运营要求,最后加载到数据库。
F
故障切换-万一某个服务器或节点发生故障,自动切换到另一个不同的服务器或节点。
容错设计-即便某些部件发生故障,也能继续正常运行的特别设计的系统。
G
游戏化-在非游戏环境下使用游戏元素;它对于生成数据非常有用,因而被称为是友好地搜索大数据。
图形数据库-使用图形结构(比如一组有限的有序对或某些实体),使用边缘、属性和节点用于数据存储。它提供了无索引的相邻性,这意味着每个元素与相邻元素直接联系起来。
网格计算-常常通过云,将诸多地方的不同计算机系统连接起来,以实现某个共同的目标。
H
Hadoop-为了能够跨分布式文件系统处理和存储大数据而构建的一种开源框架。
HBase-这是与Hadoop一起运行的开源非关系型分布式数据库。
HDFS-Hadoop分布式文件系统,这是一种旨在可以在商用硬件上运行的分布式文件系统。
高性能计算-使用超级计算机解决极其复杂的高级计算问题。
I
内存中-数据库管理系统将数据存储在主内存上,而不是存储在磁盘上,因而处理、存储和加载数据的速度很快。
物联网-随时随地通过传感器连接到互联网的普通设备。
J
数据法规遵从-如果你使用云计算解决方案,如果数据存储在不同的国家或不同的大陆,这个概念就很重要。要注意,存储在不同国家的数据必须遵守该国法律。
K
键值数据库-这种数据库用主键来存储数据,这种使用独特识别方式的记录让数据查找起来方便又快捷。键值数据库中存储的数据通常是编程语言的某种基本数据。
L
延迟-衡量系统的延迟时间。
遗留系统―不再得到支持的旧的应用程序、技术或计算机系统。
负载均衡-将工作负载分配到多台计算机或服务器上,以便获得最优结果、系统利用率最大化。
位置数据-描述地理位置的GPS数据。
日志文件-计算机自动生成的文件,记录系统运行过程中发生的事件。
M
机器对机器(M2M)-彼此通信的两个或多个机器。
机器数据-机器通过传感器或算法生成的数据。
机器学习-人工智能的一部分,机器从当前执行的任务中进行学习,不断变得更完善。
MapReduce-处理大量数据的一种软件框架。
大规模并行处理(MPP)-使用许多不同的处理器(或计算机),同时执行某些计算任务。
元数据-描述数据的数据;提供了数据关于什么方面的信息。
MongoDB-一种开源NoSQL数据库。
多维数据库-针对数据联机分析处理(OLAP)应用和数据仓库而进行优化的一种数据库。
多值数据库-这是一种NoSQL和多维数据库,可直接理解3个维度的数据。它们主要是庞大字符串,最适合直接处理HTML和XML字符串。
N
自然语言处理-计算机科学的一个分支领域,研究计算机与人类语言之间的交互。
网络分析-从网络或图论方面分析节点之间的关系,意味着分析网络中节点之间的关系和层次强度。
NewSQL-一种优雅的、明确定义的数据库系统,比SQL更容易学习、更出色。它还NoSQL还要新颖。
NoSQL-有时候被称为“Not only SQL”,因为这种数据库并不遵守传统的关系数据库结构。它具有更强的一致性,能实现更高的可用性和和横向扩展。
O
对象数据库-它们以对象的形式来存储数据,被面向对象的编程所使用。它们不同于关系数据库和图形数据库,大多数对象数据库提供一种查询语言,允许使用声明式编程方法来发现对象。
基于对象的图像分析-可结合来自单个像素的数据来分析数字化图像,而基于对象的图像分析使用来自一组相关像素(名为对象或图像对象)的数据。
操作型数据库-这类数据库可以执行企业组织的常规操作,对业务来说通常非常重要。它们一般使用联机事务处理方法,因而可以输入、收集和检索关于公司的特定信息。
优化分析-产品设计周期过程中算法进行的优化过程。它让公司可以设计某个产品的许多不同版本,并且对照预设变量来测试该产品。
本体-本体将知识作为某个领域里面的一组概念和那些概念之间的关系来表示。
异常值检测-异常值是严重偏离某个数据集或数据组合里面的普通平均值的对象。其数值与其他数据相差甚远,因而异常值表明出现了某种异常情况,因而通常需要另外的分析。
P
模式识别-通过算法来识别数据中的模式,从而预测来自同一数据源的新数据。
拍字节(PB)-约等于1000太字节或100万吉字节。欧洲核子研究中心(CERN)大型强子对撞机每秒生成约1拍字节的数据。
平台即服务(PaaS)-为云计算解决方案提供所有必要基础设施的一种服务。
预测分析-最有价值的大数据分析方法,因为这种方法有助于预测某人可能会购买什么商品、访问什么网站、做什么事情,或者某人在近期有怎样的行为。它使用众多不同的数据集,比如历史数据、事务数据、社交数据或者客户概况数据,以识别风险和机遇。
隐私-将关于个人的某些私密数据/信息隔离起来。
公共数据-由公共基金创建的公共信息或数据集。
Q
量化自我―使用应用程序跟踪用户在一天当中的举动,以便更好地了解某人的行为。
查询-请求回答某个问题的信息。
R
再识别-合并几个数据集,从匿名化数据当中找到某个人。
回归分析-确定两个变量之间的依赖关系。它假设一个变量到另一个变量的响应之间存在单向的因果关系。
射频识别(RFID)--使用无线非接触式射频电磁场来传输数据的一种传感器。
实时数据-在几毫秒内被创建、处理、存储、分析并显示的数据。
推荐引擎-根据之前的购买行为或其他人的购买行为推荐某些产品的一种算法。
路径分析-针对某种传输途径,使用许多不同的变量,找到经过优化的路径,以便降低燃料成本,提高效率。
S
半结构化数据-不像结构化数据那样拥有正规结构的一种结构化数据。然而,它确实有标签或其他标记来保证数据的层次结构。
情感分析-使用算法来了解人们对某些话题有怎样的看法。
信号分析-它是指分析时间变化或空间变化的物理量的度量,从而分析产品的性能。尤其与传感器数据结合使用。
相似性搜索-查找与数据库中的查询对象最相似的对象,这里的数据对象可以是任何类型的数据。
模拟分析-模拟是指模仿现实世界流程或系统的操作。模拟分析可以考虑许多不同的变量,有助于产品性能达到最优。
智能网格-指使用能源网络里面的传感器实时监控运行状况,有助于提高效率。
软件即服务(SaaS)-通过浏览器来使用的一种应用软件。
空间分析-指分析地理数据或拓扑数据之类的空间数据,从而识别并了解分布在地理空间的数据当中的模式和规律。
SQL--从关系型数据库检索数据的一种编程语言。
结构化数据-用行列结构加以组织即可识别的数据。数据驻留在记录或文件里面的固定字段,或者数据在正确标记后,可以准确地识别出来。
T
太字节(TB)-约等于1000吉字节。1太字节可以存储多达300个小时的高清视频。
时间序列分析-分析通过重复的时间测量获得的明确定义的数据。数据必须加以明确定义,并按同样时间间隔的连续时间点来加以测量。
拓扑数据分析-专注于复杂数据的形状,并识别聚类和数据里面存在的任何统计意义。
事务型数据-随时间变化的动态数据。
透明性-消费者想要知道数据出现了什么情况,企业组织一定要在这方面做到透明。
U
非结构化数据-非结构化数据被认为是含有大量普通文本的数据,但也可能包含日期、数字和事实。
V
价值-所有的可用数据将为企业、社会和消费者创造巨大价值。大数据意味着大商机,各行各业将从大数据获益。
可变性-它是指数据含义会(迅速)变化。比如在几乎一样的推特消息中,某个词可能有着完全不同的意思。
种类-如今的数据有许多不同格式:结构化数据、半结构化数据、非结构化数据,甚至复杂的结构化数据。
速度-创建、存储、分析和显示数据的速度。
真实性-企业组织需要确保数据正确,还要确保针对数据执行的分析正确。真实性指数据的正确性。
可视化-只有正确的可视化,原始数据才可利用起来。当然,可视化并不是指普通的图型或饼图。它们指包括可能许多数据变量,同时仍保持容易理解和阅读的复杂图形。
体量-指数据量,从兆字节到波字节不等。
W
气象数据-一种重要的开放公共数据源,如果与其他数据源结合起来,可以为企业组织提供丰富的洞察力。
X
XML数据库-XML数据库让数据可以以XML格式存储起来。XML数据库常常与面向文档的数据库联系起来。XML数据库里面存储的数据可加以查询、导出并序列化成所需的任何格式。
Y
尧字节(YB)-约等于1000泽字节,相当于250万亿张DVD的数据量。现今,整个数字化世界的数据量为1尧字节,这个数据量每18个月将会翻番。
Z
泽字节(ZB)-约等于1000艾字节,或10太字节。预计2016年每天超过1泽字节的数据会在全球各地的网络上传输。