文章导读
今天我们来聊聊云计算、大数据、人工智能。 为什么要讲这三件事呢?因为这三件事现在很流行,而且似乎是相互关联的。 通常,当我们谈论云计算时,我们谈论大数据,当我们谈论人工智能时,我们谈论大数据,当我们谈论人工智能时,我们也谈论云计算……我认为这三件事是我觉得它们是相辅相成、密不可分的。 但非专业人士可能很难理解三者之间的关系,因此需要解释一下。
1. 云计算的最初目的
我们先来说说云计算。 云计算的第一个目标是资源管理,主要管理三个方面:计算资源、网络资源、存储资源。
数据中心管理,类似于配置数据中心计算机
什么是计算、网络和存储资源?
<例如,如果我想买一台笔记本电脑,我应该关心这台电脑有什么类型的CPU,有多少内存资源?
要使该计算机访问 Internet,它必须具有可以连接网线的网络端口,或者可以连接到的无线网卡。可以连接。 我的路由器。 还需要联系联通、移动、电信等运营商开通100M带宽等网络。 然后师傅可能会将网线送到你家,并帮助你设置路由器和公司网络连接。 这样,您家中的所有电脑、手机和平板电脑都可以通过路由器访问互联网。 这是网络资源。
你可以您还可以告诉我您的硬盘容量吗?以前硬盘很小,10G左右。 之后,500G、1T、甚至2T硬盘都不再新鲜了。 (1T就是1000G),是存储资源。
计算机如此,数据中心亦如此。 想象一下,您有一个非常大的机房,里面有很多服务器。 这些服务器也有CPU、内存和硬盘,也通过路由器等设备访问互联网。 现在的问题是数据中心的运行人员如何集中管理这些设备?
灵活性意味着在您需要的时候以您需要的数量获得您需要的东西
h2>
管理的目标是在两个方面实现灵活性。 具体是哪两个方面?
请举个例子来理解:比如CPU,1G内存,10G硬盘,还有一台很小的电脑,只有一个CPU。 M.B. 你能给他一些带宽吗? 对于这么小的规格的电脑,现在任何笔记本电脑的配置都比这台好,并且需要100M的家庭宽带连接。 然而,使用云计算平台,您只需要在需要时使用一点点该资源即可。
这通过两种方式提供了灵活性:
时间灵活:想要的时候就可以拿到,需要的时候就可以取出。 空间灵活性:根据需要安装任意数量。 如果您需要一台非常小的计算机,您就会满意。 如果你需要非常大的空间,比如云盘,那么云盘上分配给每个用户的空间总是很大,并且随时都有上传的空间,而且永远不会用完。 也请您满意。 。
空间灵活性和时间灵活性就是通常所说的云计算弹性。 经过长期的发展,这个灵活性问题得到了解决。
物理设备不灵活
第一阶段是实体装备阶段。 这个时期当客户需要一台计算机时,我们会购买它并将其放入我们的数据中心。
物理设备自然变得越来越强大。 例如,一台服务器有数百GB的内存。 例如,网络设备的端口带宽为数十甚至数百G。 比如数据中心存储至少是PB级(1个P就是1000T,1个T就是1000G)。
但是,物理设备不允许有很大的灵活性。
首先,缺乏时间灵活性。 你无法实现一直想要某样东西的目标。 例如,购买服务器或计算机需要时间。 如果用户突然找到云供应商并说“我想打开一台计算机并使用物理服务器”,那么此时就很难购买。 如果您与供应商的关系良好,这可能需要一周的时间;如果您与供应商的关系良好,则可能需要一个月的时间。 用户必须等待很长时间才能收到计算机。 此时,用户必须登录并开始缓慢部署应用程序。 时间弹性很小。 其次,空间灵活性也不好。 例如,上面的用户需要一台非常小的计算机,但是今天哪里可以找到这么小的计算机来满足只需要1GB内存和80G硬盘的用户?因为它。 但是当你购买更大的计算机时,你必须向用户收取更多的费用,因为计算机更大,但用户只需要使用更小的计算机,所以你因为计算机更大而支付更多的费用,这是不公平的。
虚拟化更加灵活
有人有想出一个办法。 第一种方法是虚拟化。 用户所需要的不就是一台小型计算机吗?数据中心的物理设备功能极其强大。 您可以虚拟化物理 CPU、内存或硬盘的一部分并将其提供给您的客户,也可以虚拟化一小部分并将其提供给其他客户。 每个客户只能看到自己的一小部分,但每个客户实际上正在使用整个较大设备的一小部分。
虚拟化技术使不同客户的计算机显得隔离。 也就是说,我认为这个磁盘看起来像我的,而你看起来这个磁盘是你的,但实际上,我的 10G 和你的 10G 可能属于同一个大范围。用于存储。 此外,如果物理设备提前准备好,虚拟化软件可以非常快速地虚拟化计算机,基本上只需几分钟。 因此,如果您想在任何云上创建计算机,只需几分钟即可准备就绪。 这就是原因。
这样就基本解决了空间的灵活性和时间的灵活性。
在虚拟世界中赚取金钱和情感
在虚拟化阶段,最好的公司是VMware。 我们是一家比较早引入虚拟化技术的公司,能够实现计算、网络、存储的虚拟化。 这家公司很棒,做得很好,它的虚拟化软件卖得很好,而且赚了很多钱。 后来被EMC(世界500强存储厂商)收购。
但是这个世界上多愁善感的人还是很多的,尤其是程序员。 有思想的人喜欢做什么?
世界上大多数软件都是闭源或开源的,source指的是源代码。 换句话说,一个软件很好,每个人都喜欢它,但我把它背后的代码锁起来。 只有我公司知道,其他人都不知道。 如果其他人想使用这个软件,就必须向我付费。 这称为闭源。
但是世界上总有一些伟大的人不忍心看到自己全家都在赚钱。 大佬们认为如果你知道这个技术,我也可以。 如果你能开发,我也能。 我开发不收钱,把代码分享给大家。 世界上每个人都可以使用它,每个人都可以从中受益。 这就是所谓的开源。
例如,蒂姆·伯纳斯·李(Tim Berners-Lee)现在是一个非常感性的人。 2017年,他因“发明万维网、第一个浏览器以及使万维网扩展成为可能的基本协议和算法”而获得2016年图灵奖。 图灵奖是计算机领域的诺贝尔奖。 但他最值得赞扬的是,他向全世界免费贡献了我们共同的万维网技术——万维网。 如果他这样做了,我们现在在网上所做的一切都应该属于他如果你用科技来赚钱,你应该和比尔·盖茨一样富有。
开源和闭源的例子有很多。
举个例子,闭源世界有Windows,每个使用Windows的人都得向微软付费。 Linux 即将进入开源世界。 比尔·盖茨被誉为世界首富,通过Windows、Office等闭源软件赚取巨额利润。 有一些伟大的人开发了另一种操作系统,称为 Linux。 很多人可能没有听说过Linux。 许多运行在后端服务器上的程序都运行在Linux上。 比如大家都在享受双十一的时候,淘宝、京东、考拉等,支持双十一抢购的系统都是运行在Linux上的。 在 Linux 上。
有苹果的地方,就有安卓。 苹果的市值很高,但是你看不到苹果系统的代码。 因此一些伟大的人创造了Android移动操作系统。 所以你可以看到,几乎所有其他手机厂商都安装了Android系统。 原因是苹果系统不是开源的,而安卓系统是任何人都可以使用的。
虚拟化软件也是如此。 对于VMware来说,这个软件非常昂贵。 接下来是大牛创建的两款开源虚拟化软件,一款叫做Xen,一款叫做KVM。 如果您不是技术人员,请随意忽略这两个名称,但我们稍后会解释它们。
半自动化虚拟化和全自动云计算
说虚拟化软件解决了灵活性问题并不完全正确。 虚拟化软件通常会创建虚拟计算机,并要求您手动指定将虚拟计算机放置在哪台物理机上。 此过程可能还需要更复杂的手动配置。 因此,要使用VMware的虚拟化软件,就需要获得一个非常好的证书,而能够获得这个证书的人,能够获得非常高的薪水,这也说明了我的复杂性。
因此,单独通过虚拟化软件可以管理的物理机集群规模并不是很大,一般是10到10个或者更多,或者最多几个。 规模以数百为单位。
[小时]
这方面影响时间灵活性。 虚拟化一台计算机的时间非常短,但随着集群规模的增长,手动配置过程变得越来越复杂。 需要越来越多的时间。 另一方面,也影响了空间的灵活性。 如果您有大量用户,您的集群大小将不会像您希望的那么大。 这些资源可能会很快用完,必须购买。
随着簇变得越来越大,通常从 1,000 个单元开始,有时会达到数万个甚至数十个。 以百万计。 如果你看看BAT,其中包括网易、谷歌和亚马逊,服务器的数量是惊人的。 对于如此大量的机器,几乎不可能选择在哪里放置这台虚拟化计算机并进行相应的配置。 你仍然需要一台机器来做到这一点。
人们发明了各种算法来做到这一点。 该算法的名称是调度器。 通俗地说,我们有一个调度中心,池子里有几千台机器。 无论用户需要多少CPU、内存和硬盘的虚拟机,调度中心都会自动在大型池中找到可以满足用户需求的位置。 启动并配置虚拟计算机后,用户可以直接使用它。 此阶段称为池化或云化。 只有到了这个阶段才可以称为云计算。 在此之前,它仅被称为虚拟化。
私有云和公共云计算
<云计算主要有两种类型:私有云和公共云。 有些人将私有云和公共云连接起来,称之为混合云。 我们暂时不在这里谈论这个。
私有云:将虚拟化和云软件部署到别人的数据中心。 私有云的用户通常非常富有。 他们购买自己的土地,建造计算机实验室和服务器,并让云供应商将它们部署在这里。 VMware后来除了虚拟化之外还推出了云计算产品,在私有云市场赚得盆满钵满。 公有云:虚拟化和云化软件部署在云厂商自己的数据中心。 用户无需进行大量投资。 您所要做的就是注册一个帐户并单击一个网页。下面创建一个虚拟计算机。 例如,AWS是亚马逊的公共云。 国内阿里云、腾讯云、UCloud、华为云等
亚马逊为什么要打造公有云?我们知道亚马逊本来就是国外比较大的电商公司。 当你做电商的时候,难免会遇到双十一这样的场景,在某个时刻大家同时购物。 当每个人都在抢购东西时,尤其需要云的时间灵活性和空间灵活性。 你不可能总是准备好所有的资源,所以会造成太多的浪费。 但没有什么可以让你做好准备。 看到有很多用户想在双十一买东西却无法参与。 因此,如果需要双十一,就会创建多个虚拟计算机来支持电子商务应用。 双十一之后,这些资源就被释放出来做其他事情。 因此,亚马逊需要一个云平台。
但是商业虚拟化软件太贵了,所以亚马逊不可能把所有的电子商务收入都给虚拟化厂商。 于是亚马逊基于前面提到的Xen、KVM等开源虚拟化技术,开发了自己的一套云软件。 没想到亚马逊的电商业务越来越好,它的云平台也是如此。
因为云平台需要支持你自己的电商应用。 另一方面,传统云计算供应商大多是IT供应商,专有应用程序很少。 因此,亚马逊的云平台更适合应用,并迅速成为云计算领域的第一品牌,产生了巨大的收入。
在亚马逊发布其云计算平台的财务报告之前,人们说,如果亚马逊在电子商务领域赚钱,我猜云也是如此。可能是这样。 然后财务报告出来了,我意识到这不仅仅是一个赚钱的工具。 仅去年一年,亚马逊AWS的年收入就达122亿美元,营业利润达31亿美元。
云计算的金钱与情怀
排名第一的公有云公司 Amazon 表现出色,排名第二的 Rackspace 也表现出色。 不可能,这就是赢家通吃的互联网行业的残酷。 因此,如果第二位不是云计算行业,可能很多人都没有听说过。
第二我就想,如果打不过boss怎么办? 请开源它。 前面提到,亚马逊使用开源虚拟化技术,但其云代码是闭源的。 很多想要搭建云平台却无能为力的企业只能眼睁睁地看着亚马逊赚大钱。 当Rackspace公开源代码时,整个行业可以合作进一步改进该平台。 兄弟们,大家齐心协力,与老大较量吧。
所以,如上面的 OpenStack 架构图所示,Rackspace 和 NASA 正在合作创建源软件OpenStack。 ,如果你不是从事云计算行业,你不需要看懂这张图,但你会看到三个关键词:计算、网络和存储。 它也是一个计算、网络和存储的云管理平台。
当然,第二名的技术也很好。 正如Rackspace所想,有了OpenStack,每一家想要走向云疯狂的大公司,IBM、惠普、戴尔、华为、联想,你能想象到的每一家大IT公司都疯狂了。
原来大家都想建一个云平台。 当你看到亚马逊和VMware赚取巨额利润时,他们也无能为力。 自己做似乎很难。 它相当大。 现在,对于OpenStack这个开源云平台,所有IT厂商都参与这个社区,为这个云平台做出贡献,打包成自己的产品,与自己的硬件设备一起销售。 一些公司正在构建私有云,而另一些公司正在构建公共云。 OpenStack已经成为开源云平台事实上的标准。
IaaS、资源灵活性程度
随着OpenStack技术越来越成熟,可管理的规模也越来越大,出现多个OpenStack集群的可能性。有。 展开多组。 例如,在北京放置一台,在杭州放置两台,在广州放置一台,进行集中管理。 这增加了整体规模。
在这个规模下,从一般用户的角度来看,你基本上无法要求你想要什么、什么时候、在什么时间。你想要的量。 一些。 我们以云盘为例。 每个用户的云盘至少分配5T空间。 如果有一亿人,加起来有多少空间?
其实背后的机制是: 分配空间后,您只能使用少量空间。 例如,分配了5。 A.T. 这么大的空间是可见的,不是给定的。 由于您实际只使用了 50G,因此实际上给了您 50G。 随着您继续上传文件,将分配越来越多的空间。
一旦每个人都在上传并且您确定云平台几乎已满(例如,已使用 70%),请添加额外的服务器。在它后面。 资源对用户来说是透明的、不可见的。 从感官上看,实现了云计算的弹性。 事实上,它类似于银行。 它给储户一种可以随时提取资金的感觉。 除非同时发生银行挤兑,否则银行不会倒闭。
摘要
到达此在第一阶段,云计算本质上提供了时间灵活性和空间灵活性。 它还实现了计算、网络和存储资源的弹性。 此阶段的弹性称为资源级弹性,因为计算、网络和存储通常称为基础设施。 管理资源的云平台称为基础设施服务,通常称为IaaS(基础设施即服务)。
云计算不仅管理资源,还管理应用
有了IaaS,是否足以实现资源层面的弹性?当然还不够,但也有应用程序级别的灵活性。
例如: 例如,通常10台机器足以实现一个电子商务应用程序,但双十一需要100台机器。 。 你可能认为这很容易。 使用 IaaS,您只需要创建 90 台新机器。 然而,90 台机器被创建为空,并且没有安装任何电子商务应用程序。 公司运维人员必须一台一台地安装,非常耗时。
虽然实现了资源层面的弹性,但如果没有应用层的弹性,灵活性仍然不够。 有办法解决这个问题吗?
人们正在转向 IaaS 平台来管理资源上的应用程序弹性问题。 该层通常称为PaaS(平台即服务)。 这一层通常很难理解,分为两个主要部分。 一部分是我所说的“自动安装专有应用程序”,另一部分是我所说的“无需安装通用应用程序”。
专有应用程序的自动安装:例如,如果您开发了一个电子商务应用程序,那么除了您之外没有人知道如何安装它。 与任何电子商务应用程序一样,您需要在安装过程中配置您的支付宝或微信帐户。 这样,当有人从您的电子商务购买商品时,支付的金额就会转入您的帐户,除了您之外没有人知道。 因此,安装过程平台没有什么用处,但是对于自动化来说是有用的。 要将您自己的配置信息集成到自动安装过程中,您必须执行多项任务。 例如上例中,双十一新创建的90台机器是空的。 如果我们能够提供一个工具,在这90台新机器上自动安装电子商务应用程序,我们就可以实现应用程序层。表面的真实弹性。 例如,Puppet、Chef、Ansible、Cloud Foundary 都可以做到这一点,而 Docker 这种现代容器技术可以做得更好。
无需安装通用应用程序:所谓通用应用程序一般是指相对复杂但人人都使用的应用程序,例如数据库。 几乎所有的应用程序都使用数据库,并且数据库软件是标准的。 安装和维护比较复杂,但无论谁安装都是一样的。 此类应用可以转换为标准的PaaS层应用并部署到云平台接口。 当用户需要数据库时,一键查看并直接使用。 有人问,大家安装都一样,这样你就可以自己安装了,不用花钱买云平台了。 当然不是。 数据库非常困难。 仅Oracle就可以依靠数据库获取巨额利润。 收购Oracle需要花费很多钱。
然而,大多数云平台都提供开源数据库,例如MySQL。 它是开源的,所以你不必花很多钱。 然而,维护这个数据库需要雇用一个大型团队。 即使这个数据库能够优化支持双十一,一两年之内也是不可能的。
例如,如果您是自行车制造商,当然不需要雇用非常大的数据库团队来完成此操作。 成本太高了。 你需要付钱。 让云平台来做这件事,让专业的人做专业的事。 云平台雇用数百人来维护其系统。 您只需关注自行车应用。
自动部署或不部署。 一般来说,你不需要太担心应用层。 这是PaaS层的关键作用。
也可以使用脚本方法解决。解决您自己的应用程序部署问题。 但在不同的环境下,其差异很大。 脚本通常在一种环境中正确运行,但在另一种环境中则不然。
容器为这个问题提供了更好的解决方案。
容器就是容器,容器就是容器。 事实上,容器的思想就是成为一个软件交付容器。 集装箱特点:一是包装,二是标准。
在没有集装箱的时代,如果我们要把东西从A运到B,就必须通过三个终端。 3倍的船。 每次我们都要把货物从船上卸下来,乱七八糟地摆好,然后再放回船上,摆整齐。 因此,如果没有集装箱,船员每次换船都必须在岸上待上几天才能出发。
在容器中,所有产品都包装在一起,并且所有容器的尺寸相同因此,每次更改船舶,一箱整体移动。只需一个小时即可到达那里,船员们不必上岸而耽搁很长时间。
这是容器“封装”和“标准化”这两个特性在日常生活中的应用。
那么容器是如何打包应用程序的?或者说?我还需要了解容器。 首先需要有一个封闭的环境,将货物封闭在其中,使货物之间互不干扰,相互隔离,装卸方便。 幸运的是,Ubuntu 的 LXC 技术已经能够做到这一点一段时间了。
封闭环境中使用了两种主要技术。 一种是所谓的命名空间分离技术。 这意味着您的应用程序在每个命名空间中看到不同的 IP 地址、用户空间、进程号等。 另一种是称为 Cgroup 的隔离技术。 机器显然有大量的CPU和内存,但应用程序只能使用其中的一部分。
所谓镜像,正如孙悟空所说,保存了容器焊接那一刻的状态。 “修复”一个容器:它在那一刻被修复,并且它在那一刻的状态被保存为一系列文件。 这些文件的格式是标准的,任何查看这些文件的人都可以恢复冻结的时刻。 将图像恢复到运行时的过程(即读取图像文件并及时恢复该时刻的过程)是一个进程。 关于运行容器。
容器使您的 PaaS 层快速而优雅,允许您自动部署自己的应用程序。
大数据拥抱云计算
<对于PaaS这一层一个复杂的常见应用是大数据平台。 大数据将如何逐步融入云计算?
小数据也蕴含智慧
这个大数据一开始并不大。 首先有多少数据? 现在每个人都阅读电子书并在线阅读新闻。 当我们年轻的时候,80年代出生的时候,我们没有太多的信息,所以我们只是看书和报纸。 一周的报纸总共有多少字?除非您住在大城市,否则典型的学校图书馆总共只有几个书架。 此后,信息技术不断进步,信息量不断增加。
首先我们看一下大数据数据。 它分为三种类型,一种称为结构化数据,另一种称为非结构化数据。 另一种类型的数据称为半结构化数据。
结构化数据:具有固定格式和有限长度的数据。 例如,填写的表格是结构化数据。 国籍:中华人民共和国,民族:汉族,性别:男。 所有这些都称为结构化数据。 非结构化数据:如今,非结构化数据(没有固定长度或固定格式的数据)正在增加。 例如,网页可能很长,也可能在短短几句话后就消失了。 例如,音频和视频都是非结构化数据。 结构化数据。 半结构化数据:XML 或 HTML 格式。 对于非技术人员来说这可能没有意义,但这没关系。
其实数据本身是没有用的,所以你必须用它来做一些具体的事情。 比如你每天戴着手环跑步,收集到的数据也是数据。 互联网上那么多网页也是数据,我们把这个叫做数据。 数据本身并没有多大用处,但是它包含的信息却非常重要。
数据非常复杂,必须经过排序和组织才能称为信息。 信息包含很多规律。 需要从被称为知识的信息中总结出规律,而知识改变命运。 那里有很多信息,但如果有人看到这些信息,那就和什么都没看到一样。 但是有人从信息看电商的未来,有人从直播的未来看,所以很神奇。 喜欢如果你不从信息中获取知识,如果你每天只看朋友圈,你只是互联网大趋势的旁观者。
有些人在拥有知识并将这些知识应用于实战时表现出色。 这种东西叫做智力。 知识并不一定意味着智慧。 例如,许多学者知识渊博。 发生的事情可以从各个角度分析清楚,但到了实际问题上,原地踏步并不等于智慧。 许多企业家之所以伟大,是因为他们将所获得的知识运用到实践中,并最终建立了伟大的企业。
使用数据分为四个步骤:数据、信息、知识、智慧。
最后阶段是很多公司想要的。 你知道,我收集了大量的数据。 您能否帮助我们根据这些数据做出下一步决策并改进我们的产品?例如,当用户观看视频时,旁边会弹出一个广告。 这正是用户想要购买的。 另一个例子是当用户正在听音乐时,它还推荐他们真正想听的其他音乐。
每次用户单击鼠标并向应用程序或网站输入文本时,这就是我的全部数据,我想与他人分享其中的一些数据我只是想提取它。 那。 出去指导你的实践并形成智慧,这样你的用户就不会陷入我的应用程序中。 一旦他们登陆我的网站,他们就不会离开并继续点击和购买。
很多人说双十一期间想断网。 我老婆一直在买。 买了A之后,我推荐B。 老婆大人说:“哦,我也喜欢老公,我想买。” 你说这个计划太棒了,太明智了,你比我更了解我的妻子。 这是怎么发生的?
如何将数据转化为智慧
数据处理分为几个步骤,完成后智慧才会出现。
第一步称为数据收集。
收集数据有两种方式。第一种方法是检索,这在技术上称为爬行,例如,这就是搜索引擎所做的,当您搜索时,结果将显示为列表。在搜索引擎公司中显示?当你点击链接时,就会出现该网站,例如,如果有关于新浪的新闻,如果你在百度上搜索,该页面将位于百度的数据中心,出现的网页。位于新浪的数据中心,有很多设备可以帮助你收集数据,比如你的小米手环可以将你的日常跑步数据、心率数据、睡眠数据上传到数据中心。第一步是发送数据,这是因为需要处理大量数据才能使用。 h]
第三步是数据存储。掌握你的数据就像掌握你的钱,否则你的网站怎么知道你想买什么?因为它包含了过去的交易数据,这些信息不能提供给任何人。否则非常有价值,所以必须保存。
第四步是保存数据,上面存储的数据是原始数据。原始数据大多是杂乱的,包含大量的垃圾数据,所以要得到高质量的数据进行分析,就需要对其进行清理和过滤。 ,从而通过对数据进行分类并发现数据之间的关系来获取知识。
例如,我们来谈谈啤酒和尿布,这些在沃尔玛超市随处可见。 当我们分析人们的购买数据时,我们发现男性在购买尿布的同时也购买了啤酒。,从而发现啤酒和尿布之间的关联,获得知识并将其应用到实践中。 明智的做法是将啤酒区和尿布区放在一起。
第五步,数据获取和挖掘。 检索的意思是搜索。 俗话说,没有外交决定,就问谷歌;没有国内政策,就问百度。 将国内外主要搜索引擎分析的数据输入搜索引擎,一次搜索即可找到您想要的信息。
另一个是挖矿。 仅靠搜索已经不能满足人们的需求。 还需要从信息中提取相互关系。 例如,在财经搜索中搜索一家公司的股票时,我们是否还需要发现该公司的高管? 如果你搜索这家公司的股票,看到涨得特别大,所以你买了它,但实际上,它的高管发表了对股价非常不利的言论,第二天股价就下跌了,这不会损害广大投资者的利益吗? 因此,通过各种算法挖掘数据中的关系并形成知识库非常重要。
大数据时代,大家火上浇油
数据量小时,很少有机器能解决。 当数据量随着时间的推移而增长,即使是最好的服务器也无法解决问题时,这就是当您需要结合多台机器的力量并且每个人一起工作时,您该怎么办?让我们共同努力完成这件事,我们都会火上浇油。
对于数据采集:就IoT物联网而言,室外部署数千个传感设备,采集大量的温度、湿度,会部署。 ,以及监测数据。 、电量等数据全部采集。 就互联网网页搜索引擎而言,它需要下载整个互联网上的每一个网页。 显然你不能在一台机器上做到这一点。 配置网络爬虫系统需要多台机器。 由于每台机器下载一部分并同时工作,因此可以在有限的时间内下载大量的网页。
对于数据传输:出现这种情况是因为内存队列肯定会因为大量数据而变得拥挤分布式创建队列基于硬盘,因此多台机器可以同时发送队列。 无论您有多少数据,如果您的队列足够大并且管道足够粗,您都可以维持它。
对于数据存储:你需要大型分布式文件,因为机器的文件系统肯定无法容纳。 这是通过将多台机器的硬盘驱动器格式化为一个大文件系统来完成的。
对于数据分析:大量的数据可能需要分解、统计、汇总,绝对不是这样的;没有一台机器可以完成分析,因此使用分布式计算技术,将大量数据分成较小的部分,每台机器处理较小的部分,并且像著名的 Terasort 一样,需要几个小时。单机排序 1 TB 数据,但可以在 209 秒内并行完成]
那么什么是大数据坦白说,您无法在一台机器上完成所有工作。但是,数据量正在增加,许多中小企业需要处理大量数据。没有你能做什么?
大数据需要云计算,云计算需要云计算大数据
当我们想到这个时,我们都会想到云计算。 运行这些作业需要多台机器同时运行。 您随时都需要尽可能多的东西。
例如,如果您使用大数据来分析公司的财务状况,则分析可能每周进行一次。 如果你保留所有 100 个或 1,000 个,每周使用一次就太浪费了。 能不能在需要计算的时候拿出这1000台机器,不需要的时候让这1000台机器去做其他事情?
谁能做到这一点? 只有云计算才能为大数据运营提供资源级灵活性。 云计算也是在PaaS平台上部署大数据的一个非常重要的常见应用。 大数据平台可以让多台机器一起做一件事,这是一般人无法开发和玩弄的。 你必须雇用数十或数百人来玩它。
所以,就像数据库一样,您实际上仍然需要一组专家来处理这个问题。 如今,大数据解决方案主要驻留在公共云上。 如果您的小型企业需要大数据平台,则无需购买 1,000 台机器。 只需迁移到公共云,您就可以访问一千台这样的机器。 上面部署了一个大数据平台,你只要把数据放进去就可以了。
云计算需要大数据,大数据需要云计算。 这就是两者结合的方式。
人工智能利用大数据
机器什么时候能够理解人类的思维?
虽然有数据,但人的欲望是不满意。 大数据平台有搜索引擎,只要搜索就可以找到任何东西。 但有时你找不到你想做的事,你无法表达它,或者你正在寻找的东西不是你想要的。
例如,音乐软件推荐歌曲。 我从来没有听说过这首歌。 当然,我不知道名字,也无法搜索。 但这个软件是别人推荐给我的,而且我很喜欢它,所以这是你通过搜索无法做到的。 有了这样的应用,我发现我不需要什么时候想要什么就去搜索,机器知道我想要什么。 这个机器像朋友一样理解我,有点像人工智能。
人们已经思考这个问题很长时间了。 早期,人们想象有一堵墙,墙后有一台机器,当你对它说话时,它会回应你。 如果你无法区分人类和机器,那就是人工智能。
让机器学习推理
我们如何才能实现这一目标? 首先,我们必须教计算机人类的推理能力。 人们对你来说什么是重要的? 人和动物有什么区别? 我只能推断。 如果我能将我的推理能力传达给机器,让它根据你的问题猜测相应的答案,那不是很好吗?
事实上,人类越来越依赖机器来进行推理,例如证明数学公式。 这是一个非常奇妙的过程。 机器实际上可以证明公式。 然而,我渐渐发现,这个结果其实并不那么令人意外。 因为大家都发现了问题。 公式非常严谨,推理过程也非常严谨。 另外,数学公式容易机械地表达,程序也相对容易表达。
但是人类语言并不是那么简单。 例如,今晚你和女朋友约会,她说: 要是我早点来就好了。 如果没有来,请稍等! 这个机器就更难懂了,但是大家都懂。 这样你和女朋友约会就不用迟到了。
向机器传授知识
因此,向机器传达严格的推理是不够的;还需要向机器传达一些知识。 但请告诉我这个机械知识正常人可能做不到的事情。 也许专家可以做到,比如语言领域的专家或者金融领域的专家。
是否可以像数学公式一样更精确地表达语言和金融领域的知识? 例如,语言专家可能会总结主语、谓语、宾语和状语补语的语法规则。 主语后面必须跟谓语,谓语后面必须跟宾语。 这些可以准确地概括和表达吗?
后来发现这是不可能的,总结起来太困难了,而且语言表达是不断变化的。 我们以主语、谓语和宾语为例。 口语中谓语经常被省略。 人们问:你是谁? 我回答:我是刘超。 然而,不可能规定在语音语义识别过程中必须对机器说出标准的书面语言。 这还是不够明智。 正如罗永浩在演讲中所说,每次看手机时,都要写下“请给某人打电话”。 出于某种原因,这非常令人尴尬。
人工智能的这个阶段称为专家系统。 创建一个成功的专家系统并不容易。 虽然总结知识很困难,但将总结的知识传授给计算机也很困难。 因为你仍然很困惑,感觉似乎有一种模式,但你无法解释它。 你怎么能通过编程来教计算机呢?
算了,我不能教你学习你的计算机。自己
所以人们认为: 由于机器与人类是完全不同的物种,所以我认为让它们自己学习会更好。
机器如何学习?机器的统计能力如此强大,基于统计学习你可以从数字中发现特定的模式。
其实娱乐圈里也有不少很好的例子。
有网友统计了中国内地著名歌手发行的9张专辑中117首歌曲的歌词。 同一个词在歌曲中只出现一次。 下表列出了排名前 10 位的形容词、名词和动词(词后的数字为出现次数)。
如果你写出一串随机数字,并按数字顺序将形容词、名词和动词连接起来,会发生什么?
例如,如果pi是3.1415926,对应的词是:强、路、飞、自由、雨、埋、困惑
坚强的孩子。 ,
我们还有很长的路要走。
传播你的翅膀,飞向自由。
让雨水掩盖他的困惑。
当然,基于统计的实际学习算法比这种简单的统计要复杂得多。
然而,统计学习可以更容易地理解简单的相关性; 例如,一个词总是与另一个词一起出现,而这两个词应该是相关的,然而,复杂的相关性却无法表达,而统计方法中的公式往往非常复杂,但为了降低难度,往往会做出各种独立性假设。 ,在现实生活中,独立事件相对较少。
模拟大脑的运作
因此,人类可以从机器世界走向人类世界
。
人脑并不存储大量的规则或记录大量的统计数据,而是通过触发神经元来实现的。 每个神经元神经元都有来自其他神经元的输入,当它们接收输入时,它们会产生刺激其他神经元的输出。 结果,大量的神经元相互反应,最终形成不同的输出结果。
例如,当你看到一个美丽的女人时,你的瞳孔会放大。 这是因为你的大脑经常根据你身体的比例做出判断,或者因为它不是你生活中见过的所有美丽的组合。 尝试全部数一下。 但神经元从视网膜发射到大脑,然后返回瞳孔。 在这个过程中,其实很难概括每个神经元在最终结果中扮演什么角色。 无论如何,它有效。
于是人们开始使用数学单位来模拟神经元。
这个神经元有一个输入和一个输出。 输入和输出由数学表达式表示。 输入根据其重要性(权重)而变化并影响输出。
也就是说,n个神经元像神经网络一样连接起来。 数量n可以很大,所有神经元可以分为很多列,每列有很多神经元。 每个神经元的输入可以有不同的权重,因此每个神经元的方程可以不同。 当人们从该网络输入某些内容时,他们希望它输出人类正确的结果。
例如,在上面的示例中,如果输入标记为 2 的图像,则输出列表中的第二个数字将是最大的。 事实上,从机器的角度来看,它不知道为什么输入图像显示为2,也不知道输出的数字序列意味着什么。 只要人们知道这意味着什么就没关系。 就像神经元一样,我们的视网膜不知道它们看到的是一个美丽的女人。,不知道我的瞳孔放大了没有,看得清楚了。 反正我一看到美女,瞳孔就会放大,仅此而已。
任何神经网络中,没有人能保证输入是2,输出一定是第二大的数。 需要培训和学习来确保这一结果。 毕竟,当我们看到美丽的女人时,我们的瞳孔会放大,这是人类多年进化的结果。 学习过程涉及输入大量图像,如果结果不符合预期则进行调整。
怎么调整呢?就是每个神经元的权重朝着目标微调。 神经元和权重太多,整个网络产生的结果很难表示其中一个结果,但还是稍微接近那个结果。 取得进步并最终达到您想要的结果。
当然,这些调整策略的技巧性还是很高的,需要算法专家的精心调优。 人看到美女,一开始瞳孔还不够放大,所以看不清楚,她的美就跟跟人跑一样。 以下研究的结果发现,瞳孔而不是鼻孔略微扩张。
没有意义,但可以做到
看起来不太合理,但是有可能,就是这么刻意啊
神经网络的普遍定理是他说: 假设有人给我们一些复杂的特殊函数 f(x):
这个函数不管怎样,总有一个可以处理任何可能的输入 x 的神经网络。 f(x) 值(或精确近似值)是神经网络的输出。
如果函数代表一条规则,则该规则无论一个定律多么奇妙或难以理解,它都可以通过许多神经元和许多权重调整来表达。
人工智能的经济解释
<这很容易理解,因为它让我想起了经济学。
我们认为每个神经元都是在社会中进行经济活动的个体。 换句话说,神经网络对应了整个经济社会。 每个神经元对社交输入进行加权调整并产生相应的输出。 例如,如果工资上涨、蔬菜价格上涨、股票价格下跌怎么办? 花你自己的钱。 这里有模式吗? 是的,但是具体规则是什么呢? 这很难理解。
基于专家系统的经济是计划经济。 经济规律的整体表达需要基于专家的高度和远见而拼凑而成,而不是通过每个经济个体的独立决策来表达。 但专家们无法确定哪些城市的哪些街道上没有豆腐摊贩。
专家因此表示,即使总体计划进展顺利,但可生产的钢材和馒头数量往往低于预期。从生活的真实需要出发。 用几句话写的。 即使是100页也无法表达人们生活中隐藏的小图案。
基于统计的宏观经济管理更加可靠。 统计局每年都会发布整个社会的统计数据,包括就业率、通货膨胀率和国内生产总值。 这些指标往往代表了很多内在规律。 虽然不能准确表达,但还是比较可靠的。
但是统计规则的概括表示比较粗糙。 例如,当经济学家查看这些统计数据时,他们可以得出结论,从长远来看,房价将:长期来看,股价会上涨还是下跌? 例如,如果经济总体改善,房价和股票价格都应该上涨。 然而,不可能根据统计数据总结股票和商品价格的小幅波动模式。
基于神经网络的微观经济学是对整个经济规律最准确的表述。 每个人对社会都有自己的贡献。 调整和调整也作为输入反馈给社会。 想象一下股市微妙的波动曲线。 它是每个独立个体不断交易的结果。 没有统一的模式可遵循。
并且每个人都会根据整个社会的意见做出独立的决定。 某些元素经过多次训练也会形成宏观的统计规则。 这就是宏观经济学所教导的。 例如,每当大量货币被创造出来,房价最终就会上涨。 经过多次训练,人们就学会了。
人工智能需要大数据
<但是神经网络包含非常多的节点,每个节点包含很多参数。 总体参数数量非常多,需要的计算量非常大。 但这并不重要。 我们有一个大数据平台,可以聚合多台机器的力量,一起计算,在有限的时间内达到想要的结果。
人工智能可以做很多事情,包括识别垃圾邮件、识别色情和暴力文本和图像等等。 这也经历了三个阶段。
第一阶段依靠关键词黑白名单和过滤技术,词语包括色情、暴力文字。 由于互联网上的语言越来越多,单词不断变化,使得这个词库保持更新有点困难。 第二阶段基于一些新算法,例如贝叶斯过滤。 不用担心贝叶斯算法是什么,您以前可能听说过它的名字。 这是一种基于概率的算法。 第三阶段是基于大数据和人工智能进行更精准的用户画像、文本理解、图像理解。
人工智能算法主要依赖于大量的数据,因此这些数据往往需要被引导到以下几个方向。当涉及到某个领域(例如电子商务或电子邮件)的长期积累时,如果没有数据,人工智能算法就毫无用处。 因此,人工智能程序很少像传统的IaaS和PaaS那样将人工智能程序交给特定的人。 客户安装并使用该套件。 给客户安装了一套单独的设备,而客户没有训练的相关数据,所以效果往往很差。
但是,云计算供应商经常积累大量数据,因此您可能希望在您的云计算供应商上安装一套并提供服务接口。 。 例如,如果您想查看文本是否包含色情或暴力内容,请使用此在线服务。 这种类型的服务在云计算中被称为软件即服务,SaaS(Software AS A Service)。
因此,人工智能程序已经作为SaaS平台云计算进入市场。
美好生活基于三向关系
云计算三兄弟终于走到了一起:IaaS、PaaS、SaaS。 因此,云计算平台一般包括云、大数据、人工智能。 大数据公司积累了大量的数据,利用一些人工智能算法来提供一些服务。 人工智能企业的生存离不开大数据平台的支持。
云计算、大数据、人工智能的融合,完成了相遇、相识、相互了解的过程。
文章来源:刘超的热门云计算
评论前必须登录!
注册