幽雨听弦 发表于 2015-8-31 08:14

本帖最后由 幽雨听弦 于 2015-8-31 09:42 编辑

说到大数据,我也插个嘴吧。再说大家互相讨论嘛,干嘛上纲上线的。都是正在发展和摸索的技术,互相听互相借鉴就完了。再说三十年河东三十年河西,七八九年前ATM不是还很火么,现在谁还做ATM~争个你死我活干嘛

对大数据相关的算法我不是很了解,大数据处理和储存都是需要很多资源的,云是处理这个问题目前为止比较好的方案,这是因为云往往是global的。但这也正是德国企业最大的顾虑,因为这直接影响到datenschutz。不同国家之间对datenschutz不同的法律也影响了各国对自己数据的处理的方式。美国那天的公有云发展还可以,德国这儿基本没有公司会完全在公有云上运行,混合云也比较少,大多都还是完全的私有云,哪怕处理的慢一些,资源捉襟见肘也不愿往公有云方向迈出大步伐。大家都觉得云的发展在德国不会很好,因为保守,因为datenschutz。
从这个角度出发,大数据在私有云和公有云之间的来回转换将会是德国这边马上要面临的问题。因为不同的云之间运行的平台很可能不一样,技术和人为的不兼容性很多。这也往往直接影响到数据的分析分享和存储,其实也浪费了很多资源。

抓紧时间 发表于 2015-8-31 08:18

幽雨听弦 发表于 2015-8-31 09:14
说到大数据,我也插个嘴吧。再说大家互相讨论嘛,干嘛上纲上线的。都是正在发展和摸索的技术,互相听互相借 ...

有人说,大数据是落地的云。
我也很想多了解下云和分布式,请多指教!

幽雨听弦 发表于 2015-8-31 08:30

抓紧时间 发表于 2015-8-31 09:18
有人说,大数据是落地的云。
我也很想多了解下云和分布式,请多指教!

就我的理解说,大数据和云完全两码事。
大数据是数据,云是结构,是处理数据所存在的物理和虚拟的资源。云简单说就是各个data center联合一起处理数据。这个联合就是虚拟的一个layer,他们有共同的ip domain,处理同一批数据,这样资源可以有效利用,类似teamwork,每个人都做一些,而不是一个人忙死,一个人闲死。
云的分布,呃。。。。举个简单例子吧,data center有ABC三个,分别在三个不同的地方(或者国家)。如果ABC都属我的公司,如我的公司是跨国公司,那么这个云就是私有云。如果AB属于我的公司,而C属于service provider,那么这就是混合云。目前混合云无法达到私有云那样同步协调工作,更多的是C作为backup,AB作为production。如果ABC都属于公有云,我自己没有data center,那么这就是完全依附于公有云了。这种的也不多,因为公有云的admin有的也是可以看到你的数据的——关于这一点,不同的公有云有不同的规定。德国这儿的公有云admin据我所知无法看到客户数据的全部,但metadaten能看到,这个也是应该的,因为公有云也是需要资源管理等等的,如果你在公有云里储存违法信息也是可以被查到的,不过这个还比较有争议。我看到的绝多数客户在我们公司(我所在的公司也是service provider,提供公有云,数据中心在伦敦,法兰这儿的刚建成,刚开始投入使用)都是backup一些不是最高敏感的信息~~~

啰嗦了一堆,不知我讲明白了没{:5_383:}

抓紧时间 发表于 2015-8-31 08:35

幽雨听弦 发表于 2015-8-31 09:30
就我的理解说,大数据和云完全两码事。
大数据是数据,云是结构,是处理数据所存在的物理和虚拟的资源。 ...

大数据,核心不是数据形式,而是数据处理、架构理念。
真正的关键我认为是架构,和云以及分布式相通之处甚多。

具体的我今天没法展开,有时间再写点

幽雨听弦 发表于 2015-8-31 08:41

抓紧时间 发表于 2015-8-31 09:35
大数据,核心不是数据形式,而是数据处理、架构理念。
真正的关键我认为是架构,和云以及分布式相通之处 ...

明白了
架构的确是最关键的。不过我个人觉得数据的架构和云的架构不是一回事。云的架构更多的是又物理layer上来,如果在虚拟层面统筹规划物理资源,数据的架构更多的是在这个层面之上如果用算法等建立数据库之类的东西。后者我不了解,经常听到的相关概念就是hadoop一类的,再往上如什么sql之类的就完全不是我的范畴了{:5_383:}

另:坐等高文继续~

kolinsky 发表于 2015-8-31 08:46

幽雨听弦 发表于 2015-8-31 08:14
说到大数据,我也插个嘴吧。再说大家互相讨论嘛,干嘛上纲上线的。都是正在发展和摸索的技术,互相听互相借 ...

云和大数据分析是两回事,虽然架构上有类似,但是完全是两回事。

大数据大多解决方案都是建立在云计算上的,但是云计算不必然是大数据。

说大数据不如说大数据分析,不是数据够大就叫大数据的,能不能对其进行有效分析才是关键。在海量数据里面查询一个什么东西,那不叫大数据。

虽然强调大数据要面对unstructure的数据集,但是并不是说你就真的用unstructure的数据集去计算,那是脑子进水,那之前要进行data integration,让unstructure的数据集在一定程度上是structure的。一个map 计算好歹也要知道map谁吧?所有的数据对象好歹你要有一个对应的方式读取吧?就data integeration 一项就不便宜了。这点dresden的一个中国女博士的文章很有意思。

datenschutz是另外一个题目,最近讲这个比较多。

幽雨听弦 发表于 2015-8-31 09:01

kolinsky 发表于 2015-8-31 09:46
云和大数据分析是两回事,虽然架构上有类似,但是完全是两回事。

大数据大多解决方案都是建立在云计算 ...

记得读研的时候有门课就是data integration,现在倒是都忘了
我接触不到数据本身这个层面。如果从osi model来说,数据应该是layer5以上的吧,我接触的都是layer2到4,经常说的是协议,什么bgp,ospf之类的,或者IP。对了,IP属于第三第四层。

leelight 发表于 2015-8-31 09:27

互相掐架不要伤了和气,不过我们这些其它领域的至少可以从掐架双方看到视角不同的两个方面,学习了不少{:5_332:}
幽雨听弦说的对,都是正在发展和摸索的技术,互相听互相借鉴就完了。
再说分析和存储本来也是分不开的,大数据深究根源到底也不是很高大上的东西,渊源是爬虫不是吗?
说错了请直接掐我{:5_340:}

schlafgern 发表于 2015-8-31 09:59

我觉得大家没有搞明白这里面这些名词概念的逻辑关系

nosql和大数据没有本质的联系,nosql是和分布式数据库相关,他是分布式数据库的处理数据的方式,具体的实现最流行的就是mapreduce了

nosql数据模型和sql数据模型的最本质区别,就在于nosql处理的数据模型是嵌入式的(容忍或者说接纳数据冗余),而关系数据库的数据模型是关系式的(不希望有数据冗余),正是因为nosql数据模型是嵌入式的,所以它才能很好的处理分布式数据系统,这个继续再细说起来就涉及CAP的东西了,不好科普了

leelight 发表于 2015-8-31 10:24

schlafgern 发表于 2015-8-31 10:59
我觉得大家没有搞明白这里面这些名词概念的逻辑关系

nosql和大数据没有本质的联系,nosql是和分布式数据 ...

我也是看了点历史才知道 Apache Nutch衍生了hadoop,以及nosql,这里面的名词和定义穿插的太多
页: 1 2 [3] 4 5 6 7 8 9 10 11 12
查看完整版本: 管中窥豹:大数据时代的德国IT业的个人感受