抓紧时间 发表于 2015-8-29 09:38

管中窥豹:大数据时代的德国IT业的个人感受

早就想写点热门话题的自我感受。 大数据和几年前的云类似,很火的一个话题,在中美更是。不过和云稍有不同的是,big data在德国这边叫好不叫座。我想写点skin deep技术文字给未接触过此技术的人看看,以我不成熟的一点经历,就算是管中窥豹吧。

大数据,看文字就知道是数据量大了嘛。大?那就把原来的扩展一下嘛,好比原来一个人干的活,后来事情多了,就三人、五人做嘛。可惜实际上并不是简单的增加软硬件容量那么简单,全世界数据的增长速度解决CPU的摩尔定律,即以指数增长,而靠线性增加软硬件容量的办法是力不从心的。所以,change,在所难免。
Big Data在美国那边人的嘴里,和NoSQL基本是同义词。Big Data包含3V,不只是说Volume大,还有多样性Variety要求速度Velocity,可惜传统的SQL&传统关系型数据库达到不了。大数据好像说的是数据库这些,和分布式系统以及函数编程联系紧密。CAP,GFS/HDFS,MapReduce这些奠定了NoSQL和Big Data的理论基础,所以美国人靠着NoSQL玩起大数据来得心应手。一开始市场还觉得NoSQL还只是Google、Facebook、Amazon它们的阳春白雪,普通公司当然没有这些互联网巨头的那么多数据和高并发要面对。但随着RDMS的缺点越来越突出、各种低成本的NoSQL软件和解决方案的层出不穷,在中美越来越认为,NoSQL是可以低成本的满足大量公司&单位的数据处理要求的,特别是在大数据时代。

回到德国这里,首先要说的就是SAP和这个庞大的(重)工业体系。SAP当然不会在大数据时代自甘寂寞,所以搞出个HANA(先从别的公司买下技术,然后加以改进推出HANA,号称大数据时代的终极解决方案。广告词当然看看就可以了,不过HANA还是一个关系型数据库,不是NoSQL,敢自称自己是玩Big Data的关键在于它是in Memory的,嗯,都放在内存里当然快了,只要土壕买得起硬件。再加上SAP大量的家族产品的高市场占有率,HANA这样的RDMS也敢说自己是大数据时代的。一切都是市场说的算,因此,一开始和Big Data几乎同意思的NoSQL,从not SQL改为not only SQL之后,越来越得退让,只能说是大数据时代的一个组成部分了。

(未完待续)

leelight 发表于 2015-8-29 10:32

支持技术普及

抓紧时间 发表于 2015-8-29 10:36

顺便说明一下,我个人对技术解决方案上没有感情上的偏好,一切都是为了解决问题和赚钱。

先说几个争议话题或者误会:

1,        大数据技术只跟大公司、特殊领域和业务相关,普通公司没必要赶这个时髦去花冤枉钱。
        对也不对。对于只是管管小数量的业务,比如大学里管学生的数据库,公司给每个员工发工资的这些业务,egal。但其实NoSQL技术,不仅是对big data领域可以用,对数据量暂时不那么大的情况,由于其对硬件的要求低,DBA需求弱,再考虑到起拓展性,NoSQL也未尝不是个很好的选项。

2,       针对大数据的要求,稳妥起见,节约成本,还是别搞NoSQL吧。
        是也不是。SAP HANA、Teradata这样的数据库,成本不是一般的高。考虑到先期沉默成本,那是没辙。如果从头开始,搭建成本低的NoSQL系统是有优势的。但另一方面,大家对NoSQL的了解还不够,熟手不多,解决方案也只是方兴未艾,还谈不上成熟。

3,        SQL技术以后只能靠硬件提升性能,或者针对小打小闹的业务,和NoSQL以后是两条路,各有各的市场。
        现在的确是各有各的市场,但关系型数据库的一方面可以和NoSQL混搭,另一方面SQL方在压力下也有不少改进。除了HANA的土壕式方案,NewSQL的solution也出现了不少,它们在很多细节上做了改进,对锁机制、通信、缓冲、日志等等做了优化。


写着写着,发现要回到“德国”这个中心上来了,下篇就开始讲。

czhunter 发表于 2015-8-29 11:09

技术贴,一定要顶

抓紧时间 发表于 2015-8-29 11:21

大数据发展到今天,已远远超出了数据库的领域,并行计算,网格计算,分布式系统,机器学习这些同样属于。这也是Big Data来了,传统的Datenbanker感到的冲击,还不如那些学数学、统计、物理的人兴奋的原因。各种高深算法、统计分析模型,门槛高我攀不起,就来说说我遇到的德国数据库行业这块吧。

德国现在在搞什么工业四点零,偶尔也提提物联网,大数据并不是最热门话题。据一项调查,现在德国公司的CIO对大数据感到最为了解欠缺,夸张点说就是不知所措。修修补补的事情是在做,像国内JD那样短短几年之内连续升级,从MS SQL,MySQL,到Hadoop去年又搞到Spark,这种魄力和速度还是少见的。另外德国做DWH这块的虽然工资高,但还是基本上只和RDMS打交道,NoSQL难道是洪水猛兽?其实每年增加大数据量,大部分都是非结构或半结构化数据,用RDMS的话要花大量成本做data intergration。不只是互联网企业,包括车厂这样的制造业,其数据结构和数量也是很适合NoSQL的。但车厂这些大户本身还是过于保守,同时由于长期的对IT的从属地位的定位,使得做做传感器的活自己干,剩下的大数据相关的就外包了,(想)以此来实现Industrie 4.0(?) 其它公司曾有过装了Hadoop系统又觉得不好用,再放弃掉的情况。Hadoop诚然有很多不足,又是开源,但真正的问题还是在Hadoop(及其家族产品)的高手极度缺乏。
   
   对企业的实际情况我还是了解很少,自己的粗浅印象就是:

1,        传统的抱负重,观望态度浓厚,或者指望自己的SAP,也可说SAP宣传HANA能提供满意的解决方案。
2,        市场比起中美来太小,需求不那么强烈,也可以说不思进取。修修补补小打小闹别走边看。
3,        相关从业人员和高手严重缺乏,IT consulting公司待遇低,制造业大公司对其反应缓慢,导致新技术推广慢。我知道的几家做big data有领先技术的公司,都是外国公司。
4,        总的来说,符合德国的(重)工业制造业的一贯特点,但对工业界靠吃老本的制造技术+外包IT的搞法想实现Industrie 4.0,特别是在大数据时代,我持怀疑态度。

em.rica 发表于 2015-8-29 12:08

顶技术贴

leelight 发表于 2015-8-29 12:49

是不是知乎也同步发个帖?

liukk 发表于 2015-8-29 13:13

本帖最后由 liukk 于 2015-8-29 13:46 编辑

抓紧时间 发表于 2015-8-29 11:21
大数据发展到今天,已远远超出了数据库的领域,并行计算,网格计算,分布式系统,机器学习这些同样属于。这 ...

工业4.0的灵魂不仅仅是大数据,大数据只是其中的一个很小的部分。 核心是信息化和大数据基础上的CPS(Cyber-Physical Systems) 虚拟融合系统。

3大汽车商搞得是后半段。 西门子是最全的,搞得是全波普的工业4.0.个人感觉SAP 的HANA也是取得里面一个部分而已。

现在竞争的核心是谁最先出具有国际水平的工业4.0各大标准。就是DIN和ASIN一样,那谁就牢牢占据4.0的制高点了。 就像德国汽车业柴油机等新技术标准的砝码,三巨头兴盛至今。

德国也没办法,智能手机,移动设备和互联网技术已经输给美国,以德国人的基础和反应速度将来在这一块也不可能赢得了美国中国。 所以,只能被迫搞模拟,设计,测试,engineering,生产,维护等一条龙为基础的CPS系统。 现在这个领域倒是中国美国处于追赶德国的态势。

目前德国人工业4.0可以做到以战养战了。 所以,高层说到了工业3.8也不是胡乱说说的。

抓紧时间 发表于 2015-8-29 15:15

liukk 发表于 2015-8-29 13:13
工业4.0的灵魂不仅仅是大数据,大数据只是其中的一个很小的部分。 核心是信息化和大数据基础上的CPS(Cy ...

说得好,工业4.0和大数据的概念不一样,也可以说外延内涵很不一样。
但搞工业4.0如果不好好同时搞大数据,同样是有很大的风险的。
德国工业对信息化中偏硬件的部分采取自己做,偏软件的采取外包为主,大致没错,但隐忧很多

henrychina 发表于 2015-8-29 16:55

好贴要顶~知乎开贴了没, 链接给一下!

harryzs 发表于 2015-8-29 21:34

好贴。

leelight 发表于 2015-8-29 23:45

关于大数据,目前很多所谓的大“数据”还远远没有到使用内存数据或者分布式数据那种地步,所谓遇到的性能问题往往是因为没有优化结构,或者索引,缺乏数据库的高水平人才;遇到性能问题就简单的寄希望于升级或者购买新平台.

pattonoriental 发表于 2015-8-30 00:01

组个微信群 讨论一下?

kolinsky 发表于 2015-8-30 01:21

樓主讀的IBM的書。。。。自己去google吧

kolinsky 发表于 2015-8-30 01:26

數據庫還是要看一個公司的數據組織方式來確定。

大數據主要是用來分析數據的,不是用做數據庫的,樓主既然說大數據是nosql,我要是你教授就要你重修了。

抓紧时间 发表于 2015-8-30 06:36

本帖最后由 抓紧时间 于 2015-8-30 06:42 编辑

leelight 发表于 2015-8-29 23:45
关于大数据,目前很多所谓的大“数据”还远远没有到使用内存数据或者分布式数据那种地步,所谓遇到的性能问 ...

内存数据库,传统关系型数据库都需要企业级的硬件部署,特别是in memory更是烧钱的主。

不是说传统技术省钱,新技术就一定贵,NoSQL这样的对硬件要求起点低,至少从这点来说是省钱的。问题在于转型的需求必要性、沉没陈本、从业人员素质。谈到业务需要,一两家面包房都可以用上大数据、NoSQL,可问题首先是人不懂、怕。毕竟新生事物需要大规模验证。不过如果big data和NoSQL真是那么阳春白雪的话,不说中国,光美国那么多相关公司早就关门了。

现在新增数据绝大部分是非结构、半结构化数据,按以前那套,想想都头大

抓紧时间 发表于 2015-8-30 06:37

kolinsky 发表于 2015-8-30 01:26
數據庫還是要看一個公司的數據組織方式來確定。

大數據主要是用來分析數據的,不是用做數據庫的,樓主既 ...

说你什么好呢?在新闻版还被人拍的不够?每次都是看别人的话一是不仔细,二是故意曲解胡搅蛮缠。

我要是教授根本不会招你这种学生

抓紧时间 发表于 2015-8-30 07:27

henrychina 发表于 2015-8-29 16:55
好贴要顶~知乎开贴了没, 链接给一下!

这个其实也不算技术贴,除了一些业内常见名词外,细致分析基本没有,就不必再开帖了

pattonoriental 发表于 2015-8-30 08:25

kolinsky 发表于 2015-8-30 00:26
數據庫還是要看一個公司的數據組織方式來確定。

大數據主要是用來分析數據的,不是用做數據庫的,樓主既 ...

+1

kolinsky 发表于 2015-8-30 09:45

抓紧时间 发表于 2015-8-30 05:37
说你什么好呢?在新闻版还被人拍的不够?每次都是看别人的话一是不仔细,二是故意曲解胡搅蛮缠。

我要 ...

看你的發帖就知道你門都沒有摸到。

非常不好意思的是,我參加過面向大數據的分析平台的設計,大數據分析平台是什麼還真的不用你教。

大數據還在說nosql省錢,你真好意思出來混啊。我從來沒有聽說大數據省錢,除了其他門都沒有摸到的作者寫的中文書上會那麼說。

nosql裡面能做大數據的不超過個位數。

沒有看過5個以上nosql源碼的就不要到我面前挑戰了,就和你以往一樣,每次想打人臉都被揍很慘。

幽雨听弦 发表于 2015-8-31 09:14

本帖最后由 幽雨听弦 于 2015-8-31 09:42 编辑

说到大数据,我也插个嘴吧。再说大家互相讨论嘛,干嘛上纲上线的。都是正在发展和摸索的技术,互相听互相借鉴就完了。再说三十年河东三十年河西,七八九年前ATM不是还很火么,现在谁还做ATM~争个你死我活干嘛

对大数据相关的算法我不是很了解,大数据处理和储存都是需要很多资源的,云是处理这个问题目前为止比较好的方案,这是因为云往往是global的。但这也正是德国企业最大的顾虑,因为这直接影响到datenschutz。不同国家之间对datenschutz不同的法律也影响了各国对自己数据的处理的方式。美国那天的公有云发展还可以,德国这儿基本没有公司会完全在公有云上运行,混合云也比较少,大多都还是完全的私有云,哪怕处理的慢一些,资源捉襟见肘也不愿往公有云方向迈出大步伐。大家都觉得云的发展在德国不会很好,因为保守,因为datenschutz。
从这个角度出发,大数据在私有云和公有云之间的来回转换将会是德国这边马上要面临的问题。因为不同的云之间运行的平台很可能不一样,技术和人为的不兼容性很多。这也往往直接影响到数据的分析分享和存储,其实也浪费了很多资源。

抓紧时间 发表于 2015-8-31 09:18

幽雨听弦 发表于 2015-8-31 09:14
说到大数据,我也插个嘴吧。再说大家互相讨论嘛,干嘛上纲上线的。都是正在发展和摸索的技术,互相听互相借 ...

有人说,大数据是落地的云。
我也很想多了解下云和分布式,请多指教!

幽雨听弦 发表于 2015-8-31 09:30

抓紧时间 发表于 2015-8-31 09:18
有人说,大数据是落地的云。
我也很想多了解下云和分布式,请多指教!

就我的理解说,大数据和云完全两码事。
大数据是数据,云是结构,是处理数据所存在的物理和虚拟的资源。云简单说就是各个data center联合一起处理数据。这个联合就是虚拟的一个layer,他们有共同的ip domain,处理同一批数据,这样资源可以有效利用,类似teamwork,每个人都做一些,而不是一个人忙死,一个人闲死。
云的分布,呃。。。。举个简单例子吧,data center有ABC三个,分别在三个不同的地方(或者国家)。如果ABC都属我的公司,如我的公司是跨国公司,那么这个云就是私有云。如果AB属于我的公司,而C属于service provider,那么这就是混合云。目前混合云无法达到私有云那样同步协调工作,更多的是C作为backup,AB作为production。如果ABC都属于公有云,我自己没有data center,那么这就是完全依附于公有云了。这种的也不多,因为公有云的admin有的也是可以看到你的数据的——关于这一点,不同的公有云有不同的规定。德国这儿的公有云admin据我所知无法看到客户数据的全部,但metadaten能看到,这个也是应该的,因为公有云也是需要资源管理等等的,如果你在公有云里储存违法信息也是可以被查到的,不过这个还比较有争议。我看到的绝多数客户在我们公司(我所在的公司也是service provider,提供公有云,数据中心在伦敦,法兰这儿的刚建成,刚开始投入使用)都是backup一些不是最高敏感的信息~~~

啰嗦了一堆,不知我讲明白了没{:5_383:}

抓紧时间 发表于 2015-8-31 09:35

幽雨听弦 发表于 2015-8-31 09:30
就我的理解说,大数据和云完全两码事。
大数据是数据,云是结构,是处理数据所存在的物理和虚拟的资源。 ...

大数据,核心不是数据形式,而是数据处理、架构理念。
真正的关键我认为是架构,和云以及分布式相通之处甚多。

具体的我今天没法展开,有时间再写点

幽雨听弦 发表于 2015-8-31 09:41

抓紧时间 发表于 2015-8-31 09:35
大数据,核心不是数据形式,而是数据处理、架构理念。
真正的关键我认为是架构,和云以及分布式相通之处 ...

明白了
架构的确是最关键的。不过我个人觉得数据的架构和云的架构不是一回事。云的架构更多的是又物理layer上来,如果在虚拟层面统筹规划物理资源,数据的架构更多的是在这个层面之上如果用算法等建立数据库之类的东西。后者我不了解,经常听到的相关概念就是hadoop一类的,再往上如什么sql之类的就完全不是我的范畴了{:5_383:}

另:坐等高文继续~

kolinsky 发表于 2015-8-31 09:46

幽雨听弦 发表于 2015-8-31 08:14
说到大数据,我也插个嘴吧。再说大家互相讨论嘛,干嘛上纲上线的。都是正在发展和摸索的技术,互相听互相借 ...

云和大数据分析是两回事,虽然架构上有类似,但是完全是两回事。

大数据大多解决方案都是建立在云计算上的,但是云计算不必然是大数据。

说大数据不如说大数据分析,不是数据够大就叫大数据的,能不能对其进行有效分析才是关键。在海量数据里面查询一个什么东西,那不叫大数据。

虽然强调大数据要面对unstructure的数据集,但是并不是说你就真的用unstructure的数据集去计算,那是脑子进水,那之前要进行data integration,让unstructure的数据集在一定程度上是structure的。一个map 计算好歹也要知道map谁吧?所有的数据对象好歹你要有一个对应的方式读取吧?就data integeration 一项就不便宜了。这点dresden的一个中国女博士的文章很有意思。

datenschutz是另外一个题目,最近讲这个比较多。

幽雨听弦 发表于 2015-8-31 10:01

kolinsky 发表于 2015-8-31 09:46
云和大数据分析是两回事,虽然架构上有类似,但是完全是两回事。

大数据大多解决方案都是建立在云计算 ...

记得读研的时候有门课就是data integration,现在倒是都忘了
我接触不到数据本身这个层面。如果从osi model来说,数据应该是layer5以上的吧,我接触的都是layer2到4,经常说的是协议,什么bgp,ospf之类的,或者IP。对了,IP属于第三第四层。

leelight 发表于 2015-8-31 10:27

互相掐架不要伤了和气,不过我们这些其它领域的至少可以从掐架双方看到视角不同的两个方面,学习了不少{:5_332:}
幽雨听弦说的对,都是正在发展和摸索的技术,互相听互相借鉴就完了。
再说分析和存储本来也是分不开的,大数据深究根源到底也不是很高大上的东西,渊源是爬虫不是吗?
说错了请直接掐我{:5_340:}

schlafgern 发表于 2015-8-31 10:59

我觉得大家没有搞明白这里面这些名词概念的逻辑关系

nosql和大数据没有本质的联系,nosql是和分布式数据库相关,他是分布式数据库的处理数据的方式,具体的实现最流行的就是mapreduce了

nosql数据模型和sql数据模型的最本质区别,就在于nosql处理的数据模型是嵌入式的(容忍或者说接纳数据冗余),而关系数据库的数据模型是关系式的(不希望有数据冗余),正是因为nosql数据模型是嵌入式的,所以它才能很好的处理分布式数据系统,这个继续再细说起来就涉及CAP的东西了,不好科普了

leelight 发表于 2015-8-31 11:24

schlafgern 发表于 2015-8-31 10:59
我觉得大家没有搞明白这里面这些名词概念的逻辑关系

nosql和大数据没有本质的联系,nosql是和分布式数据 ...

我也是看了点历史才知道 Apache Nutch衍生了hadoop,以及nosql,这里面的名词和定义穿插的太多
页: [1] 2 3 4
查看完整版本: 管中窥豹:大数据时代的德国IT业的个人感受