`
philip_kissme
  • 浏览: 16208 次
  • 来自: ...
社区版块
存档分类
最新评论
阅读更多

Jim Gray在过去40年中对技术发展有过巨大的贡献,“内存是新的硬盘,硬盘是新的磁带”是他的名言。“实时”Web应用不断涌现,达到海量规模的系统越来越多,这种后浪推前浪的发展模式对软硬件又有何影响?

Tim Bray早在网格计算成为热门话题之前,就讨论过以RAM和网络为中心的硬件结构的优势,可以用这种硬件建立比磁盘集群速度更快的RAM集群。

引用

对于数据的随机访问,内存的速度比硬盘高几个数量级(即使是最高端的磁盘存储系统也只是勉强达到1,000次寻道/秒)。其次, 随着数据中心的网络速度提高,访问内存的成本更进一步降低。通过网络访问另一台机器的内存比访问磁盘成本更低。就在我写下这段话的时候,Sun的 Infiniband产品线中有一款具备9个全互联非阻塞端口交换机,每个端口的速度可以达到30Gbit/sec!Voltaire产品的端口甚至更多;简直不敢想象。(如果你想了解这类超高性能网络的最新进展,请关注Andreas Bechtolsheim在Standford开设的课程。)



各种操作的时间,以2001年夏季,典型配置的 1GHz 个人计算机为标准:

引用

执行单一指令 1 纳秒
从L1 高速缓存取一个字 2 纳秒
从内存取一个字 10 纳秒
从磁盘取连续存放的一个字 200 纳秒
磁盘寻址并取字 8 毫秒
以太网  2GB/s


Tim还指出Jim Gray的名言中后半句所阐述的真理:“对于随机访问,硬盘慢得不可忍受;但如果你把硬盘当成磁带来用,它吞吐连续数据的速率令人震惊;它天生适合用来给以RAM为主的应用做日志(logging and journaling)。”

时间闪到几年之后的今天,我们发现硬件的发展趋势在RAM和网络领域势头不减,而在硬盘领域则止步不前。Bill McColl提到用于并行计算的海量内存系统已经出现:

引用
内存是新的硬盘!硬盘速度提高缓慢,内存芯片容量指数上升,in-memory软件架构有望给各类数据密集的应用带来数量级的性能提升。小型机架服务器(1U、2U)很快就会具备T字节、甚至更大量的内存,这将会改变服务器架构中内存和硬盘之间的平衡。硬盘将成为新的磁带,像磁带一样作为顺序存储介质使用(硬盘的顺序访问相当快速),而不再是随机存储介质(非常慢)。这里面有着大量的机会,新产品的性能有望提高10倍、100倍。


Dare Obsanjo指出如果不把这句真言当回事,会带来什么样的恶劣后果—— 也就是Twitter正面临的麻烦。论及Twitter的内容管理,Obsanjo说,“如果一个设计只是简单地反映了问题描述,你去实现它就会落入磁盘 I/O的地狱。不管你用Ruby on Rails、Cobol on Cogs、C++还是手写汇编都一样,读写负载照样会害死你。”换言之,应该把随机操作推给RAM,只给硬盘留下顺序操作。

Tom White是Hadoop Core项目的提交者,也是Hadoop项目管理委员会的成员。他对Gray的真言中“硬盘是新的磁带”部分作了更深入地探讨。White在讨论MapReduce编程模型的时候指出,为何对于Hadloop这类工具来说,硬盘仍然是可行的应用程序数据存储介质:

引用
   本质上,在MapReduce的工作方式中,数据流式地读出和写入硬盘,MapReduce是以硬盘的传输速率不断地对这些数据进行排序和合并 。 与之相比,访问关系数据库中的数据,其速率则是硬盘的寻道速率 (寻道指移动磁头到盘面上的指定位置读取或写入数据的过程)。为什么要强调这一点?请看看寻道时间和磁盘传输率的发展曲线。寻道时间每年大约提高5%,而数据传输率每年大约提高20%。寻道时间的进步比数据传输率慢——因此采用由数据传输率决定性能的模型是有利的。MapReduce正是如此。


虽然固态硬盘(SSD)能否改变寻道时间/传输率的对比还有待观察,White文章的跟贴中,很多人都认为SSD会成为RAM/硬盘之争中的平衡因素。

Nati Shalom对内存和硬盘在数据库部署和使用中的角色作了一番有理有据的评述。 Shalom着重指出用数据库集群和分区来解决性能和可伸缩性的局限。他说,“数据库复制和数据库分区都存在相同的基本问题,它们都依赖于文件系统/硬盘 的性能,建立数据库集群也非常复杂”。他提议的方案是转向In-Memory Data Grid(IMDG) ,用Hibernate二级缓存或者GigaSpaces Spring DAO之类的技术作支撑,将持久化作为服务(Persistence as a Service)提供给应用程序。Shalom解释说,IMDG

引用
提供在内存中的基于对象的数据库能力,支持核心的数据库功能,诸如高级索引和查询、事务语义和锁。IMDG还从应用程序的代码中抽象出了数据的拓扑。通过这样的方式,数据库不会完全消失,只是挪到了“正确的”位置。


IMDG相比直接RDBMS访问的优势列举如下:

  •     位于内存中,速度和并发能力都比文件系统优越得多
  •     数据可通过引用访问
  •     直接对内存中的对象执行数据操作
  •     减少数据的争用
  •     并行的聚合查询
  •     进程内(In-process)的局部缓存
  •     免除了对象-关系映射(ORM)

你是否需要改变对应用和硬件的思维方式,最终取决于你要用它们完成的工作。但似乎公论认为,开发者解决性能和可伸缩性的思路已经到了该变一变的时候。

 

分享到:
评论

相关推荐

    计算机基础知识试题及答案(全)...doc

    16.人们把以( A )为硬件基本部件的计算机称为第四代计算机。 A.大规模和超大规模集成电路 B.ROM和RAM C.小规模集成电路 D.磁带与磁盘 17.用计算机管理科技情报资料,是计算机在...C.Cache>硬盘>RAM D.RAM>硬盘>Cache

    浅议内存云(RAMCloud)的未来发展

    Steven Robbins的文章指出,图灵奖得主Jim Gray很早就提出了“内存将成为硬盘,硬盘将成为磁带”的说法(出自2006年Tim Bray一篇讨论网格计算的博客,2003年的访谈中他已经表达了同样的意思)。2008年Dare Obsanjo...

    NoSQL数据库笔谈.pdf

    思想篇 CAP 最终一致性 变体 BASE 其他 I/O的五分钟法则 不要删除数据 RAM是硬盘,硬盘是磁带 Amdahl定律和Gustafson定律 万兆以太网 3. 手段篇 一致性哈希 亚马逊的现状 算法的选择 Quorum NRW Vector clock ...

    电子电脑知识进赛题库

    A) 硬盘存储器 B) 软盘存储器 C) 半导体RAM(内存储器) D) 磁带存储器" "C" 2 "下面是关于微型计算机操作的四条叙述,其中正确的一条是:_______ A)系统不会用输入日期做任何事,可以随便输入过去一个日期作当天日期...

    NoSQL数据库笔谈

    NoSQL数据库笔谈 1. CAP 2. 最终一致性 1. 变体 3. BASE 4. 其他 1. I/O的五分钟法则 2. 不要删除数据 3. RAM是硬盘,硬盘是磁带 4. Amdahl定律和Gustafson定律 5. 万兆以太网 3. 手段篇 1. 一致性哈希

    新华人寿保险应用的存储解决方案

    根据未来数据存储系统的管理层级,新华人寿保险DX系统采用了将一级存储设备(硬盘)和二级存储设备(DVD-RAM光盘)结合使用的方式。使那些二级存储设备将原有的方便扩容的性能带进了这个存储空间,对磁带这类设备的...

    计算机组成原理第五次作业答案.doc

    5. 磁带、主存、硬盘、光盘四种存储器分属于随机存取存储器、顺序存取存储器、直接存取存储器中的哪一类? 6. 引入cache的目的是什么?引入虚拟存储器的目的是什么? 7.已知CPU地址总线A15~A0(低)。用ROM芯片...

    大数据云计算技术系列 NoSQL数据库学习教程(共71页).pdf

    2 RAM是硬盘,硬盘是磁带 2 Amdahl定律和Gustafson定律 2 万兆以太网 3 手段篇 3 一致性哈希 3 亚马逊的现状 3 算法的选择 3 Quorum NRW 3 Vector clock 3 Virtual node 3 gossip 3 Gossip (State Transfer Model) 3 ...

    StarWind5.4企业版

    没有限定单个的磁盘容量,硬盘安装的总数,CPU的数量或CPU内核数, 以太网端口或RAM的数量。 支持IPv4 和IPv6。 对私有数据的安全进行IPsec加密,跳过不安全的WAN IP连接。 整个绘画内容被加密,换句话说,任何事...

    Starwind6.0_with_free_license

    没有限定单个的磁盘容量,硬盘安装的总数,CPU的数量或CPU内核数, 以太网端口或RAM的数量。 支持IPv4 和IPv6。 对私有数据的安全进行IPsec加密,跳过不安全的WAN IP连接。 整个绘画内容被加密,换句话说,任何事...

    2020年下半年计算机应用基础期末试卷.doc

    (2分)在微机中外存储器通常使用硬盘作为存储介质,硬盘中存储的信息,在断电后( )。 A. 不会丢失 B. 完全丢失 C. 少量丢失 D. 大部分丢失 得分: 2 知识点: 计算机应用基础 收起解析 答案A 解析 9. (2分)每个IP...

    大学计算机应用基础期末复习资料-计算机基础知识练习及参考答案.doc

    磁带存储器 22. 计算机软件系统应包括_____。 A. 编辑软件和连接程序 B. 数据软件和管理软件 C. 程序和数据 D. 系统软件和应用软件 23. 半导体只读存储器(ROM)与半导体随机存储器(RAM)的主要区别在于_____。 A. ...

    c语言2001年试题及答案

    (1) 计算机的存储器完整的应包括 A) 软盘、硬盘 B) 磁盘、磁带、光盘 C) 内存储器、外存储器 D) RAM、ROM

    网管教程 从入门到精通软件篇.txt

     下例将在硬盘上添加一个 20 MB 的分区:  diskpart /add Device HardDisk0 20  Fixboot  向系统分区写入新的分区引导扇区。只有在使用故障恢复控制台时,才能使用 fixboot 命令。  fixboot [drive]  ...

    BS.Player.Pro.v2.53.1034.Multilingual.Incl.Keymaker-CORE

    BS.Player可以直接在互联网上播放任何YouTube影片并将其保存至本地硬盘。 最重要的是, BS.Player, 是一款面向全球多媒体市场的免费媒体电影播放器产品,由于其配备了先进的字幕选项,用户能够观看当下流行的各种...

    Tektronix-4051-4052-4054-Program-Files:Tyk4051 4052 4054和A系列计算机程序的存档

    由于4050系列图形计算机最多只能有64K字节的RAM内存(4052和4054,4051只能有32K字节的RAM),这些程序大量使用了磁带驱动器或外部GPIB软盘或硬盘存储来存储数据。许多程序。 Tyk计算机中的DC300磁带机提供了约300K...

    二级C语言历年真题及答案(05-09)

    A)软盘、硬盘B)磁盘、磁带、光盘 C)内存储器、外存储器D)RAM、ROM 计算机中运算器的作用是 A)控制数据的输入/输出B)控制主存与辅存间的数据交换 C)完成各种算术运算和逻辑运算D)协调和指挥整个计算机系统的操作 ...

    会计理论考试题

    22.在硬盘上找某个文件,但不知在哪个文件夹中,下列___B____方法较快。 A、打开“我的电脑”,选C盘,再按文件夹查找 B、在“开始”菜单中选择“查找”命令 C、在资源管理器的“工具”菜单中单击“查找”命令 D、在...

    CADCAM系统组成计算机辅助设计与制造.pptx

    根据存储信息的方式内存储器可以分为随机存储器 (Random Acces Memory,RAM)和只读存储器(Read only Memory,ROM)。 第5页/共40页 CADCAM系统组成计算机辅助设计与制造全文共40页,当前为第5页。 2.1.2 外存储器 外...

Global site tag (gtag.js) - Google Analytics