翻页   夜间
UC小说 > 科技革命,从1984开始 > 第220章 大数据处理关键操作

    天才一秒记住本站地址:[UC小说] https://www.ucxs.info/最快更新!无广告!

    “当然可以,你拿去看吧,有什么意见尽管跟我说。”

    李卫脸上挂着温和的笑容,语气客气地说道。

    秦奕接过论文,迫不及待地开始快速浏览其中的关键论述——这篇论文主要阐述了并行程序中并行、汇聚、通讯、映射及归纳等机制的语义。

    看着看着,他的眼中闪过一丝惊喜,这里面描述的不正是前世互联网大数据处理框架

    MAPREDUCE

    里的基本操作吗!

    前世,搜索引擎巨头谷歌在

    2004

    年前后发布了三篇奠定大数据处理基础的论文

    ——《The

    Google

    File

    System》《MapReduce:

    Simplified

    Data

    Processing

    on

    Large

    Clusters》《Bigtable:

    A

    Distributed

    Ste

    System

    for

    Structured

    Data》。

    这三篇论文为大数据处理领域带来了全新的思路和方法,宛如一把火,瞬间点燃了学术界和工业界对大规模数据处理技术的研究热情,也有力推动了

    Hadoop

    等开源项目的发展。

    这些项目在之后的十几年里迅速成为了大数据基础设施,对整个大数据、云计算甚至是后来的人工智能行业都产生了深远影响。

    其中,《MapReduce》这篇论文里使用的核心操作

    Map

    和

    Reduce,与李卫这篇论文中的映射和归纳两个机制,本质上如出一辙。

    秦奕不禁思索,原来早在这个时候,相关的核心操作就已经在并行程序领域得到应用了吗?

    或许当时撰写那三篇论文的谷歌程序员正是从这些并行程序的论文中获得了灵感。

    当然,《MapReduce》论文不只是应用了这两个关键操作,它还围绕这两个核心操作,精心设计了一套完整的系统架构和实现机制,涵盖数据划分、任务调度、容错处理、数据

    /

    代码互定位等功能,确保在大规模集群上能够稳定、高效地运行。

    秦奕接着又仔细看了看李卫论文里的具体实验内容,是关于

    Ada

    语言在一些单机程序中的处理。

    “李卫同志,我有个疑惑。”

    他抬起头,目光看向李卫。

    “说吧。”

    李卫挑了挑眉,他刚才让对方提意见不过是句客气话,没想到这个秦奕还真敢有想法。

    “你这里的并行程序,似乎只涉及单台计算机的多处理器并行,没有涉及多台计算机的并行处理。”

    秦奕认真地说道。

    “多台计算机的并行处理?”

    李卫低声重复着这个词,随后笑道,“这需要用到计算机网络了,是吧?”

    秦奕连忙点头,回答道:“对的。”

    “我理解单台计算机虽然具备低延迟通信、易于管理和调度以及数据一致性维护简单等优势,但是它的处理器数量和内存容量等硬件资源有限。”

    “一旦并行任务规模持续扩大,很快就会遭遇资源瓶颈,难以满足大规模计算需求。如果想要进一步提升其性能,往往需要采用高端的多核处理器、大容量高速内存等硬件设备,硬件成本高昂,且能耗也相对较高。”

    “如果借助计算机网络来实现程序的并行,那就可以通过增加计算机的数量,轻松扩展计算能力,理论上能够满足任意大规模的计算需求。”

    李卫听后,笑着反驳:“你可别把计算机网络说得太神了。计算机网络通信开销还是很大的,和单机通信比起来,延迟成百上千倍,对于一些对通信实时性要求极高的任务,这可是无法接受的。”

    秦奕自然不会轻易放弃,他耐心解释道:“您说得很有道理,这确实不适用于对实时性要求高的任务。”

    “但我觉得,在大多数情况下,程序对实时性的要求并没有那么严苛。而且,随着赵老那边对光纤传输介质的研究不断深入,网络的延迟会越来越低,网络并行的适用性也会越来越广。”

    “很有想法啊!”

    李卫赞许地说道,“你现在是研究生还是本科生?有没有兴趣来我们京航大学继续进修?来我这里读博士,我可以专门为你开设你说的这个研究课题。”

    “啊,不了不了。”

    秦奕连忙摆手,“我只是提出一些粗浅的想法,我觉得自己还是更适合在产业界继续深耕发展。”

    “哈哈哈,你就是想光靠动动嘴搞科研,是吧。”

    李卫半开玩笑地说道,“科研可不是有一个想法就可以的,还需要有大量的实验佐证的。”

    “那倒不是。我真心觉得,随着计算机网络的逐渐流行,我们很快就会面临需要处理海量数据的情况。到时候,如果科研界能提供一些指导,我们产业发展也能走得更顺畅,说不定还能在海量数据这上面走在前头。”

    秦奕认真地解释道。

    不过他心里也清楚,现在距离处理海量数据还有很长的路要走。

    前世从

    1994

    年万维网联通世界,到

    2004

    年大数据概念的提出,中间还历经了十年的发展,而如今,万维网的雏形都还未出现。

    “那我就期待一下你说的计算机网络的流行了!”

    李卫笑着说,“到时候,要是你这个产业界人士真遇到海量数据处理的问题,也可以来找我们合作,哈哈。”

    秦奕又和李卫闲聊了几句关于全球即将通过计算机网络互联的话题,便离开了标准化协会,前往海淀区找董德绍他们。

    “啊!为什么这个程序运行结果是

    4!”

    秦奕刚一进门,就听到了董德绍绝望的哀嚎。

    李勇军满脸困惑地看着他:“我刚才就给你解释过这个程序的整体运行逻辑了,至于你为什么就是弄不明白,我也实在搞不懂。”

    周瑾龙在一旁劝道:“小董,你就别挣扎了,数学学霸的世界你不懂,编程这种东西,我这种上过大学的都放弃了,更何况你这种大学都没考上的。”喜欢科技革命,从1984开始请大家收藏:
章节错误,点此报送(免注册), 报送后维护人员会在两分钟内校正章节内容,请耐心等待。