:::: MENU ::::

TalkingData's Blog

现在开始,用数据说话。

Posts Tagged / 开源

  • Jan 26 / 2018
  • 0
Tech

锐眼洞察 | 开源数据技术简史(翻译)

作者:Keith D. Foote 

原文:A Brief History of Open Source Data Technologies

译者:TalkingData数据工程师 孙强

本译文禁止商用,转载请注明来源!

自文明开始以来,公开分享信息一直是人类文化的一部分。 信息将与大众共享,实践对工具和机械的发展产生了强大的影响。 与这种做法相对应的是所有权和控制权的概念,也就是所谓的“知识产权”。例如,专利和版权是基于这样的信念:发明人应该在别人使用或模仿的时候得到报酬, 他们是原创。 尽管公开分享新的想法很难被滥用,但专利可以被滥用,并且有合理的计划。 例如,1879年,专利律师乔治•B•塞尔登(George B. Selden)申请了一项专利,声称对2冲程汽油发动机的“主意”拥有所有权,由于货币的原因,延迟了专利局的批准直到1895年。 在推迟专利审批的同时(但不是申请日期),汽车正在设计和建造之中。 1899年,电动汽车公司以每辆汽车15美元的价格购买了他的专利的专利权(按现在的通货膨胀标准,每辆汽车420美元),然后开始成功起诉汽油动力汽车制造商专利侵权。 到1904年,有30家汽车制造商向电动汽车公司支付了1.25%的汽车销售,其中五分之一用于塞尔登。 这一直持续到1911年,当时亨利•福特使用四缸“四循环”发动机,摆脱了专利的束缚,塞尔登的不道德专利突然变得毫无价值。 (拥有网站名称的人对使用权进行收费对网站拥有者也有类似的束缚)。 汽车贸易委员会(最终名为“汽车制造商协会”)于同年成立,并制定了美国所有汽车制造商共享的交叉使用许可协议。 每个公司都可以开发新的技术和申请专利,但是专利是公开分享的,制造商之间没有交换货币,也没有任何法律诉讼。 显然,汽车制造商不希望陷入类似的专利束缚。

自由软件运动

“自由软件”可以不需要付费,但就自由软件运动而言,这个词是指用户可以自由复制,更改,改进,运行和分发的软件。 自由软件运动更多的是行动自由,而不是价格。 自由软件的限制很少,没有“追求利润的意图”。为了达到这些目标,自由软件基金会于1985年成立。自由软件基金会的使命是:“保护,保护和促进使用,学习,复制,修改和重新分配计算机软件的自由,维护自由软件用户的权利”。

开源运动

虽然“自由软件”可以说是一个强调自由的社会运动,但是开源软件将被描述为通过以公众为资源来改善和开发软件的集体努力。 从某种意义上说,开源依靠人们的“善良天使”来开发软件和技术。 一般来说,开放源代码描述了源代码已经发布并公开的软件,允许任何人使用,复制,修改和重新发布,而无需支付使用费或费用。 这使得开源代码可以通过社区合作的方式进行有机的演变。 开放源代码计划作为一个官方组织,于1998年创建,作为开源活动的倡导者,教育者和管理者。 由多个独立程序员开发的开源软件(协同软件开发)提供比任何单个公司所希望提供的更“原始”设计。 对于一些商业软件供应商来说,这种情况被视为一种威胁。 2001年,微软前任高管吉姆•阿尔奇内(Jim Allchine)公开表示: “开源是一个知识产权驱逐舰。 我无法想象软件业务和知识产权业务可能会比这更糟糕。“微软此后已经扭转了在开源领域的地位,并且与谷歌,IBM,甲骨文一起,正在互联网上建立一个官方的开放源码存在。 不用说,这对资本主义模式转变的意义造成了重大混乱。 (知识产权的所有权和不道德使用可以被认为是极端的资本主义,而开放源代码倡议被认为是一种个人协同的形式)。

UNIX 共享代码 (IBM)

在现代计算的发展中扮演着重要的角色。 AT&T贝尔实验室于1969年开始开发一个名为UNIX的小型操作系统。 目标是设计一个便携式的多任务系统,为分时配置的多用户设计。 在1972年,UNIX被改写,使用程序语言C,它允许程序和数据从“原始硬件”传输,使数据变得可移植。 反托拉斯案阻止了AT&T进入电脑业务,并要求他们授权系统的源代码给所有的请求方。 这导致学术机构和企业很快利用UNIX程序。 加利福尼亚大学伯克利分校的程序员开发了他们自己的操作系统的进化版本,标题是伯克利软件分发,公众可以访问。 (整个故事要复杂得多)

Mozilla诞生于1998年的网景源代码

网景社区于1995年推出了第一款真正的商业网络浏览器Netscape Navigator,当时并没有真正的竞争。 然而,微软正在研究Internet Explorer,并于1996年推出了一款能够与Netscape竞争的浏览器。 新的竞争促使Netscape于1998年向公众发布源代码,目的是模仿UNIX并将公众作为开发资源。 不幸的是,这一步骤阻碍了他们最新的浏览器平台的发展,给微软带来了Internet Explorer成为“使用最多的浏览器”的必要优势。网景通讯从未恢复,并被AOL收购。 2008年3月1日,网景公司正式停产,终止了对所有网景客户(他们感到震惊和沮丧)产品和浏览器的支持。 但是,Netscape的开源版本的源代码促使Mozilla组织的创建。

Linux

Linux程序提供了计算历史上开源软件协作最典型的例子之一。 Linux是由Linus Torvalds于1991年发明的。他曾就读于赫尔辛基大学,曾在Minix这个类似Unix的系统工作,并开始设计自己的内核。 Torvalds从设计硬盘访问和设备驱动程序开始,展示了他所称的基本设计,即版本0.01。 内核,后来被称为Linux,后来与开源GNU系统(发音g’noo)结合起来,生产出一个完全免费的操作系统。 任何人都可以使用,修改和分发Linux源代码。 在Linux上完成的大部分工作由Linux社区执行,其中包括来自世界各地的数千名程序员,他们向维护人员发送改进建议。 公司也帮助开发了Linux内核,并开发了通常用于该程序的“额外”软件。 Apache软件基金会(ASF) Apache软件基金会的使命是为公共利益提供软件。 它成立于1999年,是一个慈善组织。 它从个人和企业赞助商那里获得资金,并使用全志愿董事会。 该组织监督350多个开源项目。

Apache Hadoop

Apache Hadoop最初被称为Nutch,由Doug Cutting和Mike Cafarella两个人设计。 他们正在设计一个能够索引10亿个页面的搜索引擎系统,后来他们与MapReduce相结合。 Hadoop的成本效益来自使用基于商用硬件构建的计算机集群。 大数据集被分解,然后存储在本地磁盘上。 任何故障都通过软件来纠正,而不是昂贵的服务器。 Hadoop的成功,因为它是: 免费

  • 非常可扩展性:它在数百台低成本服务器上存储大型数据集
  • 灵活:提供对新数据源的访问,并可以访问不同类型的数据
  • 非常快速:可以在几分钟内有效处理TB级数据,在几小时内可以高达PB级数据
  • 备份:将数据发送到单个节点,然后复制到其他节点作为备份

Apache Spark

Apache Spark自发布以来迅速普及。 它比Apache Hadoop更快,可扩展性更强。 雅虎,Netflix和eBay等企业已经开始大规模使用它。 Spark与Hadoop相结合,已经迅速成为使用大数据的最大的开源社区之一。 (Spark不带文件管理,但可以使用Hadoop的分布式文件系统管理文件。)

Apache Storm

Apache Storm免费,是一个开源的实时计算系统。 它可以基本上实时处理大量的大数据,具有可扩展性,易于操作。Storm可以用于:

  • 实时分析
  • 在线机器学习
  • 连续计算
  • 分布式远程过程调用(RPC)

Apache Hive

Apache Hive是一个开源系统,用于使用基于SQL的语言查询数据。 它将总结和分析数据,将其转化为有用的业务见解。 Hive与传统的数据集成和数据分析工具兼容。许多数据仓库应用程序与基于SQL的查询语言兼容,Hive支持基于SQL的数据向Hadoop的可移植性和传输。 虽然最初由Facebook开发,但Hive已经被金融业监管机构和Netflix等公司使用和开发。

Apache Pig

Apache Pig用于分析以高级语言编写的大型数据集,旨在表达数据分析程序,并结合基础设施来评估程序。 Apache Pig的重要特性是提供大量并行化的能力。 这使系统能够处理“非常”大的大数据集。

开源硬件

开放源代码硬件是一种硬件,其规格已经发布并可供公众访问,允许个人复制,修改和重新分配,而无需支付使用费或费用。 这个政策也适用于开源机器人。 开源硬件基于社区合作。 社区通常由业余爱好者,硬件/软件开发者和一些大型企业组成。  

  • Dec 29 / 2017
  • 0
Ideas

锐眼发现 | 2018 年开源技术 10 大发展趋势

作者:

原文:10 open source technology trends for 2018

译者:wangy325

转载于:Linux 中国

技术始终是不断发展着的。OpenStack,Progressive Web Apps,Rust,R,认知云,人工智能(AI),物联网等新的发展正在把我们传统的认知模式抛弃。以下 2018 开源技术 10 大发展趋势。

1、 OpenStack 认可度持续高涨

OpenStack 本质上是一个云操作平台(系统),它为管理员提供直观友好的控制面板,以便对大量的计算、存储和网络资源进行配置和监管。

目前,很多企业运用 OpenStack 平台搭建和管理云计算系统。得益于其灵活的生态系统、透明度和运行速度,OpenStack 越来越流行。相比其他替代方案,OpenStack 只需更少的花费便能轻松支持任务关键型应用程序。 但是,其复杂的结构以及其对虚拟化、服务器和大量网络资源的严重依赖使得不少企业对使用 OpenStack 心存顾虑。另外,想要用好 OpenStack,好的硬件支持和高水平的员工二者缺一不可。

OpenStack 基金会一直在致力于完善他们的产品。一些功能创新,无论是已经发布的还是尚处于打造阶段,都将解决许多 OpenStack 潜在的问题。随着其结构复杂性降低,OpenStack 将获取更大认可。加之众多大型的软件开发及托管公司以及成千上万会员的支持, OpenStack 在云计算时代前途光明。

2、 PWA 或将大热

PWA,即 增强型网页应用Progressive Web App,是对技术、设计和网络应用程序接口Web API的整合,它能够在移动浏览器上提供类似应用的体验。

传统的网站有许多与生俱来的缺点。虽然应用(app)提供了比网站更加个性化、用户参与度更高的体验,但是却要占用大量的系统资源;并且要想使用应用,你还必须提前下载安装。PWA 则扬长避短,它可用浏览器访问、可被引擎搜索检索,并可响应式适应外在环境,为用户提供应用级体验。PWA 也能像应用一样自我更新,总是显示最新的实时信息,并且像网站一样,以极其安全的 HTTPS 模式递交信息。PWA 运行于标准容器中,无须安装,任何人只要输入 URL 即可访问。

现在的移动用户看重便利性和参与度,PWAs 的特性完美契合这一需求,所以 PWA 成为主流是必然趋势。

3、 Rust 成开发者新宠

大多数的编程语言都需在安全和控制二者之间折衷,但 Rust 是一个例外。Rust 使用广泛的编译时检查进行 100% 的控制而不影响程序安全性。上一次 Pwn2Own 竞赛找出了 Firefox C++ 底层实现的许多严重漏洞。如果 Firefox 是用 Rust 编写的,这些漏洞在产品发布之前的编译阶段就会被发现并解决。

Rust 独特的内建单元测试方式使开发者们考虑将其作为首选的开源语言。它是 C 和 Python 等其他编程语言有效的替代方案,Rust 可以在不损失程序可读性的情况下写出安全的代码。总之,Rust 前途光明。

4、 R 用户群在壮大

R 编程语言,是一个与统计计算和图像呈现相关的 GUN 项目。它提供了大量的统计和图形技术,并且可扩展增强。它是 S 语言的延续。S 语言早已成为统计方法学的首选工具,R 为数据操作、计算和图形显示提供了开源选择。R 语言的另一个优势是对细节的把控和对细微差别的关注。

和 Rust 一样,R 语言也处于上升期。

5、 广义的 XaaS

XaaS 是 “一切皆服务anything as a service” 的缩写,是通过网络提供的各种线上服务的总称。XaaS 的外延正在扩大,软件即服务(SaaS)、基础设施即服务(IaaS) 和平台即服务(PaaS)等观念已深入人心,新兴的基于云的服务如网络即服务(NaaS)、存储即服务(SaaS 或 StaaS)、监控即服务(MaaS)以及通信即服务(CaaS)等概念也正在普及。我们正在迈向一个万事万物 “皆为服务” 的世界。

现在,XaaS 的概念已经延伸到实体企业。著名的例子有 Uber 、Lyft 和 Airbnb,前二者利用新科技提供交通服务,后者提供住宿服务。

高速网络和服务器虚拟化使得强大的计算能力成为可能,这加速了 XaaS 的发展,2018 年可能是 “XaaS 年”。XaaS 无与伦比的灵活性、可扩展性将推动 XaaS 进一步发展。

6、 容器技术越来越受欢迎

容器技术,是用标准化方法打包代码的技术,它使得代码能够在任意环境中快速地 “接入并运行”。容器技术让企业可以削减经费、降低实施周期。尽管容器技术在 IT 基础结构改革方面的已经初显潜力,但事实上,运用好容器技术仍然比较复杂。

容器技术仍在发展中,技术复杂性随着各方面的进步在下降。最新的技术让容器使用起来像使用智能手机一样简单、直观,更不用说现在的企业需求:速度和灵活性往往能决定业务成败。

7、 机器学习和人工智能的更广泛应用

机器学习和人工智能指在没有程序员给出明确的编码指令的情况下,机器具备自主学习并且积累经验自我改进的能力。

随着一些开源技术利用机器学习和人工智能实现尖端服务和应用,这两项技术已经深入人心。

Gartner 预测,2018 年机器学习和人工智能的应用会更广。其他一些领域诸如数据准备、集成、算法选择、学习方法选择、模块制造等随着机器学习的加入将会取得很大进步。

全新的智能开源解决方案将改变人们和系统交互的方式,转变由来已久的工作观念。

  • 机器交互,像聊天机器人这样的对话平台,提供“问与答”的体验——用户提出问题,对话平台作出回应,成为人机之间默认的交互界面。
  • 无人驾驶和无人机现在已经家喻户晓了,2018 年将会更司空见惯。
  • 沉浸式体验的应用不再仅仅局限于视频游戏,在真实的生活场景比如设计、培训和可视化过程中都能看到沉浸式体验的身影。

8、 区块链将成为主流

自比特币应用区块链技术以来,其已经取得了重大进展,并且已广泛应用在金融系统、保密选举、学历验证等领域中。未来几年,区块链会在医疗、制造业、供应链物流、政府服务等领域中大展拳脚。

区块链分布式存储数据信息,这些数据信息依赖于数百万个共享数据库的节点。区块链不被任意单一所有者控制,并且单个损坏的节点不影响其正常运行,区块链的这两个特性让它异常健壮、透明、不可破坏。同时也规避了有人从中篡改数据的风险。区块链强大的先天优势足够支撑其成为将来主流技术。

9、 认知云粉墨登场

认识技术,比如前面所述的机器学习和人工智能,用于为多行业提供简单化和个性化服务。一个典型例子是金融行业的游戏化应用,其为投资者提供了严谨的投资建议,降低投资模块的复杂程度。数字信托平台使得金融机构的身份认证过程较以前精简 80%,提升了合规性,降低了诈骗比率。

认知云技术现在正向云端迁移,借助云,它将更加强大。IBM Watson 是认知云应用最知名的例子。IBM 的 UIMA 架构是开源的,由 Apache 基金会负责维护。DARPA(美国国防高级研究计划局)的 DeepDive 项目借鉴了 Watson 的机器学习能力,通过不断学习人类行为来增强决策能力。另一个开源平台 OpenCog,为开发者和数据科学家开发人工智能应用程序提供支撑。

考虑到实现先进的、个性化的用户体验风险较高,这些认知云平台来年时机成熟时才会粉墨登场。

10、 物联网智联万物

物联网(IoT)的核心在于建立小到嵌入式传感器、大至计算机设备的相互连接,让其(“物”)相互之间可以收发数据。毫无疑问,物联网将会是科技界的下一个 “搅局者”,但物联网本身处于一个不断变化的状态。

物联网最广为人知的产品就是 IBM 和三星合力打造的去中心化 P2P 自动遥测系统(ADEPT)。它运用和区块链类似的技术来构建一个去中心化的物联网。没有中央控制设备,“物” 之间通过自主交流来进行升级软件、处理 bug、管理电源等等一系列操作。

开源推动技术创新

数字化颠覆是当今以科技为中心的时代的常态。在技术领域,开放源代码正在逐渐普及,其在 2018 将年成为大多数技术创新的驱动力。

此榜单对开源技术趋势的预测有遗漏?在评论区告诉我们吧!

随时欢迎您 联系我们