Tags

大数据

大数据(Big Data)又称为巨量资料,指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。“大数据”概念最早由维克托·迈尔·舍恩伯格和肯尼斯·库克耶在编写《大数据时代》中提出,指不用随机分析法(抽样调查)的捷径,而是采用所有数据进行分析处理。大数据有4V特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。

大数据 - 定义

对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《着云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

大数据 - 特征

容量(Volume):数据的大小决定所考虑的数据的价值的和潜在的信息;
种类(Variety):数据类型的多样性;
速度(Velocity):指获得数据的速度;
可变性(Variability):妨碍了处理和有效地管理数据的过程。
真实性(Veracity):数据的质量
复杂性(Complexity):数据量巨大,来源多渠道

大数据 - 技术盘点

HadoopMapReduce

思维模式转变的催化剂是大量新技术的诞生,它们能够处理大数据分析所带来的3个V的挑战。扎根于开源社区,Hadoop已经是目前大数据平台中应用率最高的技术,特别是针对诸如文本、社交媒体订阅以及视频等非结构化数据。除分布式文件系统之外,伴随Hadoop一同出现的还有进行大数据集处理MapReduce架构。根据权威报告显示,许多企业都开始使用或者评估Hadoop技术来作为其大数据平台的标准。

NoSQL数据库

我们生活的时代,相对稳定的数据库市场中还在出现一些新的技术,而且在未来几年,它们会发挥作用。事实上,NoSQL数据库在一个广义上派系基础上,其本身就包含了几种技术。总体而言,他们关注关系型数据库引擎的限制,如索引、流媒体和高访问量的网站服务。在这些领域,相较关系型数据库引擎,NoSQL的效率明显更高。

内存分析

在Gartner公司评选的2012年十大战略技术中,内存分析在个人消费电子设备以及其他嵌入式设备中的应用将会得到快速的发展。随着越来越多的价格低廉的内存用到数据中心中,如何利用这一优势对软件进行最大限度的优化成为关键的问题。内存分析以其实时、高性能的特性,成为大数据分析时代下的“新宠儿”。如何让大数据转化为最佳的洞察力,也许内存分析就是答案。大数据背景下,用户以及IT提供商应该将其视为长远发展的技术趋势。

集成设备

随着数据仓库设备(Data Warehouse Appliance)的出现,商业智能以及大数据分析的潜能也被激发出来,许多企业将利用数据仓库新技术的优势提升自身竞争力。集成设备将企业的数据仓库硬件软件整合在一起,提升查询性能、扩充存储空间并获得更多的分析功能,并能够提供同传统数据仓库系统一样的优势。在大数据时代,集成设备将成为企业应对数据挑战的一个重要利器。

1 questions
移动应用开发

移动开发也称为手机开发,或叫做移动互联网开发。是指以手机、PDA、UMPC等便携终端为基础,进行相应的开发工作,由于这些随身设备基本都采用无线上网的方式,因此,业内也称作为无线开发。

1 questions
mathjax

MathJax 是一个开源的基于 Ajax 的数学公式显示的解决方案,结合多种先进的Web技术,支持主流的浏览器。MathJax 根据页面中定义的 LaTex 数据,生成对应的数学公式。

1 questions
csv

逗号分隔型取值格式(英文全称为Comma Separated Values,簡稱CSV),是一种纯文本格式,用来存储数据。在CSV中,数据的字段由逗号分开,程序通过读取文件重新创建正确的字段。

CSV文件是一个计算机数据文件用于执行审判和真正的组织工具,逗号分隔的清单。CSV文件以数字存储的数据结构表的形式列出,相关的项(成员)组与其他项(成员)由逗号隔开。表格中的行与CSV文件的行对应。同行字段用逗号分隔。CSV文件常常被用于在两个不同的计算机程序之间移动表格数据,例如关系数据库程序和电子表格程序。

以上内容来自维基百科

0 questions
翻译

翻译,是指在准确通顺的基础上,把一种语言信息转变成另一种语言信息的活动。

这个过程从逻辑上可以分为两个阶段:首先,必须从源语言中译码含义,然后把信息重新编码成目标语言。所有的这两步都要求对语言语义学的知识以及对语言使用者文化的了解。除了要保留原有的意思外,一个好的翻译,对于目标语言的使用者来说,應該要能像是以母語使用者说或写得那般流畅,並要符合譯入语的习惯(除非是在特殊情况下,演说者并不打算像一个本语言使用者那样说话,例如在戏剧中)。

翻譯分为口譯和筆譯。口譯又稱為「傳譯」,顧名思義,是指譯員以口語的方式,將譯入語轉換為譯出語。由於語言必定早於文字出現,因此口譯的出現也必定早於筆譯。

2 questions
dnspod

DNSPod 建立于2006年3月份,是一款免费智能DNS产品。 DNSPod 可以为同时有电信、网通、教育网服务器的网站提供智能的解析,让电信用户访问电信的服务器,网通的用户访问网通的服务器,教育网的用户访问教育网的服务器,达到互联互通的效果。

1 questions
作品

在法律领域,作品是具有独创性,并且可以通过某种形式复制的智力成果。它是著作权法保护的对象。作品的创作者就是作者。

1 questions
生活

Life is wonderful.

0 questions
x-window

X Window系统(X Window System,也常稱為X11或X)是一种以位图方式显示的軟體視窗系統。最初是1984年麻省理工學院的研究,之後變成UNIX、类UNIX、以及OpenVMS等操作系统所一致適用的標準化軟體工具套件及顯示架構的運作協定。X Window系统透過軟體工具及架構協定來建立作業系統所用的图形用户界面,此後則逐漸擴展適用到各形各色的其他作業系統上。现在幾乎所有的作業系統都能支援與使用X。更重要的是,今日知名的桌面環境——GNOME和KDE也都是以X Window系统為基礎建構成的。

由於X只是工具套件及架構規範,本身並無實際參與運作的實體,所以必須有人依據此標準進行開發撰寫。如此才有真正可用、可執行的實體,始可稱為實現體。目前依據X的規範架構所開發撰寫成的實現體中,以X.Org最為普遍且最受歡迎。X.Org所用的協定版本,X11,是在1987年9月所發佈。而今最新的參考實作(參考性、示範性的實作體)版本則是X11 Release 7.6(簡稱:X11R7.6),而此專案由X.Org基金会所領導,且是以MIT授權和相似的授權許可的自由軟體。

1 questions
wikipedia

维基百科(英语:Wikipedia)是一個強調Copyleft自由內容、協同編輯(Collaborative Editing)以及多語言版本的網路百科全書,該網站也以網際網路作為媒介而擴展成為一項基於Wiki技術發展的世界性百科全書協作計劃,並由非營利性質的維基媒體基金會負責相關的發展事宜。維基百科是由來自世界各地的志願者合作編輯而成,整個計畫總共收錄了超過2,200萬篇條目,而其中又以英語維基百科以超過404萬篇條目的數字排名第一。維基百科允許任何訪問網站的用戶都可以使用網頁瀏覽器自由閱覽和修改絕大部分頁面的內容,根據統計在維基百科上大約有35,000,000名登記註冊用戶,其中有100,000名积极貢獻者長期參與編輯工作,而整個網站的總編輯次數更是超越10億次之多。截至2012年8月為止維基百科整個計畫總共有285種各自獨立運作的語言版本,且已經被普遍認為是成規模最大且最為流行的網路工具書,平均每天能夠獲得超過80萬人次的瀏覽紀錄。根據知名的Alexa Internet其網路流量統計數字指出全世界總共有近3.65億名民眾使用維基百科,且維基百科也是全球瀏覽人數排名第六高的網站(最高紀錄是排名在第五名位置),同時也是全世界最大的無廣告網站。根據估計,維基百科每個月便有將近2.7億的美國人民前往該網站瀏覽。

维基百科最早是在吉米·威爾斯與拉里·桑格兩人的合作之下,在2001年1月13日於網際網路上推出網站服務,並在1月15日時正式展開網路百科全書的計畫。其中桑格同時結合了維基百科網站合作核心的「Wiki」以及具有百科全書之意的「encyclopedia」,而另外創造了新的混成詞「Wikipedia」。維基百科一開始創立的目標是為了全人類提供一個自由的百科全書,並希望來自各地的民眾也能夠使用自己選擇的語言來參與編輯條目的行列。不同於其他書面印刷的百科全書多是由專家來主導編輯,之後再由印刷廠商影印之後加以銷售;維基百科在性質上更接近如同其號稱般可自由訪問和編輯的全球知識體,這也意味著除了傳統百科全書所收錄的資訊外,維基百科也能夠收錄非學術內容、但是仍具有一定媒體關注度的動態事件。2006年《時代》雜誌所評選的時代年度風雲人物「你」中,便於介紹文章中提到數以百萬來自世界各地的人們於線上共同協作並互動的方式促進維基百科的快速成長,同一年提及的其他重要網站還包括有YouTube、MySpace和Facebook。

由於維基百科能夠十分迅速整理出與最近發生事件相關的資訊並且任何人都能夠深入整理資料內容,使得許多人也漸漸將維基百科視為一個新聞來源。同時為了方便一般學生或者瀏覽群眾能夠簡單瞭解條目的內容,維基百科絕大多數的文章都會盡可能以簡單的話語來解釋困難的概念。隨著维基百科在社會上的普及,也陸陸續續促成了包括維基新聞、維基教科書等其它姐妹計畫的產生。然而儘管維基百科在其官方政策上堅決擁護可供查證以及中立觀點這兩項要求,維基百科仍然因為任何人都能夠加入編輯的特性受到社會許多人士的批評,其中又以編輯條目的質量、資訊提供的準確度、呈現態度的客觀性以及無法提供一致的準確內容為多。另外一部分人士指稱問題在於維基百科採用了Wiki技術,這使得他們認為任何人都可以編輯維基百科内容的作法本身就是維基百科最大且無法改變的缺點,在這般情況下破壞者能夠輕易在易引起爭紛的政治和宗教條目中添加虛構的內容、刪除正確的資訊或者任意添加自己的偏見。而包括維基百科創始人吉米·威爾斯以及英國牛津大學教授喬納森·齊特林(Jonathan Zittrain)等知識份子對於條目準確性的爭議,認為在一定程度上是源自於他人對於維基百科的偏見。為了盡可能解決各界對於條目品質的質疑,維基百科也陸續提出許多相對應的方針與指引來保障文章的品質,同時也希望協同編輯時能夠列出足以供他人查證、審核及確認的資料來源。然而批評者也提到許多維基百科絕大多數大量資訊都是由那些喜歡來自流行文化等事物的民眾編輯自己喜愛的項目而成,但這也意味著在許多情況之下網站十分容易因為各種理由而受到他人人為破壞;同時批評者也指出就算一些報告證實許多文章在遭到破壞後往往能立即簡單地被刪除,但是維基百科內仍然包含有大量未經證實或者是相互矛盾的資訊。不過《自然》在2005年的調查之中認為維基百科在科學文章這一領域與作為傳統百科全書代表的《大英百科全書》有著相似的精確度,但是兩者在內容上都有一定程度上的「嚴重缺失」。

1 questions