step

大数据导论

大一上期的大数据导论,期末总结!

1.0 大数据时代

  1. 定义: 狭义上理解为常规软件不能处理的数据集,但数据量的增长与硬件的处理能力是相对的,虽然数据量很大,但如果硬件的处理能力足够强大就不能称之为大数据,而处理方式的改变却是重要的。 舍恩伯格在《大数据时代》中百般例证大数据是在新的处理模式下思维方式的改变,用大数据思维去发掘大数据的潜在价值。数据不在于大而在于有用。
  2. 4v模型:数量(volume)种类(variety)速度(velocity)价值(value)
  3. 结构类型:结构化、半结构化,准结构化,非结构化。
  4. 发展:硬件廉价,技术进步。

2.0 可视化

  1. 定义:将数据时间信息,空间信息以合适的方式转换成图形语言,将数据直观的表达出来,帮助人们理解,认知数据,发现数据反映的实质。
  2. 数据的特性:1可变性,2不确定性,3背景,4效果
  3. 七个数据类型: 一维(线性数据) 二维(地图数据) 三维(世界数据) 多维数据(n维数组) 时态数据(某个时间点上的数据) 树数据(层次结构) 网络数据(网络结构)
  4. 七个基本任务: 概览(整体观察数据) 缩放(把感兴趣的放大观察) 过滤(剔除不感兴趣的) 细化(观察细节) 关联(寻找数据间的关系) 历史(允许追溯) 提取(允许查看)
  5. 挑战: 数据的复杂性。 数据的导入和清理

3.0 思维变革

三个思维变革以及例子: 2012年大数据元年。

  1. 样本到总体: 人口普查乔布斯拿到癌症基因, 谷歌的流感分析的对象是全美国几十亿条互联网检索记录。
  2. 接受容错性(混杂性):

牺牲精确性来获得更广泛的数据,获得数据的完整性。适当的牺牲微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。

谷歌翻译之所以好并不是因为他的算法多么优秀,而是因为他接受了有错误的数据,会记录一些用户的错误表达,以便下次更快的呈现出来,他的优点完全碾压了缺点。

5%的数字数据与95%的非结构化数据。

  1. 因果转为相关:是什么而不是为什么
  2. target分析孕妇购买商品的时间
  3. 美国的飓风与蛋挞。
  4. 1948辽沈战役林彪。
  5. 利用汽车gps 定位来判断路段的堵车情况,。

4.0 医疗与健康

1.0 循证医学:决策应该在研究的基础之上,结合临床经验。

2.0 医疗数字化

5.0 教育

  1. 网站举例:中国大学mooc、可汗学院、网易公开课、哈佛公开课
  2. 人工智能:用计算机来模拟人的行为的理论方法技术。
  3. 机器学习: (1)定义:用机器来模拟人类学习。 (2)分类: 策略:1. 机械学习 2. 式教学系 3. 演绎学习 4. 类比学习 5. 解释学习 6. 归纳学习 形式:1. 监督学习 2. 非监督学习(根据有无答案) 表示形式:
  4. 深度学习:模拟人脑的神经网络来分析学习

6云端

1.云计算 定义:基础互联网提供动态可伸缩的虚拟化资源的计算服务。

分类:分布计算,并行计算,效用计算,网络存储,虚拟化,负载均衡。

服务:iaas、PaaS、SaaS。

2.云计算云大数据的关系:相辅相成、水与泵的关系。

3.虚拟化

计算虚拟化:宿主机/客户机

网络虚拟化:网卡虚拟化

存储虚拟化:块虚拟化/文件虚拟化、按需分配按量计算。

7.0 技术

1.Hadoop:HDFS存储/MapReduce数据处理/HBASE数据库。

2.神经网络:通过模拟大脑的思考方式来处理信息。

3.自然语言处理

4.语义检索

5.链接挖掘

6.a/b测试

8.0 数据科学家

1.定义:统计分析数据并获取数据背后的信息

2.模型:探索发现、数据准备、模型规划、模型建造、沟通结果、项目实施。 3.角色:使能者、专业人员、深度分析人才。 4.技能: 5.素质:沟通创业好奇

Posted December 29, 2018


WIJE picweijiew . github