- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
必修基本概念
必修一
一、数据与信息
数据是对客观事物的符号表示,在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号总称,其表现形式可以是文字(数字)、图形、图像、音频、视频等。
信息的一般定义是数据所包含的意义。在信息论中,香农给出的定义是用来消除随机不确定的东西。
信息的特征:
(1)载体依附性:即信息必须依附于载体存在,不存没有载体的信息。
(2)时效性:信息(的内容或价值)会随着时间的推移发生变化。
(3)共享性:信息可以共享,且在传播的过程中不产生损耗。
(4)可加工处理性、真伪性:信息是可以进行加工的,加工后的信息具有真伪性。
(5)价值性:信息的价值包括显性价值和隐形价值两个方面,同时价值的高低具有相对性。
二、数字化
数字化的定义:将模拟信号转换为数字信号的过程称为数字化。其中用到的主要设备是模数转换器(ADC)。
模拟量:模拟信号以连续变化的物理量存在,自然界中大多数信号都以模拟量形式存在。
数字量:数字信号在取值上是离散的、不连续的信号。
将模拟信号转换成数字信号一般需要经过采样、量化与编码三个步骤。
(1)采样的参数是采样频率,单位是赫兹(Hz)。根据采样定理:当采样频率大于或等于被采样信号最高频率的两倍时,得到的离散信号可以完整的保留原始信号的所有信息。
(2)量化指将信号的连续取值近似为有限个离散值的过程。量化主要参数是量化位数,单位是比特(bit);量化位数越多,划分的越精细,量化结果与实际数据也越接近。
三、数制
四、编码
UltraEdit软件字符内码
ASCII码
通常用来对拉丁字母进行编码(半角符号)。该编码使用1个字节中的低7位编码,由128个代码组成(每个字节的开头0~7,即00~7F)。1个ASCII码字符储存时占用1个字节的空间。
GB2312
通常用来对汉字进行编码(全角符号)。2个GB2312编码的字符存储时占用2个字节的空间,每个字节的开头均为8~F。
注:(1)”10”的内码是31 30。(2)小写字母的编码比对应的大写字母大32D。如“A”的ASCII码为65,“a”的ASCII码为97(均为十进制),十六进制相差20H。(3)i为69H,j为6AH。(4)做题中关注点在字符的内码,内码的每个字节开头是0~7,还是8~F。
五、图形编码
条形码:常见的条形码是由反差率相差很大的黑条和白条排成的平行图案。我国普遍采用的条形码是EAN13条形码
二维码:用某种特定的几何图形按一定规律在平面上分布黑白相间的图形记录数据符号信息。相对条形码,二维码存储信息量更大。
对条形码和二维码的识别过程中虽然用到了摄像头,但信息是直接从图形编码中获取的,所以不涉及数字化的过程。
六、多媒体编码
1.图像存储容量:总像素×颜色位深度(位)(单位:bit)
总像素=宽像素×高像素(单位:个)
颜色位深度:用来表示每个像素颜色的二进制数的长度。如256种颜色的图像,它的位深度为8位(28=256)。RGB/8是24位。
数据存储容量单位
(1) b:bit(比特),存放一位二进制数,是最小的储存容量单位。
(2) B:Byte(字节),8bit为1Byte,为一个基本单位
(3) 常用储存单位间的关系:
1 Byte(B)= 8 bit ; 1 KB = 1024B ; 1 MB = 1024 KB ; 1 GB = 1024 MB
2.音频的容量:采样频率*量化位数*声道数*时间/8(Byte)
3.视频容量:帧图像大小*总帧数
七、数据保存与数据安全
1. 计算机数据的管理已经经历了人工管理、文件管理、数据库管理三个阶段。
2. 结构化、半结构化、非结构化数据
(1)结构化数据:也成为行数据,可以由二维表来进行逻辑表达和实现的数据
(2)非结构化数据:数据结构不规范,不完整,无法用二维表来进行逻辑呈现。
(3)半结构化数据:介于结构化和非结构化之间,具有一定的结构性
3. 通过保护介质实现数据安全的方法:磁盘阵列、数据备份、异地容灾
4. 通过加密数据实现数据安全的方法:凯撒加密、换位密码、简单异或
5. 通过数据校验保证数据完整的方法:MD5、CRC(奇偶校验)、SHA-1
八、数据处理
常见的数据问题及其处理方法:
(1)数据缺失:数据集中普遍存在的问题,一般可能是数据丢失或数据本身不完整
处理方法:忽略或采用平均值、中间值或概率统计值填充。
(2)数据重复:在多数据源合并时经常出现,导致资源冗余和浪费。
处理方法:进一步审核的基础上进行合并或删除。
(3)异常数据:数据集中的某些数据不符合一般规律,例:健康系统显示体温到达50摄氏度。
处理方法:这些有可能是要去掉的噪声,也有可能是含有重要信息的数据对象。
(4)逻辑错误:属性与实际不符,违背业务规则或逻辑,例:某人的生日为
文档评论(0)