大数据
1. 大数据的基础知识
(1)概念。
技术角度:指传统数据处理应用软件不足以处理的大或复杂的数据集。
资源角度:指需要更新处理模式才能具有更强的决策力、洞察发现力和流程优化能力等价值的海量、高增长率和多样化的信息资产。
(2)特点。
数据体量大:存储的数据能达TB、PB、EB、ZB级。
数据类型多:存储的数据具有多种结构化数据、半结构化数据和无结构化数据等形式。
数据产生速度快:大数据通过多维度的自动采集和记录,积累速度快,并具有一定的流动性。
数据价值密度低:大数据蕴含着大价值,但需要通过专业的技术手段加以处理,才能发现价值。
2. 大数据采集与分析的相关技术
大数据处理流程一般包括四大步骤:数据采集与预处理、数据存储、数据挖掘、数据呈现
数据采集:从传感器或其他采集设备中获取信息,包括实时数据和非实时数据,如道路控制、网页浏览、在线支付、外卖订购等。
数据预处理:数据清洗,即消除数据采集过程中由于人为疏忽、设备异常或抽样方法不合理等因素造成的数据误差、数据遗失、数据重复等不同类型的数据问题,对问题数据进行整合、清理和转换,以提高数据质量和完整性。
数据存储:大数据存储需要分布式文件系统和分布式数据库的支持,NOSQL(非关系型数据库)是大数据存储常使用的数据库。
数据挖掘:可发掘先前未知的潜在有用的信息模型或规则,进而产生有价值的信息和知识,帮助决策者作出适当的决策,数据挖掘所处理的问题类型分为分类、预测、聚类、关联规则四种。
数据呈现:大数据的可视化技术,能够帮助人们有效理解数据,以真正利用好大数据,它分为结构可视化、功能可视化、关联关系可视化和发展趋势可视化。
数字媒体技术应用
1.数字媒体技术
数字媒体是指以二进制数的形式记录、处理、传播、获取过程的信息载体,一般分为感觉媒体、表示媒体、表现媒体、存储媒体和传输媒体。
数字媒体技术主要由以下特征:数字化、交互性、集成性、艺术性
2.了解数字媒体技术原理
信息采集和编码
连续的模拟信号转换为离散的数字信号,主要包括采样、量化和编码三个过程。
数据压缩技术
数据压缩根据质量有无损失可分为无损压缩和有损压缩。无损压缩广泛应用于语音、图像和视频数据的压缩。
3.获取图像文件
位图和矢量图
位图由像素组成。
矢量图由可重构图像的指令构成。
4.分辨率
分辨率是指每英寸图像含有的点或像素的数量,用像素/英寸(dpi)表示
5.色彩
色彩的三个基本特征是色相、饱和度、明度。
6.图像文件格式
BMP:Windows操作系统中的标准图像文件格式,图像信息较丰富,几乎不进行压缩,缺点是占用磁盘空间大,适合保存原始图像素材。
JPG/JPEG:采用JPEG有损压缩技术,支持24位颜色,多平台广泛支持。适合连续色调的图像存储显示。
GIF:采用无损压缩,容量小,支持动态、单色透明效果和渐显方式,缺点是颜色数少,适合网络传输。
PNG:支持高级别无损压缩、存储形式丰富,兼有GIF和JPG的色彩模式,显示速度很快,支持透明图像的制作,在网页中可以把图像和网页背景融合在一起,一般应用于JAVA程序、网页页面。
TIFF:是扫描仪较为通用的图像文件格式,不依赖于操作环境,具有可移植性,适用高质量的图像印刷。
RAW:图像感应器将捕捉到的光源信号转换为数字信号的原始数据,是未经处理和压缩的格式,记录数码相机传感器的原始信息。
CDR:CoreDRAW应用程序生成的格式文件,用于图形文字、标志的设计。
7.音频文件格式
WAV:微软公司开发的一种声音文件格式,也叫波形声音文件,但对存储空间需求太大,不便于交流和传播,是最早的数字音频格式,支持多种音频位数、采样频率和声道。
MIDI:数字音乐/电子合成乐器的统一国际标准,可以模仿多种乐器的声音。
MP3:能够以高音质、低采样率对数字音频文件进行压缩,一种音频压缩的国际技术标准。
WMA:以减少数据流量,但保持音质的方法来达到获取更高压缩率的目的,其压缩率一般可以达到1:18,是随身数码播放器最常用的音频格式。
CDA:存储采用了音轨的形式,又叫“红皮书”格式,是一种近似无损的格式,记录波形流。
M4A:MPEG-4音频标准文件的扩展名,在MPEG-4标准中提到,普通的MPEG-4文件扩展名是.mp4,几乎所有支持MPEG-4音频得软件都支持.m4a。
8.视频文件格式
AVI:微软公司采用的标准视频文件格式,将视频和音频混合在一起,主要使用有损压缩,压缩率比较高,在数字媒体中应用较多,一般视频采集直接存储的文件为AVI格式。
MPG/MPEG:采用MPEG有损压缩标准,压缩率很高。目前常用的MP4,全称MPEG-4,就是其中一种,视频主要格式
RM:一种流式视频文件格式,可根据网络传输速率的不同而采用不同的压缩率,用于在低传输速率的网络上实时传输视频。
MOV:跨平台、有损压缩、存储空间小,可用于Mac OS和Windows系统
WMV:微软推出的一种采用独立编码方式的文件压缩格式。特点包括本地或网络回放、可扩充的媒体类型、环境独立等,在PC上不用安装播放器就能读取,可以直接在网上实时观看视频节目。
FLV:Adobe公司主推的网络流媒体视频格式,用于流媒体播放。
MP4:用于音频、视频信息的压缩编码标准,用于流媒体、光盘、语音发送(视频电话),以及电视广播。
信息安全基础
1. 信息安全的概念
信息安全是指保护信息系统的硬件、软件及相关数据,使之不因偶然或者恶意侵犯而遭受破坏、更改及泄露,保证信息系统能够连续、可靠、正常地运行,即保证信息安全主要包括运行系统安全和系统信息安全。
2.信息安全的基本属性
(1)完整性,是指信息在存储或传输过程中保持不被篡改、不被破坏、不延迟和不丢失的特性,是最基本的安全特征。
(2)保密性,是指严密控制各个可能泄密的环节,是信息在产生、传输、处理和存储的各个环节不泄露给非授权的实体或个人。
(3)可用性,是指网络信息可被授权实体或个人正确访问,并按要求能正常使用或在非正常情况下能恢复使用的特征。
(4)可控性,是指能够对网络系统中传播的信息及其内容进行有效控制和管理。
(5)不可否认性,是指通信双方在信息交互过程中,确信参与者本身,以及参与者所提供的信息的真实同一性。
3.常见的恶意攻击类型
(1)口令攻击
账号和口令是信息系统进行身份认证的一种手段,借助它可以确定合法授权的用户能够访问系统中的哪些资源。如果口令成功,攻击者就能进入目标系统,随心所欲地窃取、破坏和篡改目标系统的信息。
(2)恶意代码攻击
恶意代码是指在未经授权的情况下,在信息系统中安装、执行以达到不正当目的代码。最常见的计算机恶意代码有木马、僵尸程序、蠕虫和病毒等。
木马是以盗取用户个人信息,甚至是远程控制用户计算机为主要目的的恶意代码。按照功能,木马可进一步分为盗号木马、网银木马、窃密木马、远程控制木马、流量劫持木马、下载者木马和其他木马。
僵尸程序是用于构建大规模攻击平台的恶意代码。按照使用的通信协议,僵尸程序可进一步分为IRC僵尸程序、、HTTP僵尸程序、P2P僵尸程序和其他僵尸程序。
蠕虫是指能自我复制和广泛传播,以占用系统和网络资源为主要目的的恶意代码。按照传播途径,蠕虫可进一步分为邮件蠕虫、即时消息蠕虫、U盘蠕虫、漏洞利用蠕虫和其他蠕虫。
病毒是通过感染计算机文件进行传播,以破坏或篡改用户数据,影响信息系统正常运行为主要目的的恶意代码。
(3)拒绝服务攻击
拒绝服务(DOS)攻击是向某一目标信息系统发送密集的攻击包,或执行特定攻击操作,以期致使目标系统停止提供服务。
人工智能初步
1.人工智能定义
人工智能(AI),是一门研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的新的技术科学。
2.人工智能涉及学科
它是计算机科学的一个分支,融合了计算机科学、统计学、脑神经学和社会科学等多个学科前沿知识。
3.人工智能发展经历三个阶段
(1)第一阶段(20世纪50年代末至20世纪80年代初):符号推理时代
(2)第二阶段(20世纪80年代初至20世纪末):专家系统时代