如果这篇博客帮助到你,可以请我喝一杯咖啡~
CC BY 4.0 (除特别声明或转载文章外)
人类视觉
人的视觉是由眼睛中两部分光接收器(感觉细胞)组成的:锥状体和杆状体。它们主要分布在视网膜的中间部分(「中间凹」),且对颜色高度敏感。
每只眼睛锥状体数目6-7百万,每个锥状体都连接到自己的神经末端,对色彩敏感,称为白昼视觉或亮光视觉。
杆状体7500万到15000万,分布在视网膜表面,几个杆状体连接到一个神经末端,不如锥状体灵敏。给出图像的总体轮廓,没有彩色感觉,在低照明度下对图像较敏感。称为夜视觉或暗视觉。
人眼分辨细节的基本能力
每平方毫米150,000个像素,最高敏感区(中间凹)的接收阵列近似为1.5mm×1.5mm,锥状体数量为337000个,相当于一个接收列阵不大于5mm×5mm的中等分辨率的电耦合元件(CCD: Charge-coupled device)的成像芯片。
具体数据:中心凹为视网膜中直径为1.5mm的圆形凹坑,或看为1.5mm×1.5mm的方形传感器阵列。锥状体密度大约为150,000个/mm2,数量约337000个。晶状体中心和视网膜沿视轴的距离伯焦距为17mm。
成像原理
和光学透镜类似,但适应性强,是可自行调节的透镜。
看远处物体,肌肉会迫使晶状体变得扁平,晶状体的聚焦中心向前移动;物体离眼睛近时,肌肉使晶状体变厚,光心向视网膜成像区域靠近。
光心到视网膜的距离在14mm到17mm之间变化。物体由远至近,焦距由17mm向14mm变化,晶状体的折射能力也由弱变强。当物体远于超过3米时,折射能力最弱,这也是为什么远处物体的细节难以分辨的原因之一。
眼睛对亮度的适应和鉴别
- 视觉系统能够适应的光强度级别很宽,从夜视域值到强闪光约有$10^10$个量级;
- 但人的视觉绝对不可能同时在一个范围内工作,而是通过不断地改变其整个灵敏度来- 完成这一大变动的。与整个适应范围相比,能同时鉴别的光强度级别的总范围很小;
- 背景照明保持恒定时,眼睛一般可辨别总共12到24级不同的强度。但这并不意味着仅用很小的强度值就可以表示一幅图。这是因为当眼睛扫视图像时,平均背景在变化,眼睛也会根据这种变化作调整,最后结果是眼睛能够辨别很宽的全部强度范围。
韦伯比
用于度量人的眼睛特定的适应级别对亮度变化的辨别力,由$\frac{\delta I_c}{I}$决定。
在低的照明级别,亮度辨别较差(杆状体起作用/微光视觉/暗视觉)。在背景照明增强时,亮度辨别得到明显的改善(锥状体起作用/白昼视觉/亮视觉),即对亮的东西敏感。
两个现象说明了感觉亮度不是简单的强度函数
第一个现象是视觉系统倾向于不同强度区域边界周围的「欠调」(Undershoot)和「过调」(Overshoot)
第二个现象称为同时对比现象。
视觉错觉
这是人类视觉系统的一个特性,尚未完全了解。
光和电磁波
牛顿1666年发现了这样一个现象:当一束白光通过一个玻璃棱镜时,出来的光就不再是白光,而是一端是紫色另一端是红色的连续色谱。
光波等同于电磁波,反过来也成立。可见光的范围:电磁波约400~700nm(1nm=$10^{-9}$m)的范围。波谱一端是无线电波,波长比可见光长几十亿倍;另一端是伽马射线,波长比可见光短几百万倍。
电磁波可以用波长、频率或能量来描述。波长($\lambda$)和频率(ν)关系式为:
$\lambda=c/ν$
其中c是光速($2.998\times 10^8m/s$),电磁波谱的能量由下式给出
$E=hν$
h是普克朗常数。能量与频率成正比。
电磁波可以看成是以波长$\lambda$传播的正弦波。
可见光是一种特殊的电磁波谱,只在电磁波谱中占很小的一部分。
眼睛从物体上感受到的颜色和物体发射光的性质有关。一个物体对所有可见光波长的反射是相对平衡的,则这个物体将呈现白色(灰色)。
没有颜色的光称为单色光伯无色光,其唯一属性是它的强度。因感知单色光的强度从黑色到灰色变化,最后到白色,灰度级通常用来表示单色光的强度。
图像数字化
通常有三个基本量用于描绘彩色光源的质量:发光强度(从光源流出的能量)、光通量(观察者从光源感受的能量,例如:远红外光有实际的能量,但光通量为零)和亮度(亮度是描绘光感受的主观描绘,它实际上不能测量,包含无色的强度的概念,并且也是描述彩色感觉的参数之一)。
图像的感知和获取
一般来说,各类图像都是由「照射」源和形成图像的「场景」元素对光能的反射或吸收相结合而产生的。
简单的图像模型
用二维函数的形式表示一幅单色图像。当一幅图像从物理过程产生时,它的值正比于物理源的辐射能量(如电磁波)。故一定有
$0<ƒ(x,y)<\infty$
另外,函数$f(x,y)$有两个分量来表征:
- 入射到观察场景的光源总量和
- 场景中物体反射光的总量。
称为入射分量和反射分量,并分别用$i(x,y)$和$r(x,y)$表示。两个函数合并形成图像函数$f(x,y)$:
$f(x,y)= i(x,y) r(x,y)$,其中$0<i(x,y)<\infty,0<r(x,y)<1$
单色图像上任一点的强度就是图像在那一点的灰度级。反射分量限制在0(全吸射)和1(全反收)之间。
图像的取样和量化
大多数传感器的输出是连续的电压波形(图像),为了产生一幅数字图像,需要把连续的感知数据转换为数字形式。这就包含了两种处理,取样(时空域)和量化(光色强度等)。
取样和量化的基本概念
图像数字化=取样+量化
数字图像表示
二维矩阵是表示数字图像的重要数学形式。一幅M×N的图像可以表示为:
$\left[ \begin{matrix}f(0,0),f(0,1),\ldots f(0,n-1)\ f(1,0),f(1,1),\ldots f(1,n-1)\ \ldots\ f(m-1,0),f(m-1,1),\ldots f(m-1,n-1)\ \end{matrix} \right]$
矩阵中的每个元素称为图像的「像素」。每个像素都有它自己的「位置」和「值」。
取样和量化的正规数学描述
令$Z$和$R$分别表示整数集合、实数集。取样过程可以看作是把$xy$平面分为网格,每一网格中心的坐标是笛卡儿坐标$Z^2$的一对元素,$Z^2$是所有元素对$(z_i, z_j)$的集合,$z_i$和$z_j$是$Z$中的整数。因此,如果$(x,y)$是$Z^2$中的元素,并且$f$是把灰度级值(即实数集$R$中的一个实数)赋予特定坐标,则$f(x,y)$就表示一幅数字图像。这个赋值过程就是前面描述的量化过程。
出于处理、存储和硬件的考虑,灰度级别通常是2的整数幂
$L=2^k$
L是最大的灰度级别。这时,图像中所有像素的灰度是区间$[0,L-1]$的整数。一幅数字图像占用的空间:$M\times N\times k$。
空间和灰度的分辨率
空间分辨率
空间分辨率是图像中可分辨的最小细节。广泛使用的分辨率的意义是在每单位距离可以分辨的最小线对数目。
通常,空间分辨率即图像大小(最大行数$\times$每行最大像素数)。
灰度分辨率
一个像素值单位幅度上包含的灰度级数。灰度级数通常是2的整数幂级数,如:用一个byte存一个像素值,则256级。用一个4bit存一个像素值,则16级。
偏爱曲线
人眼对灰度分辨率的敏感程度和图像内容的复杂程度相关。
频谱混淆现象
香农(Shannon)采样定理:如果对一个函数以大于其最高频率的2倍采样,那么就能从取样完全恢复函数。如果函数被亚取样(undersampled),则混淆的现象将恶化取样的图像。混淆以附加频率分量的形式被引入取样后的函数。这些频率被称为混淆频率。
放大和缩小数字图像
- 近邻插值
- 双线性插值:$v(x’,y’)=ax’+by’+cx’y’+d$
像素间的一些基本关系
相邻像素
位于坐标$(x, y)$的像素p有四个水平和垂直的相邻像素,每个像素距$(x, y)$一个单位距离。坐标分别为: $(x-1, y), (x+1, y), (x, y-1), (x, y+1)$。此像素集合定义为像素p的4邻域,用$N_4(p)$表示。
另外,p有4个对角相邻像素,坐标为:$(x-1, y-1) , (x+1, y-1), (x-1, y+1), (x+1, y+1)$用$N_D(p)$表示。
$N_D(p)$和$N_4(p)$一起称为p的8邻域,用$N_8(p)$表示
邻接性、连通性、区域和边界
邻接性有两个要素:一个是灰度值的邻接性(值域V)、一个是物理位置的邻接性(邻域,如$N_4(p)$等)。例如,二值图象中,像素值都为1(或都为0)的像素才有可能被称为是邻接的。在一般图像中,可定义一个值域V,V是0到255中的一个子集。
一般我们考虑三种邻接性:
- 4邻接:如果点q在$N_4(p)$中,并q和p具有V中的数值,则q和p是4邻接的;
- 8邻接:如果点q在$N_8(p)$中,并q和p具有V中的数值,则q和p是8邻接的;
- m邻接(混合邻接):满足下列条件的任一个,则具有V中数值的p和q是m连接的。
- q在中$N_4(p)$
- q在$N_D(p)$中,且集合$N_4(p)\bigcap N_4(q)$中没有V值的像素。
注意:混合邻接是8邻接的改进,为了消除8邻接的二义性。例如图2.26。
两个集合邻接的概念:如果集合S1中的某些像素和S2中的某些像素邻接,则称这两个集合是邻接的。这里说的邻接指的是4、8或者m邻接。
连通性等概念暂时略过。
距离度量(见书本)
线性和非线性操作
$H(af+bg)=aH(f)+bH(g)$
其中,f、g代表图像,H代表操作。