碎纸片的拼接复原问题.doc
- 文档编号:8980409
- 上传时间:2023-05-16
- 格式:DOC
- 页数:22
- 大小:1.07MB
碎纸片的拼接复原问题.doc
《碎纸片的拼接复原问题.doc》由会员分享,可在线阅读,更多相关《碎纸片的拼接复原问题.doc(22页珍藏版)》请在冰点文库上搜索。
2013高教社杯全国大学生数学建模竞赛
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
碎纸片的拼接复原问题
摘要
破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。
本文针对已给图像先进行了图片灰度二值化处理得到碎纸片的像素矩阵,提取碎纸片的边缘像素矩阵,对边缘矩阵进行相似度分析,相似度的度量采用向量距离平方和最小化,在相似度度量中设置阈值、对相近相似度的候选纸片进行人工干预、对数据量较大的附件,采用文本特征,如页边距、行距进行筛选,降低计算量,提高计算精度。
使用Matlab软件编程实现了上述算法,在对附件的拼接中通过少量的人工干预,可实现纸片的完整拼接,效果较好。
关键词:
相似度;文字特征;碎纸片拼接;Matlab;
1问题重述
1.1问题的描述
设计一个碎纸片的自动拼接模型,以提高碎纸片的拼接复原效率。
1.2问题的要求
(1)对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。
如果复原过程需要人工干预,请写出干预方式及干预的时间节点。
复原结果以图片形式及表格形式表达。
(2)对于碎纸机既纵切又横切的情形,请设计碎纸片拼接复原模型和算法,并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。
如果复原过程需要人工干预,请写出干预方式及干预的时间节点。
复原结果表达要求同上。
(3)从现实情形出发,还可能有双面打印文件的碎纸片拼接复原问题需要解决。
附件5给出的是一页英文印刷文字双面打印文件的碎片数据。
请尝试设计相应的碎纸片拼接复原模型与算法,并就附件5的碎片数据给出拼接复原结果,结果表达要求同上。
1.3问题的分析
对破碎文件这类边缘相似的碎纸片的拼接,理想的计算机拼接过程应与人工拼接过程类似,即拼接时不但要考虑待拼接碎纸片边缘是否匹配,还要判断碎纸片内的字迹断线或碎片内的文字内容是否匹配,然而由于理论和技术的限制,让计算机具备类似人那种识别破碎边缘地字迹断线、以及理解碎片内文字图像含义的智能几乎不太可能。
但是分析了基于几何特征的碎纸片自动拼接方法的缺点,研究了碎纸片内文字行特征以及行特征获取方法。
利用这些信息进行拼接,其拼接效率无疑比单纯利用边界几何特征方法要好些。
另一方面由于计算机数字分析图像能力的缺陷,让计算机对碎片进行完全意义上的自动化拼接也几乎不大可能,这就需要我们在拼接过程加入人工干扰过程,对一些碎片进一步分析结果舍弃或拼接待选。
2模型假设和符号系统
2.1模型假设
(1)假设问题中所给的碎片图像边缘没有破损;
(2)假设附件中每张碎片的形状和大小都一致;
(3)假设附件中的每张碎片中的字体都清楚且没有重叠部分;
2.2符号系统
:
表示附件1中图像进行二值化处理得到的第个数据矩阵;
:
表示附件2中图像进行二值化处理得到的第个数据矩阵;
:
表示附件3中图像进行二值化处理得到的第个数据矩阵;
:
表示附件3中第次运行得到的数据矩阵;
:
表示附件3中第次运行第次人工干预得到的数据矩阵;
E:
表示附件5中图片009.bmp的运行结果;
K:
表示附件1复原后的碎纸片排列序号;
Q:
表示附件2复原后的碎纸片排列序号。
3模型的建立及求解
3.1模型一的建立
3.1.1模型一的概要
将附件1~2中碎纸片进行图片灰度二值化处理得到碎纸片的像素矩阵,提取碎纸片的边缘像素矩阵,对各矩阵数据进行人工遍历搜索,提取出文件左右两边的碎纸片。
对边缘矩阵进行相似度分析,相似度的度量采用向量距离平方和最小化。
利用Matlab编程对各附件的碎纸片图像进行自动拼接。
3.1.2模型一的分析
(1)对于附件1
步骤1:
将附件1中碎纸片图像利用Matlab软件进行二值化处理(源程序代码见附录1代码1),得到数据矩阵;
步骤2:
对数据矩阵的数据进行人工遍历搜索可看出矩阵的前几列数据全为255,矩阵的后几列数据全为255(在像素矩阵中255代表白色,0代表黑色),所以附件1中i9(008.bmp)为复原后的第一张图片,i7(006.bmp)为复原后的最后一张图片;
步骤3:
将i9(008.bmp)和i7(006.bmp)提取出来,用第一张图片右边缘像素值与剩余碎纸片的左边缘像素值依次进行差的平方,求相似度,得到最优解。
编写程序(源程序代码见附录1代码2),利用Matlab软件实行碎纸片的自动拼接得到复原后碎纸片排列序号K。
(2)对于附件2
步骤1:
将附件2中碎纸片图像利用Matlab软件进行二值化处理(源程序代码见附录代码1),得到数据矩阵;
步骤2:
对数据矩阵的数据进行人工遍历搜索可看出矩阵的前几列数据全为255,矩阵的后几列数据全为255(在像素矩阵中255代表白色,0代表黑色),所以附件1中Name4(003.bmp)为复原后的第一张图片,Name5(004.bmp)为复原后的最后一张图片;
步骤3:
将Name4(003.bmp)和Name5(004.bmp)提取出来,在附件一的基础上根据碎片的文字特征即页边距进行分析,编写程序(源程序代码见附录1代码3),利用Matlab软件实行碎纸片的自动拼接得到复原后碎纸片排列序号Q。
3.1.3模型一的求解
附件1的求解
(1)运行自动拼接源程序代码,得到
K=[1311144931525681217107161]
(2)第一张图为I9,最后一张图为I7,在数组K中1~6则为图i1~i6,7为图I8,8~16则为图I10~I18,在Matlab中运行
tu=[i9i15i13i16i4i11i3i17i2i5i6i10i14i19i12i8i18i1i7];
imshow(tu)
即可得到拼接复原图见附录图1,根据运行结果得到复员后碎纸片的排列序号见表1。
表1附件1复原后的碎片序号
008
014
012
015
003
010
002
016
001
004
005
009
013
018
011
007
017
000
006
附件2的求解
(1)运行自动拼接源程序代码,得到
Q=[5361417101428129711131615]
(2)第一张图为Name4,最后一张图为B5,在数组Q中1~3则为图B1~B3,4~16则为图B6~B18,在Matlab中运行
tu=[Name4Name7Name3Name8Name16Name19Name12Name1Name6Name2Name10Name14Name11Name9Name13Name15Name18Name17Name5];
imshow(tu)
即可得到拼接复原图见附录2图2,根据运行结果得到复员后碎纸片的排列序号见表2。
表2附件2复原后的碎片序号
003
006
002
007
015
018
011
000
005
001
009
013
010
008
012
014
017
016
004
3.2模型二的建立
3.2.1模型二的概要
对于附件3~4中图片需要进行横纵切割,它的碎片复原拼接需要先把一部分图片利用Matlab编程拼接成像附件1中那种类似的图片,然后利用文字特征中的左边距再在模型一的基础上设置相似度度量阈值,对相近相似度的候选纸片进行人工干预,从而进行碎纸片的拼接复原。
3.2.2模型二的分析
附件3的分析
步骤1:
同模型一一样,对所有图片进行二值化处理得到得到数据矩阵~;
步骤2:
对数据矩阵~进行人工遍历搜索,由文字边缘像素矩阵两图片的相似度和页边距的特征,可得到复原后的第一列的小图片;
步骤3:
对得到的第一列的所有图片编写程序在Matlab软件中拼接成12个类似附件1的长条图片;
步骤4:
对步骤3得到的图片利用模型一的模式进行碎纸片的拼接复原。
附件4的求解过程同附件3
3.2.3模型二的求解
附件3的求解
自动拼接源程序代码见附录代码4
(1)第一次运行
将代码4中的n取15运行的结果为:
=[126130136144169129416083200]
第一次人工干预点:
136
运行结果为:
=[1294160832001361374161]
第二次人工干预点:
204
运行结果为:
=[403252108116]
第三次人工干预点:
177,可得到附录2图3。
(2)第二次运行
将代码4中的n取8运行的结果为:
=[126130136139144169]
第一次人工干预点:
139,可得到附录2图4。
(3)第三次运行
将代码4中的n取62运行的结果为:
=[1261301361441692079]
第一次人工干预点:
68
可得运行结果:
=[126136144147169207968701001639713280]
第二次人工干预:
64,可得附录2图5。
(4)第四次运行
将代码4中的n取126运行的结果为:
=[12613013614416914]
人工干预:
183,可得附录2图6。
(5)第五次运行
将代码4中的n取50运行的结果为:
=[1261301361441695566]
第一次人工干预点:
144
运行结果:
=[126130136144169556614418735819317911919196]
第二次人工干预点:
12,可得附录2图7。
(6)第六次运行
将代码4中的n取50运行的结果为:
=[126130136144169556695358512231302992189142]
人工干预点56,可得附录2图8。
(7)对于剩余小图片因为部分相似度很高,需多次进行人工干预。
进行人工干预的得到附录2图9~图13。
把附录2图3~图13运用模型一的模式进行调试得到附件3碎纸片的拼接复原图(见附录2图14),根据运行结果得到复原后碎纸片的排列序号见表3。
表3附件三复原后的碎片序号
049
054
065
143
186
002
057
192
178
118
190
095
011
022
129
028
091
188
141
061
019
078
067
069
099
162
096
131
079
063
116
163
072
006
177
020
052
036
168
100
076
062
142
030
041
023
147
191
050
179
120
086
195
026
001
087
018
038
148
046
161
024
035
081
189
122
103
130
193
088
167
025
008
009
105
074
071
156
083
132
200
017
080
033
202
198
015
133
170
205
085
152
165
027
060
014
128
003
159
082
199
135
012
073
160
203
169
134
039
031
051
107
115
176
094
034
084
183
090
047
121
042
124
144
077
112
149
097
136
164
127
058
043
125
013
182
109
197
016
184
110
187
066
106
150
021
173
157
181
204
139
145
029
064
111
201
005
092
180
048
037
075
055
044
206
010
104
098
172
171
059
007
208
138
158
126
068
175
045
174
000
137
053
056
093
153
070
166
032
196
089
146
102
154
114
040
151
207
155
140
185
108
117
004
101
113
194
119
123
对于附件4的求解过程在附件3的基础上,根据文字特征中的行边距,即可得到拼接复原总图见附录2图15,复原后碎纸片的排列序号见表4。
表4附件4复原后的碎片序号
191
075
011
154
190
184
002
104
180
064
106
004
149
032
204
065
039
067
147
201
148
170
196
198
094
113
164
078
103
091
080
101
026
100
006
017
028
146
086
051
107
029
040
158
186
098
024
117
150
005
059
058
092
030
037
046
127
019
194
093
141
088
121
126
105
155
114
176
182
151
022
057
202
071
165
082
159
139
001
129
063
138
153
053
038
123
120
175
085
050
160
187
097
203
031
020
041
108
116
136
073
036
207
135
015
076
043
199
045
173
079
161
179
143
208
021
007
049
061
119
033
142
168
062
169
054
192
133
118
189
162
197
112
070
084
060
014
068
174
137
195
008
047
172
156
096
023
099
122
090
185
109
132
181
095
069
167
163
166
188
111
144
206
003
130
034
013
110
025
027
178
171
042
066
205
010
157
074
145
083
134
055
018
056
035
016
009
183
152
044
081
077
128
200
131
052
125
140
193
087
089
048
072
012
177
124
000
102
115
3.3模型三的建立
3.3.1模型三的概要
附件5中碎纸片的拼接复原要求双面拼接,且碎纸片的图片是横纵切割的。
所以模型三的模式是以模型二为基础,算法比其更为复杂。
对碎纸片拼接复原同样需要对418张图片进行二值化处理,获取文字边界像素矩阵,利用像素矩阵选取行距相同的碎纸片,然后再在模型二的基础上进行碎纸片的拼接复原。
3.3.2模型三的求解
(1)以下为选取附件5中009.bmp为第一张,运行程序代码(见附录1代码5)。
运行结果为:
E=[1224345263728498119130146161170174176182195200207219233243244249258262272292303305307311329339343366371385415]
运行图如图1所示
图1附件5部分复原图
(2)其它图片的运行过程同模型二,通过运行的结果进行分析,可得到附件5碎纸片的拼接复原图的正面(见附录图16)和反面(见附录图17)。
(3)根据运行结果得到复原后碎纸片的排列序号正面见表5(a)和反面见表5(b)。
表5(a)附件5复原后正面的碎片序号
078a
111a
125b
140b
155b
150b
183a
174a
110b
066b
108b
018a
029b
189a
081a
164a
020b
047b
136a
089b
010a
036b
076a
178b
044b
025a
192b
124a
022b
120a
144b
079b
014b
059b
060a
147b
152b
005b
186a
153b
084a
042a
030b
038b
121b
098b
094a
061a
137a
045b
138b
056a
131a
187a
086a
200a
143a
199a
011a
161b
169a
194a
173a
206a
156b
034b
181a
198a
087b
132a
093b
092a
175b
197b
039a
083b
088a
107b
149a
180b
037a
191b
065a
115a
166a
001a
151a
170a
041b
070a
139a
002b
162a
203a
080b
114b
184a
179a
116a
107b
058b
158b
197b
154a
028a
012b
017a
102a
064b
208b
142b
057a
024b
013b
146b
171a
031b
201b
050a
190a
092a
019a
016a
177a
053a
202b
021a
130a
163b
193a
073a
159b
035b
165a
195b
128b
157b
168b
046b
067b
063a
075a
167b
117a
008a
068a
188b
127b
040b
182a
122b
172b
003a
007a
085a
148a
077b
004b
069b
032b
074a
126a
167b
185a
000a
080a
027b
135a
141b
204a
105b
023a
133b
048b
051a
095b
160b
119b
033a
071a
052b
062b
129b
118a
101b
015a
205b
082a
145b
009a
099b
043b
096a
109b
123b
006b
104b
134b
113b
026a
049b
091b
106a
100a
055a
103b
112b
196a
054a
表5(b)附件5复原后反面的碎片序号
078b
111b
125a
140a
155a
150a
183b
174b
110a
066a
108a
018b
029a
189b
081b
164b
020a
047a
136b
089a
010b
036a
076b
178a
044a
025b
192a
124b
022a
120b
144a
079a
014a
059a
060b
147a
152a
005a
186b
153a
084b
042b
030a
038a
121a
098a
094b
061b
137b
045a
138a
056b
131b
187b
086b
200b
143b
199b
011b
161a
169b
194b
173b
206b
156a
034a
181b
198b
087a
132b
093a
072b
175a
097a
039b
083a
088b
107a
149b
180a
037b
191a
065b
115b
166b
001b
151b
170b
041a
070b
139b
002a
162b
203b
090a
114a
184b
179b
116b
207a
058a
158a
197a
154b
028b
012a
017b
102b
064b
208a
142a
057a
024a
013a
146a
171b
031a
201a
050a
190b
092b
019b
016b
177b
053b
202a
021b
130a
163a
193b
073b
159a
035a
165b
195a
128a
157a
168a
046a
067a
063b
075b
167a
117b
008b
068b
188a
127a
040a
182b
122a
172a
003b
007b
085b
148b
077a
004a
069a
032a
074b
126b
176a
185a
000b
080b
027a
135b
141a
206b
105a
023b
133a
048a
051b
095a
160b
119a
033b
071b
052a
062a
129b
118b
101a
015b
205a
082b
145a
009b
099a
043a
096b
109a
123a
006a
104a
134a
113a
026b
049b
091a
106b
100b
055b
103a
112a
196b
054b
4模型的推广和评价
这种碎纸片的拼接复原在司法物证复原、历史文献修复以及军事情报获取时都不可避免地会遇到的问题,所以开发碎纸片的自动拼接技术可以大大提高拼接复原效率。
我们从问题的分析到模型的建立求解再到模型的推广,逐步靠近问题的本质,在这些过程中克服了许多困难。
模
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 纸片 拼接 复原 问题
![提示](https://static.bingdoc.com/images/bang_tan.gif)