Анализ результатов.
Параллельная обработка таблиц решения для задач распознавания
Но как можно заранее узнать принесет ли какие-нибудь положительные результаты использование предложенной стратегии для конкретной задачи? С — отмечено, если соответствующая таблица содержит количественные атрибуты; Q — отмечено, если соответствующая таблица содержит качественные атрибуты; Train/test — число объектов в обучающем/экзаменационном множестве; M — отмечено, если некоторые значения… Читать ещё >
Анализ результатов. Параллельная обработка таблиц решения для задач распознавания (реферат, курсовая, диплом, контрольная)
Предложенный алгоритм был реализован на Ассемблере и протестирован на базах данных известного хранилища UC Irvine Repository, специально созданного из реальных баз данных разных областей для тестирования и сравнения алгоритмов обобщения [ML Repository]. Таблица показывает увеличение точности классификации, известных алгоритмов обобщения: ID3 [Quinlan, 1993], C4.5 [Quinlan, 1993], Naпve Bayes [Langley et al., 1992], Instance Based [Wettschereck, 1994] на 35 таблицах этого хранилища (тестирование было проведено для 55 таблиц), предварительно обработанных при помощи предложенного алгоритма, и характеристики таблиц:
train/test — число объектов в обучающем/экзаменационном множестве;
С — отмечено, если соответствующая таблица содержит количественные атрибуты;
Q — отмечено, если соответствующая таблица содержит качественные атрибуты;
M — отмечено, если некоторые значения в таблице отсутствуют.
Ячейки в таблице выделены, если точность классификации увеличилась или осталась неизменной при предварительной обработке таблиц предложенным алгоритмом.
Предложенный алгоритм при наличии ресурсов также позволяет существенно увеличить скорость предварительной обработки по сравнению с последовательной версией [Akchurina et al., 2004, Vagin et al., 2004].
В подавляющем числе случаев точность классификации при использовании предложенного в рамках данной работы алгоритма увеличилась для всех алгоритмов обобщения в независимости от типов атрибутов.
Train. | Test. | C. | Q. | M. | ID3. (%). | VG. > ID3. (%). | C4.5. (%). | VG. > C4.5. (%). | NB. (%). | VG. > NB. (%). | IB. (%). | VG. > IB. (%). | |||
audiology. | v. | 73,68. | 68,42. | 76,32. | 73,68. | 53,95. | 69,74. | 71,05. | 67,11. | ||||||
australian. | v. | v. | 81,30. | 76,96. | 86,96. | 88,70. | 77,83. | 87,83. | 80,87. | 76,52. | |||||
balance-scale. | v. | 78,47. | 72,73. | 77,03. | 69,86. | 89,47. | 88,04. | 66,03. | 66,03. | ||||||
banding. | v. | v. | v. | 82,00. | 64,00. | 77,00. | 67,00. | 86,00. | 81,00. | 66,00. | 61,00. | ||||
breast. | v. | v. | 94,42. | 93,99. | 93,99. | 91,42. | 96,57. | 94,85. | 95,28. | 92,27. | |||||
breast-cancer. | v. | v. | 71,58. | 66,32. | 74,74. | 73,68. | 74,74. | 76,84. | 57,89. | 61,05. | |||||
cars1. | v. | 81,68. | 73,28. | 74,81. | 72,52. | 63,36. | 62,60. | 71,76. | 63,36. | ||||||
chess. | v. | 98,69. | 96,62. | 99,53. | 97,37. | 87,15. | 86,77. | 90,43. | 90,53. | ||||||
cleve. | v. | v. | v. | 64,36. | 77,23. | 76,24. | 80,20. | 82,18. | 84,16. | 71,29. | 71,29. | ||||
corral. | v. | 87,50. | 100,0. | 81,25. | 100,0. | 90,63. | 87,50. | 86,72. | 100,0. | ||||||
crx. | v. | v. | v. | 72,50. | 76,50. | 83,00. | 81,50. | 76,50. | 81,00. | 74,00. | 73,00. | ||||
DNA-nominal. | v. | 90,30. | 91,32. | 92,41. | 92,58. | 94,60. | 94,10. | 74,20. | 87,27. | ||||||
echocardiogram. | v. | v. | v. | 63,64. | 59,09. | 63,64. | 65,91. | 68,18. | 75,00. | 54,55. | 61,36. | ||||
flare. | v. | v. | 81,46. | 82,30. | 85,11. | 85,11. | 81,18. | 72,19. | 75,28. | 83,99. | |||||
german. | v. | v. | 66,77. | 73,95. | 73,05. | 73,95. | 77,55. | 73,95. | 67,96. | 65,87. | |||||
german-org. | v. | v. | 71,56. | 71,56. | 74,55. | 72,46. | 74,85. | 72,46. | 69,16. | 69,16. | |||||
glass. | v. | 62,50. | 65,28. | 62,50. | 61,11. | 50,00. | 59,72. | 65,28. | 61,11. | ||||||
glass2. | v. | 69,09. | 85,46. | 69,09. | 78,18. | 65,46. | 78,18. | 50,91. | 78,18. | ||||||
hayes-roth. | v. | 82,14. | 92,86. | 82,14. | 92,86. | 64,29. | 89,29. | 75,00. | 85,71. | ||||||
heart. | v. | 76,67. | 80,00. | 83,33. | 80,00. | 85,56. | 85,56. | 76,67. | 74,44. | ||||||
hepatitis. | v. | v. | v. | 78,85. | 80,77. | 71,15. | 75,00. | 76,92. | 78,85. | 84,62. | 82,69. | ||||
ionosphere. | v. | 91,45. | 91,45. | 88,03. | 88,89. | 84,62. | 91,45. | 75,21. | 88,03. | ||||||
iris. | v. | 94,00. | 94,00. | 92,00. | 92,00. | 94,00. | 96,00. | 78,00. | 96,00. | ||||||
labor-neg. | v. | v. | v. | 94,12. | 82,35. | 76,47. | 82,35. | 88,24. | 88,24. | 88,24. | 94,12. | ||||
led24. | v. | 55,33. | 33,87. | 65,57. | 39,63. | 64,10. | 42,37. | 36,93. | 28,20. | ||||||
led7. | v. | 66,53. | 61,20. | 67,40. | 43,37. | 68,93. | 66,33. | 60,90. | 46,97. | ||||||
lenses. | v. | 62,50. | 62,50. | 62,50. | 62,50. | 37,50. | 62,50. | 75,00. | 62,50. | ||||||
lenses-full. | v. | 100,0. | 100,0. | 91,67. | 91,67. | 95,83. | 95,83. | 100,0. | 100,0. | ||||||
liver-disorder. | v. | 53,04. | 61,74. | 60,87. | 63,48. | 55,65. | 59,13. | 62,61. | 62,61. | ||||||
lung-cancer. | v. | 50,00. | 50,00. | 50,00. | 50,00. | 50,00. | 50,00. | 75,00. | 75,00. | ||||||
lymphography. | v. | v. | 78,00. | 72,00. | 74,00. | 76,00. | 82,00. | 84,00. | 66,00. | 70,00. | |||||
mofn-3−7-10. | v. | 91,02. | 100,0. | 85,55. | 91,41. | 86,43. | 85,94. | 89,06. | 100,0. | ||||||
monk1. | v. | 81,02. | 100,0. | 75,69. | 100,0. | 71,30. | 75,00. | 78,70. | 100,0. | ||||||
monk2. | v. | 69,91. | 95,60. | 64,58. | 88,43. | 61,57. | 56,02. | 73,84. | 98,15. | ||||||
monk3. | v. | 91,67. | 95,37. | 97,22. | 97,22. | 97,22. | 97,22. | 82,87. | 89,35. | ||||||
Но как можно заранее узнать принесет ли какие-нибудь положительные результаты использование предложенной стратегии для конкретной задачи?
Также как нет алгоритма обобщения, который работал бы определенно лучше других алгоритмов обобщения для всех задач, так и здесь нельзя заранее ответить.
Лучшим решением является реализация разнообразных алгоритмов, основанных на разных подходах и разбиение модельного множества на три, а не, как раньше предлагалось, на два множества: обучающее для обучения всех алгоритмов с/без предварительной обработкой, подтверждающее множество для выбора наилучшего варианта и экзаменационное множество для оценки точности при дальнейшей работе.