вівторок, 9 квітня 2013 р.

Математичні моделі пошукової системи


Математична модель – це спрощений опис реальності за допомогою математичних понять, в результаті якого отримується формула, яка дозволяє вважати документи знайденими та ранжувати їх.

Основні типи математичних моделей

Булева математична модель

Булева (boolean, булевая, двійкова) математична модель – це модель пошуку, що спирається на операції перетину, об'єднання і вирахування множин.

Іншими словами можемо сказати так, знайшли відповідне слово – документ можна вважати знайденим, інакше – не знайденим.

Таким чином дана математична модель не підходить для пошукових систем, коли з’являється робота з великими числами (з великою кількістю документів).

Векторна математична модель

Векторна модель (англ. vector space model) – це представлення колекції документів векторами з одного спільного для всієї колекції векторного простору.
Векторна модель є основою для вирішення багатьох завдань інформаційного пошуку, таких як: пошук документа за запитом, класифікація документів, кластеризація документів.

Документ у векторній моделі розглядається як невпорядкований набір термів. Термами в інформаційному пошуку називають слова, з яких складається текст. 



Різними засобами можна визначити вагу терма в документі – "важливість" слова для ідентифікації даного тексту. Наприклад, можна просто підрахувати кількість вживань терма в документі, так звану частоту терма, – чим частіше слово зустрічається в документі, тим більша у нього буде вага. Якщо терм не зустрічається в документі, то його вага в цьому документі дорівнює нулю.
Всі терми, що зустрічаються в документах певної колекції, можна впорядкувати. Після цього для деякого документу можна виписати по порядку вагу всіх термів, включаючи ті, яких немає в цьому документі, вийде вектор, який і буде представленням даного документа у векторному просторі. Розмірність цього вектора, як і розмірність простору, дорівнює кількості різних термів у всій колекції, і є однаковою для всіх документів.

Більш формально можна записати
dj = (w1j, w2j, …, wnj)
[/size] 

де dj – векторне представлення j-го документа, wij – вага i-го терма в j-м документі, n – загальна кількість різних термів у всіх документах колекції. 

Маючи в своєму розпорядженні такі дані для всіх документів, можна, наприклад, знаходити відстань між точками простору і тим самим вирішувати проблему подібності документів – чим ближче розташовані точки, тим більш схожі відповідні документи. У разі пошуку документа за запитом, запит теж представляється як вектор того ж простору, таким чином можна обчислювати відповідність документів запиту. 

Для повного опису векторної моделі для пошукової системи необхідно вказати, яким саме чином буде розраховуватись вага терма в документі. Існує декілька стандартних способів вирахування функції зважування. 

Методи зважування термів 
• булева вага – дорівнює 1, якщо терм зустрічається в документі і 0 – у противному разі; 
• tf (term frequency, частота терма) – вага визначається як функція від кількості входжень терма в документ; 
• tf-idf (term frequency - inverse document frequency, частота терма –обернена частота документа) – вага визначається як добуток функції від кількості входжень терма в документ та функції від величини оберненої кількості документів колекції, в яких зустрічається цей терм. 
TF * IDF, 
де TF – кількість входжень терма в документ, IDF – рідкість терма в колекції. 
Зазначена модель використовується всіма пошуковими системами. 

Імовірнісна математична модель 

Підбір видачі за допомогою асесорів – це самостійне визначення людино, релевантності сторінок, порівнюючи з заздалегідь визначеними еталонними документами. 

Недолік цієї моделі полягає в тому, що зазвичай дуже важко підібрати певну кількість еталонних документів на кожне існуюче слово та слово сполучення. 

Як оцінювати результат роботи математичної моделі 

Критерії якісної роботи математичної моделі 
точність – доля релевантних документів в результаті видачі; 
щільність – доля знайдених релевантних документів в загальній кількості релевантних документів колекції; 
актуальність – відповідність посилань в результаті релевантних документів Інтернету. 

Отже ми вже знаємо, що окрім автоматичного оцінювання роботи пошукової системи, результат видачі ще оцінюють і люди – асесори. Вони використовують чітко описані правила та порівнюють з еталонними документами.

понеділок, 8 квітня 2013 р.

Чого очікувати від Інтернету в майбутньому?


Життя не стоїть на місці, так само не стоять на місці технології Інтернету. Вони увесь час вдосконалюються та розвиваються. Чого ж нам чекати від Інтернету в майбутньому? Нової технології Web 3.0.

Web 3.0 - це вузьконішні сайти. Є думка, що Мережа буде розвиватися по шляху створення все більш диференційованих вертикальних соціальних мереж. Люди будуть об'єднуватися навколо чогось конкретного: улюбленої справи, професії, захоплення, ділитися думками, давати і отримувати поради, рекомендації. Яскравий приклад сьогодні - кулінарні, медичні сайти.


Web 3.0 як соціальна інституція - рекомендаційна, в основі якої лежить принцип автоматичний, рекомендований. На думку експертів, Web 3.0 такого роду буде відрізняється від Web 2.0 тим, що користувачі не тільки самі будуть створювати контент, але самі ж його сертифікуватимуть: відзначатимуть те, що заслуговує уваги їх однодумців.
Основна технологія Web 3.0 - це соціальна CMS, тобто CMS з доданою до неї системою управління спільнотою, яка дозволяла б спільноті "вирощувати" своїх "менеджерів знань" і давати їм додаткові можливості і права при роботі з контентом (модерація форумів, редагування і публікація статей, проведення консультацій і підготовка офлайнових заходів, дизайн та програмні доопрацювання сайту, і т.д.).
Наскільки технологія Web 3.0 буде кращою від уже існуючих технології? Подивимось.

Соціальні сервіси Web 2.0


Соціальні сервіси — мережеве програмне забезпечення для підтримки групової взаємодії.


Загальні відомості

Веб 2.0 – друге покоління мережевих сервісів Інтернету. На відміну від першого покоління сервісів (the mostly read-only Web) Веб 2.0 (the wildly read-write Web) дозволяє користувачам спільно діяти - обмінюватися інформацією, зберігати посилання та мультимедійні документи, створювати та редагувати публікації, тобто відбувається налагодження соціальної взаємодії. Тому технології Веб 2.0. ще називають соціальними сервісами Інтернету.

Принципи функціонування Веб 2.0
Важливим аспектом Веб 2.0 є зміна пріоритетів та акцентів у використанні технологій та задоволенні потреб користувачів. Так, Веб 1.0 орієнтувався на розвиток технологій комп'ютерної взаємодії, а Веб 2.0 розвиває технології орієнтовані на користувачів. Нові інформаційні технології суттєво впливають на колективні способи спілкування, мислення та дій. До основних принципів Веб 2.0 можна віднести невід’ємне право користувачів самостійно створювати контент, маніпулювати ним та управляти зв’язками між своїми та чужими матеріалами, отже мова йде про скоординовану активність окремих користувачів по формуванню та наповненню мережі контентом.

10 найпопулярніших сервісів Web 2.0 

10 місце: Пошукова система "Rambler"
У свій час пошукова система Rambler була найпопулярнішою в рунеті, але пізніше поступилася лідерством Яндексу. Rambler створений в 1996 році.

9 місце. Соціальна мережа Facebook.
Соціальна мережа, заснована в 2004 році Марком Цукербергом і його сусідами по кімнаті під час навчання в Гарвардському університеті, в тому числі Едуардо Саверіна, Дастіном Московіца і Крісом Хьюзом . Завдяки своєму сайту Марк Цукерберг став наймолодшим мільярдером в свої 23 роки.

8 місце: Платформа для блогів "LiveJournal"
Живий журнал, ЖЖ (англ. LiveJournal, LJ) - блог-платформа для розміщення онлайнових щоденників (блогів), або якийсь окремий блог ("щоденник", "журнал") на цій платформі. Пропонує звичайний для блогів набір функцій : можливість публікації записів, їх коментування читачами і так далі; також є зручні додаткові функції, багато хто з яких доступний безкоштовно будь-якому охочому. До недавнього часу відрізнявся відсутністю обов'язкової реклами у безкоштовних блогах.

7 місце: Соціальна мережа "Однокласники.ru"
Однокласники.ru - соціальна мережа, використовувана для пошуку однокласників, однокурсників і колишніх випускників. Проект запущений 4 березня 2006 року. Автор проекту - Альберт Попков. На січень 2009 року зареєстровано більше 27 мільйонів користувачів, відвідуваність сайту - 6 млн відвідувачів в добу. Однокласники.ru - російський аналог сайту Classmates.com. Сайт призначений для пошуку і листування з колишніми однокласниками, однокурсниками, товаришами по службі і колегами по роботі. Також можна знайти знайомих з курортів.

6 місце: Енциклопедія " Вікіпедія"
Вікіпедія (англ. Wikipedia) - вільна загальнодоступна багатомовна універсальна енциклопедія, підтримувана некомерційною організацією "Фонд Викимедиа". Назва утворена від слів "вики" (технології для створення сайтів) і "енциклопедія". 12 мільйонів статей Вікіпедії (на російській - 353 947) написано спільно добровольцями зі всього світу, і усі ці статті можуть бути змінені ким завгодно, кому доступний сайт Вікіпедії

5 місце: Сервіс відео-хостингу "YouTube"
YouTube (русск. Ютьюб, Телевізор, назва обіграє жаргонне boob tube "телик", "ящик") - сервіс, що надає послуги хостингу відеоматеріалів. Користувачі можуть додавати, переглядати і коментувати ті або інші відеозаписи. Завдяки простоті і зручності використання, YouTube став одним з найпопулярніших місць для розміщення відеофайлів. На сайті представлені як професійно зняті фільми і кліпи, так і любительські відеозаписи, включаючи відеоблоги.

4. Пошукова система Гугл (Google)
Google - пошукова система, що належить корпорації Google Inc.
Перша по популярності (77,05% [2]), обробляє 41 млрд 345 млн запитів в місяць (частка ринку 62,4%), індексує більше 8 мільярдів веб-сторінок, може знаходити інформацію на 191 мові (c 15 жовтня 2009). Зараз реєструє щодня близько 50 млн пошукових запитів і індексує більше 8 мільярдів веб-сторінок.

3 місце: Соціальна мережа "В Контакті"
"ВКонтакте" - це мережевий проект, який допомагає людям підтримувати зв'язок з близькими людьми. Ресурс почав своє існування в 2006 році, саме тоді 1 жовтня було зареєстровано доменне ім'я vkontakte.ru на компанію ТОВ "В Контакті". Але фактично відправною точкою проекту можна вважати початок літа 2006 року, коли була запущена попередня альфа-версія. Швидкий ріст популярності проекту забезпечив інтерес з боку інвесторів - ще б, адже за 2007 рік сайт "ВКонтакте" спочатку увійшов до 20 самих відвідуваних ресурсів інтернету за версією Alexa.com, а потім і зовсім став першим, випередивши іншу соціальну мережу "Однокласники".
На даний момент "ВКонтакте" - соціальна мережа, російський аналог сервісу Facebook. Сайт спочатку позиціонував себе в якості соціальної мережі студентів і випускників російських вищих учбових закладів, пізніше - як універсальний спосіб зв'язку для усіх соціальних груп і віків.

2 місце: Поштова система "Пошта@Mail.ru"
Mail.Ru займає лідируючу позицію серед безкоштовних поштових сервісів, надаючи своїм користувачам поштову скриньку необмеженого розміру із захистом від спаму і вірусів, перекладачем, перевіркою правопису, архівом для зберігання фотографій і багато що інше. Через поштові скриньки Mail.Ru щодня проходить більше 35 мільйонів листів.

1 місце: Пошукова система "Яндекс"
Назва Яндекс - скорочення двох слів : "Мовний" і "Index". Яндекс з'явився до www.yandex.ru. Слово Яндекс придумали в 1993 році, а публічно воно було вимовлене в 1996 році і означало тоді не компанію і не пошукову машину, а технологію пошуку по власному серверу і морфологічну приставку до пошукової системи Altavista.com. Пошук Яндекса дозволяє шукати по Рунету документи на російській, українській, білоруській, румунській, англійській, німецькій і французькій мовах з урахуванням морфології російської і англійської мов і близькості слів в реченні.

Веб 2.0

Веб 2.0 (англ. Web 2.0) — поняття, яким користуються для позначення ряду технологій та послуг Інтернету, точніше його частини — всесвітньої павутини, відомої також якВеб (англ. WWWeb). Окрім цього цим поняттям описують зміну сприйняття Інтернету користувачами.
Термін вперше зустрічається в статті Darcy DiNucci "фрагменти майбутнього" (англ. "Fragmented Future") в січні 1999. У 2004 про нього заговорили, як про нову концепцію, на конференції організованій видавництвом О'Рейлі медіа (англ. O'Reilly Media) та МедіаЛайв (англ. MediaLive, сьогодні англ. CMP Technology).

Відмінності Web 1.0 та Web 2.0

Предмет обговоренняWeb 1.0Web 2.0Нові риси
Учасники1. розробник і користувач
2. автор контенту і читач
1. користувач як співрозробник
2. читач як співавтор
3. товариство
Право на участь; скасування сторонньої регламентуючої сторони (модерації);
Програмне забезпечення1. ПЗ створювалось для ПК
2. ПЗ — товар
3. закриті вихідні коди, АРІ
4. ліцензійний продаж
5. прив'язка ПЗ до обладнання
6. націленість на винахід
7. запланований реліз
8. для перегляду контенту використовується браузер
1. ПЗ створюється для веб
2. ПЗ — сервіс, додаток
3. відкриті вихідні коди, API, open-source software
4. ПЗ може бути безкоштовним
5. софт поверх обладнання
6. пошук застосування вже винайденому
7. «вічна бета»
8. альтернативні засоби відображення
Веб як платформа; зняття та розмивання бар'єрів та обмежень (вільний доступ, універсальність, спрощення);
Контент1. Поповнення баз даних:
а) плата постачальнику контенту;
б) наймання добровольців;
2. Дані організовуються таксономічно (ієрархія рубрик);
3. Засоби збереження даних — каталог, бібліотека, сховище;
4. Односторонні посилання;
5. Форма представлення — персональні сторінки;
6. Статичний сайт;
7. Адресу має сторінка сайту;
8. Джерело — розум автора контенту;
9. Меню навігації сайту для роботи з даними цього сайту;
10. Копірайт;
11. Для сприйняття контенту потрібне відвідування сайту, переходячи по посиланню чи закладці;
1. Поповнення баз даних — те, що має один, відразу стає доступне кожному;
2. Дані організовуються фолксономічно;
3. Засоби використання даних — API-інтерфейси;
4. Автоматичні двосторонні посилання;
5. Форма представлення — блоги;
6. Динамічний сайт;
7. Адресу має мікроелемент контенту;
8. Джерело — колективний розум;
9. Інтерфейс для роботи з даними по всій мережі;
10. «Вільна» ліцензія GNU FDL;
11. Для сприйняття контенту не потребується відвідування сайту — можливість читати RSS -стрічки;
Мережа як єдиний колективний розум, атомізація контенту, агрегація, синдикація
Події1. Замовлення та виготовлення програмного забезпечення;
2. Публікація контенту авторами і сприйняття його читачами;
3. Звертання до третьої особи — посередника для задіяня його ресурсів;
4. Великі, не багато численні угоди;
1. Співпраця через відділ технічної підтримки програмного забезпечення;
2. Взаємодія, додавання властивостей, цінності, створення спільного контенту кожним учасником;
3. Самообслуговування, яке засноване на партнерській архітектурі сервісу — сервіс лиш посередник між користувачами, які використовують їх власні ресурси;
4. Дрібні багато численні транзакції;
Співпраця;, самодіяльність; масові одиничні взаємовідносини;
Цінність та вартість1. Вся цінність в ПЗ — хто володіє ПЗ, той і заробляє на цьому гроші;
2. Інтернет цінний як джерело інформації;
1. Вся цінність в базах даних — хто володіє базами даних та сервісами для роботи з ними, той заробляє на цьому гроші;
2. Інтернет цінний як інструмент комунікацій;
Робота з базами даних; сервіс, а не продукт; економія часу та уваги;










Web 2.0 базується на декількох старих, однак по новому осмислених технологіях:
Ці технології дозволили винести веб на якісно новий рівень, однак потрібно усвідомлювати, що самі по собі дані технології не є революційними, революцію Web 2.0 зробили методики використання даних технологій.

Портал бібліотеки імені В. Вернадського.

Електронні наукові фахові видання

  • Актуальні питання біології, екології та хімії
  • Аннали Мечниковського інституту
  • Вісник Вищої ради юстиції
  • Вісник кредитно-економічного факультету Київського національного економічного університету імені Вадима Гетьмана
  • Вісник Національної академії Державної прикордонної служби України
  • Вісник Східноукраїнського національного університету імені Володимира Даля
  • Демократичне врядування
  • Державне будівництво
  • Державне управління: теорія та практика
  • Державне управління: удосконалення та розвиток
  • Економіка: реалії часу
  • Економіка. Управління. Інновації
  • Енергетика і автоматика
  • Ефективна економіка
  • Європейські студії і право
  • Збірник наукових праць Національного університету державної податкової служби України
  • Інформаційні технології і засоби навчання
  • Історія науки і біографістика
  • Когніція, комуникація, дискурс
  • Ліки України плюс
  • Морфологія
  • Народна освіта
  • Науковий вісник Таврійського державного агротехнологічного університету
  • Наукові вісті Далівського університету
  • Наукові доповіді Національного університету біоресурсів і природокористування України
  • Наукові праці Вінницького національного технічного університету
  • Научный вестник Донбасской государственной машиностроительной академии
  • Національне господарство України: теорія та практика управління
  • Освітологічний дискурс
  • Підводні дослідження: Археологія. Історія. Дайвінг
  • Право та управління
  • Проблеми системного підходу в економіці
  • Проблеми телекомунікацій
  • Публічне адміністрування: теорія та практика
  • Соціально-економічні проблеми і держава
  • Спортивна наука України
  • Таврійські студії
  • Теоретичні та прикладні питання державотоворення
  • Теорія та методика управління освітою
  • Технології розвитку інтелекту
  • Технології та дизайн
  • Форум права
  • Часопис Академії адвокатури України
  • Часопис Національного університету "Острозька академія". Серія "Право"
  • Чернігівський науковий часопис Чернігівського державного інституту економіки і управління. Серія 1, Економіка і управління
  • Чернігівський науковий часопис Чернігівського державного інституту економіки і управління. Серія 2, Техніка і природа
  • Електронні бібліотеки України


  • BookLand - магазин электронних книг
  • Українська бібліотека — «Джерело»
  • UkrReferat.com
  • AtlasUa - Карти міст і сіл України
  • Библиотека проекта VAKh Online
  • Большая Одесская библиотека
  • Большая онлайн библиотека e-Reading
  • Большая электронная библиотека
  • Весна :: Словник - Vesna :: Dictionary
  • Галерея АРТкросс
  • Електронна бібліотека української літератури (Канада)
  • Ізборник — 2002
  • Історія України
  • Литературная информационно-поисковая система-каталог
  • ЛитПасека
  • Мир слова русского
  • Мислене древо  (Українські інформаційні ресурси для освіти і науки)
  • Наукова бібліотека ЗДУ
  • Научная электронная библиотека Украины - Scientific Electronic Library of Ukraine
  • Нотный архив Дениса Бурякова
  • Поетика: бібліотека української поезії
  • Произведения украинских литераторов
  • PSYLIB - ПСИХОЛОГИЧЕСКАЯ БИБЛИОТЕКА
  • Слово (Київ)
  • Удобная народная библиотека
  • Українська бібліотечка
  • Українська сучасна лiтература
  • Электронная библиотека
  • Электронная библиотека компании "Небесная сеть"