Когато бях студент понякога си мечтаех за технология, способна да извади и систематизира от учебниците и статиите, които трябваше да чета за изпитите си, най-важните факти, основните идеи и да ми направи кратко, но съдържателно обощение на една страничка. Е, 25 години по-късно такава технология за семантичен анализ на текстове вече съществува. Изобретена е от малкия екип на иновативната американска компания Topicmarks и отскоро е достъпна онлайн в beta версия.

Уеб базираният инструмент Topicmarks е с изключително user friendly интерфейс, лек за онлайн ползване и действително успява за секунди или за 1-2 минути (в зависимост от обема на текста) да направи сравнително точен и качествен семантичен анализ на качения документ.Технологията работи с най-разпространените текстови файлови формати: Adobe Acrobat PDF (.pdf), Microsoft Word (.doc, .docx), OpenOffice ODF text (.odt), Hypertext Markup Language (.htm, .html) и Plain text (.txt).

topicmarks

Те могат да бъдат ъплоуднати, събминтати като линк или просто „paste-нати” за анализ.Създаденият от технологията Topicmarks краен продукт е наречен от създателите й “text knode” (нова дума – от сливането на “knowledge” and “node”). Тя представлява своеобразен синопсис на текста в 6 секции:

  • Overview (общ преглед на най-важното)
  • Facts (подредени по тяхната тежест в текста)
  • Summary (обобщение с възможност за регулиране от 3 до 50 изречения и подреждане като текст, булети, лист и др.)
  • Keywords (във формата на tag cloud)
  • Index (по азбучен ред) и
  • Properties на документа.

 

А ето и нагледна илюстрация – Overview на един примерен текст – популярната статия на проф. Майкъл Портър и Марк Креймър за Harward Business Review „Creating Shared Value”:

topicmarks-synopsis

Естествено, като се има предвид, че технологията е още в тестов период, могат да се открият и немалко неточности  в генерираните text knodes, но лично за мен крайния резултат дори и на този етап е изненадващо удовлетворителен. Всеки сам може да пробва Topicmarks и да прецени релевантността на семантичниа анализ и полезността на произведения синопсис.

Важно е да се знае, че има и ограничения – технологията работи засега само с текстове на английски език, а лимитът на на документите е 120 стандартни страници (30,000 думи), а обемът на файловете  – не повече от 12 мегабайта. За в бъдеще се предвижда да се въведе premium платено ниво, на което няма да има ограничения.

roland-topicmarks

Topicmarks е съвсем млад start up, който неотдавна – през февруари, успя да си спечели финансиране като победи на конкурса на Founder Showcase, а съвсем наскоро създателят на Mint.com Арон Пацер обяви ще изнвестира 700 000 долара в компанията.

В момента, екипът й работи усилено по подобряването на семантичната технология и пускането на официалната версия, в която ще бъдат вложени и опции за интеграция с платформи като Evernote, Scribd и Dropbox, като и възможност за анализ на RSS емисии и дестилация на най-важното от social media streams.

CEO на Topicmarks е Роланд Сийбълинк. Може да го следвате в Twitter , също и Twitter акаунта на компанията. Вижте и видеото горе вдясно.