Otwarty OCR od Google Strona główna Aktualności06.09.2006 11:11 Udostępnij: O autorze msliwa Właściciel najpopularniejszej wyszukiwarki poinformował niedawno o otwarciu kodu źródłowego silnika do optycznego rozpoznawania znaków (OCR) - Tesseract, stworzonego w laboratoriach firmy Hewlett Packard. System był tworzony w latach 1985 - 1995, wtedy znalazł się w pierwszej trójce konkursu zorganizowanego przez Uniwersytet Nevada w Las Vegas. Niestety, krótko po tym, firma HP zrezygnowała z inwestycji w tą technologię, od tego czasu aplikacja nie była rozwijana. Rok temu, grupa pracowników firmy stwierdziła, że szkoda byłoby, żeby cały nakład pracy włożony w jej rozwój poszedł na marne i postanowiono o otwarciu źródeł. Pracę nad projektem przejął instytut zajmujący się technologiami informacyjnymi na Uniwersytecie Nevada, któremu aktywnie pomaga firma Google. Poprawiono najważniejsze błędy, a w czerwcu tego roku zdecydowano o opublikowaniu źródeł. Tesseract obsługuje aktualnie tylko język angielski, nie potrafi jeszcze analizować układu strony, słabo radzi sobie z wielokolumnowym tekstem. Pomijając te niedociągnięcia, Tesseract osiąga najlepsze wyniki odczytu tekstu wśród otwartych narzędzi do OCR. Więcej informacji o projekcie na stronie domowej w serwisie SourceForge.net. Udostępnij: © dobreprogramy Zgłoś błąd w publikacji Zobacz także Google Chrome dostaje łatki szybciej niż kiedyś. Wkrótce mogą być wydawane co tydzień 4 lut 2020 Oskar Ziomek Oprogramowanie Internet Bezpieczeństwo 33 Google bawi się w nauczyciela. Każdego dnia nauczy cię czegoś nowego 1 lut 2020 Piotr Urbaniak Internet Poradniki 14 Google Chrome 80 z SameSite cookies. Mały przewrót w dziedzinie zarządzania ciasteczkami 5 lut 2020 Piotr Urbaniak Oprogramowanie Internet Bezpieczeństwo 18 Wyciek w Google: twoje filmy mogły trafić w obce ręce 4 lut 2020 Oskar Ziomek Oprogramowanie Internet Bezpieczeństwo 54
Udostępnij: O autorze msliwa Właściciel najpopularniejszej wyszukiwarki poinformował niedawno o otwarciu kodu źródłowego silnika do optycznego rozpoznawania znaków (OCR) - Tesseract, stworzonego w laboratoriach firmy Hewlett Packard. System był tworzony w latach 1985 - 1995, wtedy znalazł się w pierwszej trójce konkursu zorganizowanego przez Uniwersytet Nevada w Las Vegas. Niestety, krótko po tym, firma HP zrezygnowała z inwestycji w tą technologię, od tego czasu aplikacja nie była rozwijana. Rok temu, grupa pracowników firmy stwierdziła, że szkoda byłoby, żeby cały nakład pracy włożony w jej rozwój poszedł na marne i postanowiono o otwarciu źródeł. Pracę nad projektem przejął instytut zajmujący się technologiami informacyjnymi na Uniwersytecie Nevada, któremu aktywnie pomaga firma Google. Poprawiono najważniejsze błędy, a w czerwcu tego roku zdecydowano o opublikowaniu źródeł. Tesseract obsługuje aktualnie tylko język angielski, nie potrafi jeszcze analizować układu strony, słabo radzi sobie z wielokolumnowym tekstem. Pomijając te niedociągnięcia, Tesseract osiąga najlepsze wyniki odczytu tekstu wśród otwartych narzędzi do OCR. Więcej informacji o projekcie na stronie domowej w serwisie SourceForge.net. Udostępnij: © dobreprogramy Zgłoś błąd w publikacji