<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Crossroad Blog</title>
	<atom:link href="http://blog.crossroad.sk/feed" rel="self" type="application/rss+xml" />
	<link>http://blog.crossroad.sk</link>
	<description>Business, ideas, tech &#38; more</description>
	<lastBuildDate>Thu, 15 Dec 2011 10:29:13 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3</generator>
		<item>
		<title>The Art of Winning an Unfair Game</title>
		<link>http://blog.crossroad.sk/moneyball</link>
		<comments>http://blog.crossroad.sk/moneyball#comments</comments>
		<pubDate>Thu, 15 Dec 2011 10:10:18 +0000</pubDate>
		<dc:creator>dodio</dc:creator>
				<category><![CDATA[standard]]></category>

		<guid isPermaLink="false">http://blog.crossroad.sk/?p=268</guid>
		<description><![CDATA[Moneyball: The Art of Winning an Unfair Game In a book &#38; movie there&#8217;s poor Oakland Athletics baseball team seeking for a way how to compete against rich giants such as New Your Yankees. In the real life the competition is usually unfair. Some people complain. Some resign. And there are few who find own [...]]]></description>
			<content:encoded><![CDATA[<p><a href="http://blog.crossroad.sk/wp-content/uploads/2011/12/moneyball-poster.jpg"><img title="Moneyball book" src="http://upload.wikimedia.org/wikipedia/en/thumb/c/cd/Moneyballsbn.jpg/200px-Moneyballsbn.jpg" alt="Moneyball: The Art of Winning an Unfair Game" width="200" height="306" /><img class=" wp-image-273 alignnone" title="Moneyball Movie" src="http://blog.crossroad.sk/wp-content/uploads/2011/12/moneyball-poster.jpg" alt="Moneyball poster" width="200" height="306" /></a></p>
<p><em><strong>Moneyball: The Art of Winning an Unfair Game</strong></em></p>
<p>In a book &amp; movie there&#8217;s poor Oakland Athletics baseball team seeking for a way how to compete against rich giants such as New Your Yankees.</p>
<p>In the real life the competition is usually unfair. Some people complain. Some resign. And there are few who find own way to score a goal in unfair game. Think different than mainstream.</p>
<p>Concept is general, applications uncountable.</p>
<p>Good luck! If you missed something here watch the movie and read the book.</p>
<p><iframe width="560" height="315" src="http://www.youtube.com/embed/pgh6HQSM1gM" frameborder="0" allowfullscreen></iframe><br />
And enjoy this amazing song from the movie.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.crossroad.sk/moneyball/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Ideas</title>
		<link>http://blog.crossroad.sk/ideas</link>
		<comments>http://blog.crossroad.sk/ideas#comments</comments>
		<pubDate>Thu, 18 Aug 2011 10:16:20 +0000</pubDate>
		<dc:creator>dodio</dc:creator>
				<category><![CDATA[standard]]></category>

		<guid isPermaLink="false">http://blog.crossroad.sk/?p=260</guid>
		<description><![CDATA["and clearly demonstrate to the client why it is valuable for them to be more open with you" "Wherever possible this (client value) should be measured by profitability rather than revenue." -Ross Dawson Client knowledge: In what areas do we know we need to improve our client knowledge? What action steps will enhance our knowledge [...]]]></description>
			<content:encoded><![CDATA[<pre>"and clearly demonstrate to the client why it is valuable for them to be more open with you"</pre>
<pre>"Wherever possible this (client value) should be measured by profitability rather than revenue."</pre>
<pre>-Ross Dawson</pre>
<pre>Client knowledge: In what areas do we know we need to
improve our client knowledge? What action steps will
enhance our knowledge in these areas? How can we
uncover other issues at the client we do not know to ask
about?
• Client openness: What can we do to get the client to be more
open and disclose more? What will clearly demonstrate to the
client the value of being more open? How do we gain greater
client access, attention, and interaction?
• Adding value with knowledge: How do we add clear value to
client knowledge, decision making, and capabilities?
• Customization: How do we apply deep client knowledge to
customizing information and service delivery in ways that are
meaningful to the client? How do we adapt our engagement
style and interaction to the client?
• Client recognition of value: How do we demonstrate to the
client we are using deep knowledge of their business to their
benefit? How do we get the client to acknowledge the value of
service customization and knowledge transfer? How do we
shift to new pricing models that reflect the additional value
created for the client?</pre>
]]></content:encoded>
			<wfw:commentRss>http://blog.crossroad.sk/ideas/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>5 najlepších kníh o data-miningu</title>
		<link>http://blog.crossroad.sk/5-najlepsich-knih-o-data-miningu</link>
		<comments>http://blog.crossroad.sk/5-najlepsich-knih-o-data-miningu#comments</comments>
		<pubDate>Thu, 23 Jun 2011 22:09:36 +0000</pubDate>
		<dc:creator>dodio</dc:creator>
				<category><![CDATA[Tech]]></category>
		<category><![CDATA[books]]></category>
		<category><![CDATA[data-mining]]></category>

		<guid isPermaLink="false">http://blog.crossroad.sk/?p=257</guid>
		<description><![CDATA[Prvý data-miningový projekt pre veľkú banku sme dodávali s knihou v ruke. Ono sa to ani nezdá ako pár strán papiera požičaných z knižnice môže pomôcť dodať milionový projekt. A nováčikom vytvoriť image skúsených. Ktoré knihy by mal data-miner mať v knižnici? #1 Olivia Par Rud: Data-mining Cookbook (http://www.martinus.sk/?uItem=10580) Kuchárka s receptami pre data-mining. Krok [...]]]></description>
			<content:encoded><![CDATA[<p>Prvý data-miningový projekt pre veľkú banku sme dodávali s knihou v ruke. Ono sa to ani nezdá ako pár strán papiera požičaných z knižnice môže pomôcť dodať milionový projekt. A nováčikom vytvoriť image skúsených. Ktoré knihy by mal data-miner mať v knižnici?</p>
<p><span id="more-257"></span><strong>#1 Olivia Par Rud: Data-mining Cookbook </strong></p>
<p><strong> </strong>(<a href="http://www.martinus.sk/?uItem=10580">http://www.martinus.sk/?uItem=10580</a>)</p>
<p>Kuchárka s receptami pre data-mining. Krok po kroku rieši typické úlohy &#8211; hlavne reakciu v marketingovej kampani, hodnotenie rizika, segmentácie. Príklady v SASe sú fakt skvelé &#8211; teda hlavne pre tých, čo majú SAS. Vyšla aj v slovenčine, ale kúpiť ju je už skoro nemožné.</p>
<div class="wp-caption aligncenter" style="width: 110px"><img title="data mining cookbook" src="http://www.martinus.sk/data/tovar/_l/10/l10580.jpg" alt="" width="100" height="130" /><p class="wp-caption-text">Data mining cookbook od Olivie Parr Rud</p></div>
<p>&nbsp;</p>
<p><strong>#2 Linoff, Berry: Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management</strong></p>
<p>Títo chlapíci idú k veci z inej strany. Popisujú vlastnú metodiku &#8211; Virtuous Cyrcle of data-mining, nezabudnú popísať všetky bežné metódy a aplikácie. Každopádne inšpiratívne. Iba v angličtine.</p>
<p><img class="aligncenter" title="Data mining for CRM" src="http://ecx.images-amazon.com/images/I/51TkI%2BejUqL._BO2,204,203,200_PIsitb-sticker-arrow-click,TopRight,35,-76_AA300_SH20_OU01_.jpg" alt="Data mining for CRM" width="300" height="300" /></p>
<p><strong>#3 Tom Davenport: Competing On Analytics </strong></p>
<p><strong> </strong>(<a href="http://www.tomdavenport.com/books.html#coa">http://www.tomdavenport.com/books.html#coa</a>)</p>
<p>Davenportovi sa podarilo vysvetliť, čo je to analytika, kto, prečo a načo ju môže používať. Nie je to kniha o metódach a algoritmoch. Je to o prínosoch a organizácií analytických projektov. Lahôdka. V angličtine.</p>
<p><img class="aligncenter" title="Davenport: Competing on Analytics" src="http://www.tomdavenport.com/coabook.jpg" alt="Davenport: Competing on Analytics" width="148" height="224" />Neskončil pri tejto knihe a koho zaujala, mal by si prečítať aj ďalšiu: <strong>Analytics at Work: Smarter decision-better results (<a href="http://www.tomdavenport.com/books.html">http://www.tomdavenport.com/books.html</a>)</strong></p>
<p><strong>4. Ján Paralič: Objavovanie znalostí v databázach</strong></p>
<p><strong><a href="http://people.tuke.sk/jan.paralic/knihy/ObjavovanieZnalostivDB.pdf">http://people.tuke.sk/jan.paralic/knihy/ObjavovanieZnalostivDB.pdf</a></strong></p>
<p>Niekedy je ťažké pochopiť a cudzí jazyk kníh chápanie ešte komplikuje. Táto kniha hovorí našim jazykom a popisuje metodiku KDD procesu, algoritmy a veľa užitočnej teórie. O aplikáciach tam toho ale veľa nenájdete. V slovenčine.</p>
<p><strong>5. Andrew Moore: Statistical Data-Mining Tutorial</strong></p>
<p><a href="http://www.autonlab.org/tutorials/">http://www.autonlab.org/tutorials/</a></p>
<p><a href="http://www.autonlab.org/tutorials/"></a>Tak Andrew to vie. Na jeho webe nájdete veľmi odborné a zároveň zrozumiteľné prednášky &#8211; výnimočná kombinácia. Ak ste dobrí a chcete sa stať lepším, ideálne miesto.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.crossroad.sk/5-najlepsich-knih-o-data-miningu/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Ohrozuje data-mining súkromie?</title>
		<link>http://blog.crossroad.sk/ohrozuje-data-mining-sukromie</link>
		<comments>http://blog.crossroad.sk/ohrozuje-data-mining-sukromie#comments</comments>
		<pubDate>Thu, 23 Jun 2011 12:09:58 +0000</pubDate>
		<dc:creator>dodio</dc:creator>
				<category><![CDATA[Tech]]></category>
		<category><![CDATA[data-mining]]></category>
		<category><![CDATA[privacy]]></category>

		<guid isPermaLink="false">http://blog.crossroad.sk/?p=254</guid>
		<description><![CDATA[Na mnohých miestach sa môžte dočítať o hrozbách, ktoré so sebou analýza dát môže priniesť. Je potrebné sa báť ? A ak áno, tak čoho? Dáta mining je podľa definície proces objavovania zaujímavých a užitočných vzorov v dát. Je to cielený proces za jasne stanoveným účelom. Napríklad: aký zákazníci si zvyčajne kupujú pivo? Odpoveď na [...]]]></description>
			<content:encoded><![CDATA[<p>Na mnohých miestach sa môžte dočítať o hrozbách, ktoré so sebou analýza dát môže priniesť. Je potrebné sa báť ? A ak áno, tak čoho?</p>
<p><span id="more-254"></span></p>
<p>Dáta mining je podľa definície proces objavovania zaujímavých a užitočných vzorov v dát. Je to cielený proces za jasne stanoveným účelom.</p>
<p>Napríklad: aký zákazníci si zvyčajne kupujú pivo?</p>
<p>Odpoveď na otázku &#8220;aký&#8221; príde najčastejšie vo forme pravidiel..</p>
<p>Príklad pravidiel pre nákup piva môže byť:</p>
<p>- zákazník má viac ako 18 rokov (aká veda, keď mladším pivo nepredajú)</p>
<p>- v nákupnom košíku nie je mlieko (skúšali ste pivo zapiť mliekom? kto skúsil mi dá zapravdu, že to už neurobí)</p>
<p>- ten, kto vrátil nejaké fľaše (čo iné okrem piva sa predáva vo vrátnych fľašiach? mlieko sme už škrtli)</p>
<p>- a možno niečo prekvapivé k tomu</p>
<p>Nikde tu nie je informácia, že môj sused Fero si kúpi pivo! Prečo? Aj keď Fero pivo rád, data-mining je na vyššej úrovni &#8211; skupiny ľudí, nie jednotlivci. Všeobecné pravidlá namiesto konkrétnych ľudí.</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.crossroad.sk/ohrozuje-data-mining-sukromie/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Dáta pre data-mining</title>
		<link>http://blog.crossroad.sk/data-pre-data-mining</link>
		<comments>http://blog.crossroad.sk/data-pre-data-mining#comments</comments>
		<pubDate>Tue, 01 Feb 2011 23:58:55 +0000</pubDate>
		<dc:creator>dodio</dc:creator>
				<category><![CDATA[Tech]]></category>
		<category><![CDATA[dáta]]></category>
		<category><![CDATA[data-mining]]></category>

		<guid isPermaLink="false">http://blog.crossroad.sk/?p=229</guid>
		<description><![CDATA[Objavovanie znalostí s využitím techník data-miningu je vhodným nástrojom podporujúcim riešenia celej rady zložitých problémov. Fundamentálny otázka pri každom projekte využívajúcom data-mining je dostupnosť a kvalita dát. Dnešné algoritmy sú dostatočne vyvinuté, aby dokázali vytvárať nad dátami spoľahlivé modely, ktoré následne slúžia pre predikciu alebo klasifikáciu ďalších prípadov. Pre algoritmy je to jednoduchá úloha, takmer [...]]]></description>
			<content:encoded><![CDATA[<div id="_mcePaste">Objavovanie znalostí s využitím techník data-miningu je vhodným nástrojom podporujúcim riešenia celej rady zložitých problémov.</div>
<div id="_mcePaste">Fundamentálny otázka pri každom projekte využívajúcom data-mining je dostupnosť a kvalita dát. Dnešné algoritmy sú dostatočne vyvinuté, aby dokázali vytvárať nad dátami spoľahlivé modely, ktoré následne slúžia pre predikciu alebo klasifikáciu ďalších prípadov. Pre algoritmy je to jednoduchá úloha, takmer nad akýmikoľvek dátami vytvoria optimálny model. Optimálny z pohľadu štatistiky. Otázkou však ostáva, či je vhodný aj pre riešenie pôvodnej úlohy a či výsledky naozaj poslúžia tak, ako očakávame. Rozhodujúcim faktorom sú dáta.</div>
<div><span id="more-229"></span></div>
<div><strong>.</strong></div>
<div><strong>Dáta áno, ale nie hocijaké</strong></div>
<div><strong>.</strong></div>
<div>Požiadaviek na dáta je hneď viacero. Mali by byť obsahovať dostatočný počet atribútov súvisiacich so zadaním. Kvalita týchto atribútov by mala byť čím najlepšia – bez spoľahlivých základných údajov nie je možné vytvoriť spoľahlivú predikciu.</div>
<div>.</div>
<div>Musia obsahovať presne špecifikovaný cieľ úlohy. To je spravidla jeden atribút, v ktorom nesmú byť chyby a ktorý by mal priamo ovplyvňovať naše obchodné ciele. Klasifikujeme alebo predikujeme práve hodnoty tohto cieľového atribútu a preto mu je potrebné venovať zvláštnu pozornosť.</div>
<div>.</div>
<div>Dát musí byť dostatok aj z pohľadu počtu pozorovaní, teda riadkov v našej databáze. A ideálne by mala byť k dispozícii aj dlhšia história pozorovaní – od niekoľkých mesiacov po niekoľko rokov dozadu. To platí pri riešení väčšiny bežných úloh v oblastiach ako sú marketing, riadenie rizika, logistiky a podobne.</div>
<div><strong> </strong></div>
<div><strong>.</strong></div>
<div><strong>Ani dátový sklad nestačí</strong></div>
<div>.</div>
<div>Existencia dátového skladu v organizácii dáva dobré predpoklady preto, aby boli tieto požiadavky na dáta splnené. Dátové sklady však majú</div>
<div>jeden problém. Dáta bývajú modelované s použitím dimenzií a ukladané v hviezdicových schémach. Problémom tohto spôsobu reprezentácie dát je, že algoritmy data-miningu s ním nie sú schopné priamo pracovať.</div>
<div>.</div>
<div><a href="http://blog.crossroad.sk/wp-content/uploads/2011/02/star_schema.jpg"><img class="aligncenter size-full wp-image-237" title="star_schema" src="http://blog.crossroad.sk/wp-content/uploads/2011/02/star_schema.jpg" alt="Dimenzný model, faktová tabuľka a dimenzie" width="320" height="299" /></a></div>
<div>.</div>
<div>Data-mining algoritmy pracujú s množinami dát, ktoré sú uložené v plochej tabuľke (flat-table). V podstate sa vyžaduje, aby boli všetky atribúty viazané priamo k vybranému typu objektu (napr. zákazník) a uložené na jednom riadku. Pokiaľ faktová tabuľka obsahuje kľúče, aby šetrila miesto a udržiavala poriadok v databáze, plochá tabuľka vygenerovaná z faktovej tabuľky by mala obsahovať priamo hodnoty, ktoré sú zrozumiteľné pre človeka. Tento prístup pomôže pri tvorbe modelov, avšak najviac sa jeho výhody ukážu pri skúmaní znalostí, ktoré sa nám z dát podarilo naučiť a extrahovať. Je veľký rozdiel, ak čítame pravidlo, že zákazníci s interným kódom 83 z mesta 17 vo vekovej skupine 4 sú najlepšia cieľová skupina pre predaj kreditných kariet, alebo rovno vidíme, že sú to študenti z Prešova, ktorí využívajú študentský preukaz aj ako platobnú kartu.</div>
<div>.</div>
<blockquote>
<div>ID   Hodnota1 Hodnota2 Hodnota3</div>
<div>1      Fero            Košice      15</div>
<div>2      Marek         Trnava       21</div>
<div>3      Miro            Zvolen       40</div>
</blockquote>
<div>.</div>
<div>Príklad &#8211; plochá tabuľka, zvykne obsahovať stovky atribútov.</div>
<div>.</div>
<div>Transformácia do plochej tabuľky má svoje úskalia. Plochá tabuľka nie je efektívny formát pre uchovávanie veľkého objemu dát. Ak by boli všetky dáta v plochých tabuľkách, vznikli by problémy s konzistenciou dát, databáza by zaberala priveľa miesta a bola veľmi pomalá. Pre data-mining je to však nevyhnutné.</div>
<div>.</div>
<div>Je v tom ešte jeden trik. V hviezdicových schémach sa s ohľadom na úsporu priestoru neukladá všetko, čo sa dá odvodiť zo základných dát. Ak je to potrebné, dá sa to vypočítať. Teraz je to vrelo odporúčané. Nový pohľad na základné dáta môže pomôcť algoritmom vytvoriť brilantnejšie modely a následne výrazne zlepšiť obchodné výsledky.</div>
<div>.</div>
<div><strong>Tak áno, či nie?</strong></div>
<div>.</div>
<div>Námaha vynaložená na vytvorenie tejto štruktúry sa vráti v podobe kvalitných modelov vytvorenými nad vhodnými dátami. Správnou prípravou dát sa vyrieši drvivá väčšina problémov a nástrah, ktoré objavovanie znalostí obnáša. A iná cesta ani nie je. Bola by ohromná škoda ukladať dáta v databázach, budovať dátové sklady a neurobiť ten posledný krok k tomu, aby tieto nástroje ukázali hodnotu, ktorú nepochybne ukrývajú.</div>
<div>.</div>
<div>Znalosti v dátach sú. Dostať ich von a správne použiť býva v úspešných firmách kľúčom k získaniu konkurenčnej výhody. Ale to je už iný príbeh.</div>
]]></content:encoded>
			<wfw:commentRss>http://blog.crossroad.sk/data-pre-data-mining/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Outsourcing v Indii? Radšej doma!</title>
		<link>http://blog.crossroad.sk/outsourcing-v-indii-radsej-doma</link>
		<comments>http://blog.crossroad.sk/outsourcing-v-indii-radsej-doma#comments</comments>
		<pubDate>Thu, 03 Dec 2009 12:45:28 +0000</pubDate>
		<dc:creator>dodio</dc:creator>
				<category><![CDATA[Career]]></category>
		<category><![CDATA[Projects]]></category>
		<category><![CDATA[outsourcing]]></category>

		<guid isPermaLink="false">http://blog.crossroad.sk/?p=221</guid>
		<description><![CDATA[local outsourcing is better than indian]]></description>
			<content:encoded><![CDATA[<div id="attachment_222" class="wp-caption alignleft" style="width: 160px"><img class="size-thumbnail wp-image-222" title="map_india1" src="http://blog.crossroad.sk/wp-content/uploads/2009/12/map_india1-150x150.jpg" alt="India" width="150" height="150" /><p class="wp-caption-text">India</p></div>
<p>Outsourcing je dnešný trend podložený ľahkou matematikou.</p>
<p>1 deň &#8211; 1 európan &#8211; X EUR</p>
<p>1 deň &#8211; 1 ind &#8211; X / 3 EUR</p>
<p>A ráta s predpokladom, že 3 Indovia sú viac ako 1 Európan.</p>
<p><span id="more-221"></span></p>
<p><strong>Predpokladá sa, že Indovia sú:</strong></p>
<p>- vyškolení a certifikovaní</p>
<p>- maximálny odborníci a profesionáli</p>
<p>- ovládajú všetko, čo si vopred poviete, aby ovládali</p>
<p><strong>A výsledkom outsourcing modelu potom majú byť:</strong></p>
<p>- úspory v nákladoch alebo viac práce za menej peňazí</p>
<p>- rovnaká pridaná hodnota</p>
<p>Ak je Ind priamo u zákazníka, treba mu platiť hotel, diéty, cestovanie. Tak nech radšej sedí doma a budeme platiť iba výkony.</p>
<p>Výkony = počet odpracovaných hodín * X / 3</p>
<p>Poznáte úspešné príklady tohto modelu? Vraj existujú.</p>
<p><strong>Mám alternatívu k Indickému modelu. </strong></p>
<p>Výhody alternatívy:</p>
<p>- všetky, ktoré má model s Indami</p>
<p>- rovnaká cena ako s Indami</p>
<p>- peniaze ostanú u nás</p>
<p>- vytvorí sa množstvo profesionálov, ktorí nášmu regiónu</p>
<p>Zamestnajme študentov a absolventov stredných škôl.</p>
<p>Vyškoľme ich, tak ako to robia v Indii.</p>
<p>Dajme im primeraný plat, aspoň taký ako v Indii.</p>
<p>Nájdime im uplatnenie primerané ich skúsenostiam.</p>
<p>Dajme im možnosť zlepšiť sa.</p>
<p><strong>Blbosť? <span style="font-weight: normal;">A poznáte nevýhody práce s Indami?</span></strong></p>
<p>- nesamostatnosť &#8211; urobia len to, čo im presne do detailu poviete &#8211; to urobí rovnako dobre študent</p>
<p>- pochybné vzdelianie &#8211; rýchle kurzy nerobia expertov na problematiku!</p>
<p>- vlastné pracovné postupy &#8211; s ktorých akceptáciou môžete mať neprekonateľný projekt</p>
<p>- pochybná kvalita výstupov &#8211; dodajú vám riešenie, ale bez akejkoľvek záruky, že je správne a tým, že sú ďaleko, ich ani nemáte ako kontrolovať</p>
<p>- časový posun &#8211; kým sa váš pracovný deň rozbehne, ich skončí</p>
<p>- nedostupnosť &#8211; ak Ind zmizne, nemáte ho ako nájsť. A Indovia miznú.</p>
<p><strong>A prečo &#8230; ?</strong></p>
<p>Prečo u nás Indovia nerobia manažérov? Veď sú lacnejší, majú certifikáty, sú trénovaní, skúsení, jazykovo zdatný a dokážu to robiť na diaľku.</p>
<p>Pretože by priviedli firmu do pekla.</p>
<p>Používame ich na menej sofistikované úlohy. A tie zvládnu rovnako dobre aj naši študenti a zaškolení ľudia so stredoškolským vzdelaním. Za veľmi podobné peniaze. Len je ich menej, keďže v Indii sú miliardy.</p>
<p><strong>Už to funguje</strong></p>
<p>Podobný koncept používa náš Soitron, T-Systems a mnoho ďalších. Vďaka im za to. Sú to úspešné firmy a potvrdzujú, že outsourcovať s nízkymi nákladmi sa dá aj bez Indov a možno oveľa lepšie.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.crossroad.sk/outsourcing-v-indii-radsej-doma/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Fast response analytics</title>
		<link>http://blog.crossroad.sk/fast-response-analytics</link>
		<comments>http://blog.crossroad.sk/fast-response-analytics#comments</comments>
		<pubDate>Wed, 21 Oct 2009 14:10:03 +0000</pubDate>
		<dc:creator>dodio</dc:creator>
				<category><![CDATA[Projects]]></category>
		<category><![CDATA[data-mining]]></category>

		<guid isPermaLink="false">http://blog.crossroad.sk/?p=216</guid>
		<description><![CDATA[Poobede spúšťame kampaň, chceme optimálny výber klientov a dobrú response rate. Pomôžete nám? S a m o z r e j m e.Čas, keď analytici mali mesiace na tvorbu analýz a modelov predikujúcich budúcnosť sa stávajú minulosťou. Dnes pred nami stoja problémy, pri ktorých hrá schopnosť rýchlo reagovať jednu z kľúčových úloh. Čo je pre [...]]]></description>
			<content:encoded><![CDATA[<p><img class="alignleft size-full wp-image-219" title="Fast response" src="http://blog.crossroad.sk/wp-content/uploads/2009/10/lightning.jpg" alt="Fast response" width="150" height="120" />Poobede spúšťame kampaň, chceme optimálny výber klientov a dobrú response rate. Pomôžete nám?</p>
<p>S a m o z r e j m e.<span id="more-216"></span>Čas, keď analytici mali mesiace na tvorbu analýz a modelov predikujúcich budúcnosť sa stávajú minulosťou. Dnes pred nami stoja problémy, pri ktorých hrá schopnosť rýchlo reagovať jednu z kľúčových úloh.</p>
<p><strong>Čo je pre rýchlu reakciu potrebné?</strong></p>
<p>1. Dostupnosť dát &#8211; aktuálne, integrované, čo najpresnejšie a vhodne predspracované dáta.</p>
<p>2. Analytická platforma &#8211; schopná rýchlo analyzovať objemy dát a výsledky bezodkladne propagovať do systémov rozhodovania.</p>
<p>3. Skúsenosť ľudských zdrojov &#8211; schopných v krátkom čase doručiť kvalitné výsledky. Aj napriek vysokej miere automatizácie v dobre navrhnutom systéme je ľudský dozor nenahraditeľný.</p>
<p><strong>Ako to dosiahnuť?</strong></p>
<p>1. Chcieť &#8211; Prvým krokom je dosiahnuť presvedčenie, že optimalizácia s využitím dátových analýz nám môže pomôcť na rôznych úrovniach &#8211; v jednej, alebo viacerých oblastiach, oddeleniach.</p>
<p>2. Môcť &#8211; Druhým je vytvoriť centrum kompetentnosti &#8211; ľudí a techniky, schopných pružne riešiť úlohy. A v čase pokoja vyhľadávať nové optimalizačné úlohy naprieč spoločnosťou.</p>
<p>3. Urobiť to &#8211; Tretím je vytvoriť procesy, ktoré dokážu na základe výstupov analýz promptne reagovať.</p>
<p><strong>Výsledok?</strong></p>
<p>Zvýšenie efektivity vo viacerých oblastiach spoločnosti pri spotrebovaní minimálnych nákladov. Správny krok k predbehnutiu konkurencie.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.crossroad.sk/fast-response-analytics/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Agile approach</title>
		<link>http://blog.crossroad.sk/agile-approach</link>
		<comments>http://blog.crossroad.sk/agile-approach#comments</comments>
		<pubDate>Wed, 21 Oct 2009 09:12:31 +0000</pubDate>
		<dc:creator>dodio</dc:creator>
				<category><![CDATA[Projects]]></category>

		<guid isPermaLink="false">http://blog.crossroad.sk/?p=214</guid>
		<description><![CDATA[Týždne strávene analýzou, dizajnom, dokumnentáciou, schvaľovaním, iteráciami. Nejde to inak? Tradičný prístup: Plan &#8211; Analyse &#8211; Design &#8211; Build &#8211; Test &#8211; Use stojí veľa. Času, prostriedkov a energie. Čo takto agilný prístup? Vytvoriť PROTOTYP (kostru, draft) a postupne ho zdokonaľovať až do finálnej fázy. Výhody? Rýchly a vývoj Prvé výsledky veľmi skoro Pribežne zapracovanie [...]]]></description>
			<content:encoded><![CDATA[<p>Týždne strávene analýzou, dizajnom, dokumnentáciou, schvaľovaním, iteráciami. Nejde to inak?</p>
<p><span id="more-214"></span>Tradičný prístup: Plan &#8211; Analyse &#8211; Design &#8211; Build &#8211; Test &#8211; Use stojí veľa. Času, prostriedkov a energie.</p>
<p>Čo takto agilný prístup? Vytvoriť PROTOTYP (kostru, draft) a postupne ho zdokonaľovať až do finálnej fázy.</p>
<p>Výhody?</p>
<ul>
<li>Rýchly a vývoj</li>
<li>Prvé výsledky veľmi skoro</li>
<li>Pribežne zapracovanie zmien (Change requests)</li>
</ul>
<p>Nevýhody?</p>
<ul>
<li>Vyžaduje vysoké nasadenie, flexibilitu a skill</li>
<li>Vyžaduje skúsenosti, aby sa aj komplexnejšie úlohy dopadli dobre</li>
</ul>
<p>Každý objednávateľ riešení by sa mal spýtať svojho dodávateľa, či je toho schopný. Ak áno, môže ušetriť 40-60% nákladov. Alebo dostať za rovnaké peniaze viac. Ak aj dá náklady bokom, tak hlavne predíde sklamaniu zo zistenia, že dizajn na papiery nespĺňa jeho požiadavky a očakávania.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.crossroad.sk/agile-approach/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Riešime Expert&#8217;s challenge 2009</title>
		<link>http://blog.crossroad.sk/riesime-experts-challenge-2009</link>
		<comments>http://blog.crossroad.sk/riesime-experts-challenge-2009#comments</comments>
		<pubDate>Sat, 17 Oct 2009 19:32:03 +0000</pubDate>
		<dc:creator>dodio</dc:creator>
				<category><![CDATA[standard]]></category>
		<category><![CDATA[data-mining]]></category>

		<guid isPermaLink="false">http://blog.crossroad.sk/?p=199</guid>
		<description><![CDATA[Moje riešenie súťaže AUS DM 2009 (http://www.tiberius.biz/ausdm09/). Hodnotenie: 1. C&#38;RT &#8211; slabé aj na train dátach 2. SVM &#8211; preučené na train, na test pod-priemerné 3. Simple linear regresion &#8211; dosahuje priemerné výsledky (27. miesto) 4. Súťaž priebežne vedie prístup: sprav X lineárnych regresií modelov na X radnom vzorkách dát a urob ich priemer. 17.10.2009 [...]]]></description>
			<content:encoded><![CDATA[<p>Moje riešenie súťaže AUS DM 2009 (<a href="http://www.tiberius.biz/ausdm09/">http://www.tiberius.biz/ausdm09/</a>).</p>
<p><span id="more-199"></span></p>
<p>Hodnotenie:</p>
<p>1. C&amp;RT &#8211; slabé aj na train dátach</p>
<p>2. SVM &#8211; preučené na train, na test pod-priemerné</p>
<p>3. Simple linear regresion &#8211; dosahuje priemerné výsledky (27. miesto)</p>
<p>4. Súťaž priebežne vedie prístup: sprav X lineárnych regresií modelov na X radnom vzorkách dát a urob ich priemer.</p>
<p>17.10.2009 20:57</p>
<p>Ok, môžme začať.</p>
<p><strong>Čo máme?</strong></p>
<p>Softvér &#8211; PASW Modeler 13</p>
<p>Hardvér &#8211; Notebook Intel Centrino CPU, 2GB ram, 4GB free HDD</p>
<p>Zadanie &#8211; zatiaľ je dostupná MEDIUM challenge &#8211; dosiahnúť max. úspešnosť na SCORE SET.</p>
<p>Train set:  25MB CSV súbor, 20 000 riadkov, 200 výsledkov modelov, 1 cieľový atribút.</p>
<p>Score set: 25MB CSV súbor, 20 000 riadkov, 200 výsledkov modelov.</p>
<p>Cieľový atribút má 2 verzie {-1,1} alebo {1,2,3,4,5}</p>
<p>Zdrojové dáta &#8211; výsledky 200 modelov, ktoré mali predikovať hodnotu z intervalu &lt;1,5&gt;</p>
<p>Hodnoty dát v train sete sú vynásobnené 1000 &#8211; t.j. pôvodný intervalu &lt;1,5&gt; bol transformovaný na &lt;1000,5000&gt; aby sa predišlo problémom s importom desatinných čiarok.</p>
<p><strong>Ako na to? Otvorené otázky&#8230;</strong></p>
<p>1. Čo predikovať?</p>
<p>a) riešiť predikciu cez pravdepodobnosť(T) z &lt;0,1&gt;</p>
<p>b) ako klasifikáciu T z {1,2,3,4,5} ?</p>
<p>c) alebo ako Ppavdepodobnosť, ktorá bude transformovaná do tried?</p>
<p>Tá transformácia by mohla byť 0.0-0,2 -&gt; 1 0, 0.2-0.4 -&gt; 2, 0.4-0.6 -&gt; 3, 0.6-0.8 -&gt;4 a 0.8-1.0-&gt;5,</p>
<p>d) alebo ešte lepšie podľa distribúcie T.</p>
<p>0.0-podiel 1 v % -&gt;1</p>
<p>podiel 1 v % &#8211; podiel 1,2 v % -&gt;2</p>
<p>podiel 1,2 v % &#8211; podiel 1,2,3 v % -&gt;3</p>
<p>podiel 1,2,3 v % &#8211; podiel 1,2,3,4 v % -&gt;4</p>
<p>podiel 1,2,3,4 v % &#8211; 1 v % -&gt;5</p>
<p>2. Ako transformovať zdrojové dát ?</p>
<p>a) Nechať 1000 až 5000,</p>
<p>b) alebo lineárne dať na 0-1? t.j. Xnew=(Xold-1000)*1000/5000</p>
<p>c) Alebo podľa distribúcie Triedy T?</p>
<p>3. Diskretizovať hodnoty?</p>
<p>a) áno &#8211; budú pekné skupiny, napr. do 8 skupín približne na 1.0-1.5, -2.0,-2.5,-3,-3.5,-4,-4.5,-5.0</p>
<p>b) nie &#8211; netreba, nemáme extrémy a navyše nám ide o najvyššiu presnosť</p>
<p>ale čo s nelineárnymi závislosťami pri Logistickej regresii, ktoré rieši práve diskretizácia (1 koeficient pre 1 numerický atribút vs. N pre 1 atribút diskretizovaný do N tried)</p>
<p>4. Generovať sub modely?</p>
<p>5. Generovať nové dáta?</p>
<p>6. Ako vyhodnocovať úspešnosť?</p>
<p>AUC vs. RMSE</p>
<p>Čo pôjde ľahšie v SPSS?</p>
<p>7. Metóda ? Strom, regresia, NN&#8230;</p>
<p>8. Ako pripraviť train vs. test set.</p>
<p>9. Porovnanie train vs. score set, sú štatisticky podobné?</p>
<p>10. Urobiť segmentáciu a vytvoriť zložený klasifikátor, pre každý segment iný?</p>
<p>- Ako segmentovať?</p>
<p><strong>21:33</strong></p>
<p>Poďme začať. Plán:</p>
<p>1. Load dát do SPSS.</p>
<p>2. Distribúcia T a P(T) v datasetoch</p>
<p>3. Skúsiť zrátať RMSE a AUC pre jeden z modelov.</p>
<p>&#8230;</p>
<p>21:35 &#8230; ideme na to</p>
<p>21:43 &#8230; atribútov je 250 + trieda + ID riadku, spolu 252, SPSS vie loadnuť iba prvých 250 t.j. strácam 2 modely, nevadí</p>
<p>21:50 &#8230; vadí, data to columns v Excely zabrali a zo 4x .CSV sú teraz 4x.XLS</p>
<p>21:53 &#8230; Load ide, základné štatistiky cez DATA AUDIT node, máme distribúciu T&#8230; nepíše hodnoty, ale početnosti 1 a 2 sú menšie, 3 a 5 stredné, 4 najväčšie, modely to +- kopírujú.</p>
<p>&#8230; mohlo by byť zaujímavé vytvoriť nový atribút Di = (T &#8211; Mi)^2 teda Diferencia i. modelu ako Správna hodnota &#8211; predikcia Modelu i &#8230; pre výber naj stĺpcov</p>
<p>22:05 Akurát to beží&#8230; Dá sa to v Modeleri cez všetky stĺpce naraz a počíta to aj sumu (R)MSE &#8230; potom sa to odmocni a vznikne RMSE (Root Mean Square Error)&#8230;</p>
<p>22:24 OK, RMSE vieme počítať -dá sa to ešte transponovať, usporiadať, odfiltrovať a máme najlepšie modely</p>
<p>Poznatok: RMSE na webe a vypočítané RMSE sa nedajú porovnať, sú počítané na inom počte záznamov</p>
<p>AUC ide počítať cez export do XLS a dodané macro, RMSE sa podarilo naskriptovať &#8230; 1-3 hotovo</p>
<p>22:37 Rozdelil som dáta na 50:50, učím C&amp;RT (Classification &amp; Regression Tree) model.</p>
<p>Najvplyvnejšie atribúty podľa CARTu &#8211; 157,181,114,120,35,20,115. Graf GAIN nestabilny&#8230; najlepsi model je 37 (RMSE podla mojho vypoctu je 124 192 894), ten nie je ani v zozname. Vysledny model ma RMSE vyse 4x vyssie.</p>
<p>CART je na prd.</p>
<p>23:25 najlepsie RMSE podla mojho vypoctu je 124 192 sa celkom zhoduje s cca 875 ktore je na webe aj na original Netflix prize&#8230; Totiz set je 200 000 riadkov z &#8220;over 1.4 million&#8221;, t.j. cca 1/7.</p>
<p>124.2 *7 = 869 &#8230; cca to sedi.</p>
<p>Skúsme, či platí, že priemer the best 10 je lepší ako the best 1. &#8230; PLATÍ. Top 10 z datasetu dáva 123 350, je the best.</p>
<p>OK&#8230; poďme zistiť, kde na train sete sme oproti riešiteľom&#8230; t.j. čím presne treba moje RMSE prenásobiť, aby sa dostala porovnateľná hodnota.</p>
<p>Small AUC the Best Expert dáva <span style="font-family: arial; line-height: normal; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px;">888.32 &#8230; skúsme, koľko dáva mne. 107 592 to nema vypovednu hodnotu, kedze 15 000 * 888 / 107 je vzdy pod pod 1.4M</span></p>
<p><span style="font-family: arial;"><span style="line-height: normal; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px;"><span style="font-family: Georgia, 'Times New Roman', 'Bitstream Charter', Times, serif; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; line-height: 19px;">18.10.2009 10:35</span></span></span></p>
<p><span style="font-family: arial;"><span style="line-height: normal; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px;"><span style="font-family: Georgia, 'Times New Roman', 'Bitstream Charter', Times, serif; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; line-height: 19px;">Na noc som pustil výpočet 7 modelov &#8211; NN, SVM, LinReg, Generalized Lin Reg, CaRT, CHAID, a este cosi dalsie. Výsledok? Out of memory exception. </span></span></span></p>
<p><span style="font-family: arial;"><span style="line-height: normal; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px;"><span style="font-family: Georgia, 'Times New Roman', 'Bitstream Charter', Times, serif; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; line-height: 19px;">OK. Tak skúsme obyčajnú Lineárnu regresiu. Vygenerovať výstup, submitnúť&#8230;. výsledok 882&#8230;. 2 body nad Base Line (884), 4 body pod najlepším výsledkom (878).</span></span></span></p>
<p>http://www.tiberius.biz/ausdm09/leaderboard.php náš tím &#8211; KKUI TU Kosice</p>
<p>Čo ďalej?</p>
<p><span style="font-family: arial;"><span style="font-family: Georgia, 'Times New Roman', 'Bitstream Charter', Times, serif;">17:24 <strong>Myšlienka:</strong></span></span></p>
<p><span style="font-family: arial;"><span style="font-family: Georgia, 'Times New Roman', 'Bitstream Charter', Times, serif;">Baseline Model je priemer prvých 10.<br />
1. Nájdime záznamy, kde model funguje. </span></span></p>
<p><span style="font-family: arial;"><span style="font-family: Georgia, 'Times New Roman', 'Bitstream Charter', Times, serif;">- Počítajme P(nefunguje), kde nefunguje znamená |predikcia &#8211; výsledok | &gt; k; k nech je napr. 1 &#8230; alebo k nech delí počet záznamov na 50%ok, 50% bad.<br />
</span></span></p>
<p><span style="font-family: arial;"><span style="font-family: Georgia, 'Times New Roman', 'Bitstream Charter', Times, serif;">2. Na zvyšných záznamoch naučme nový model.</span></span></p>
<p><span style="font-family: arial;"><span style="font-family: Georgia, 'Times New Roman', 'Bitstream Charter', Times, serif;">Použime zložený klasifikátor&#8230;. Ak P(nesprávne)&gt;0.5 then Model B else Model A</span></span></p>
<p><span style="font-family: arial;"><span style="font-family: Georgia, 'Times New Roman', 'Bitstream Charter', Times, serif;">&#8230;</span></span></p>
<p><span style="font-family: arial;"><span style="font-family: Georgia, 'Times New Roman', 'Bitstream Charter', Times, serif;">17:48 Naučil som SVM (Support Vector Machine) model &#8230; na TRAIN sample to má výborné RMSE. Púšťam skóring SCORE&#8230; 20 min? <img src='http://blog.crossroad.sk/wp-includes/images/smilies/icon_smile.gif' alt=':)' class='wp-smiley' /> </span></span></p>
<p><span style="font-family: arial;"><span style="font-family: Georgia, 'Times New Roman', 'Bitstream Charter', Times, serif;">Modle preučený na train sample.</span></span></p>
<div id="_mcePaste" style="position: absolute; left: -10000px; top: 1888px; width: 1px; height: 1px; overflow-x: hidden; overflow-y: hidden;">123350.49536203715</div>
]]></content:encoded>
			<wfw:commentRss>http://blog.crossroad.sk/riesime-experts-challenge-2009/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>How the Netflix Prize Was Won?</title>
		<link>http://blog.crossroad.sk/how-the-netflix-prize-was-won</link>
		<comments>http://blog.crossroad.sk/how-the-netflix-prize-was-won#comments</comments>
		<pubDate>Wed, 14 Oct 2009 13:26:49 +0000</pubDate>
		<dc:creator>dodio</dc:creator>
				<category><![CDATA[standard]]></category>
		<category><![CDATA[data-mining]]></category>

		<guid isPermaLink="false">http://blog.crossroad.sk/2009-10-14/how-the-netflix-prize-was-won</guid>
		<description><![CDATA[http://www.wired.com/epicenter/2009/09/how-the-netflix-prize-was-won/]]></description>
			<content:encoded><![CDATA[<p>http://www.wired.com/epicenter/2009/09/how-the-netflix-prize-was-won/</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.crossroad.sk/how-the-netflix-prize-was-won/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

